You are on page 1of 321

Introduo

O que o jornalismo de dados?

Por que jornalistas devem usar dados?

Por que o Jornalismo de Dados importante?

Alguns exemplos selecionados

Jornalismo de dados em perspectiva

O jornalismo guiado por dados numa perspectiva brasileira

Existe jornalismo de dados e visualizao no Brasil?

Na Redao

O Jornalismo de dados da ABC (Australian Broadcasting Corporation)

Jornalismo de Dados na BBC

Como trabalha a equipe de aplicativos de notcias no Chicago Tribune

Bastidores do Guardian Datablog

Jornalismo de dados no Zeit Online

Como contratar um hacker

Aproveitando a expertise dos outros com Maratonas Hacker

Seguindo o Dinheiro: Jornalismo de dados e Colaborao alm das Fronteiras

Nossas Histrias Vm Como Cdigo

Kaas & Mulvad: Contedo pr-produzido para comunicao segmentada

Modelos de Negcio para o Jornalismo de Dados

Estudos de Caso

Basmetro: Passando o poder da narrativa para o usurio

InfoAmaznia: o dilogo entre jornalismo e dados geogrficos

The Opportunity Gap: projeto de oportunidades em escolas

Uma investigao de nove meses dos Fundos Estruturais Europeus

A crise da Zona do Euro

Cobrindo o gasto pblico com OpenSpending.org

Eleies parlamentares finlandesas e financiamento de campanha

Hack Eleitoral em tempo real (Hacks/Hackers Buenos Aires)

Dados no Noticirio: WikiLeaks

Hackatona Mapa76

A cobertura dos protestos violentos no Reino Unido pelo The Guardian

Boletins escolares de Illinois (EUA)

Faturas de hospitais

Care Home Crisis: A crise da empresas de sade em domiclio

O telefone conta tudo

Quais modelos se saem pior na inspeo veicular britnica?

Subsdios de nibus na Argentina

Jornalistas de dados cidados

O Grande Quadro com o Resultado das Eleies

Apurando o preo da gua via crowdsourcing

Coletando dados

Guia rpido para o trabalho de campo

Seu Direito aos Dados

Lei de Acesso Informao no Brasil: Um longo caminho a percorrer

Pedidos de informao funcionam. Vamos us-los!

Ultrapassando Obstculos para obter Informao

A Web como uma Fonte de dados

O Crowdsourcing no Guardian Datablog

Como o Datablog usou crowdsourcing para cobrir a compra de ingressos na


Olimpada

Usando e compartilhando dados: a letra da lei, a letra mida e a realidade

Entendendo os Dados

Familiarizando-se com os dados em trs passos

Dicas para Trabalhar com Nmeros

Primeiros passos para trabalhar com dados

O po de 32 libras

Comece com os dados e termine com uma reportagem

Contando histrias com dados

Jornalistas de dados comentam suas ferramentas preferidas

Usando a visualizao de dados para encontrar ideias

Comunicando os dados

Apresentando os dados ao pblico

Como construir um aplicativo jornalstico

Aplicativos jornalsticos no ProPublica

A visualizao como carro-chefe do jornalismo de dados

Usando visualizao para contar histrias

Grficos diferentes contam histrias diferentes

O faa-voc-mesmo da visualizao de dados: nossas ferramentas favoritas

Como mostramos os dados no Verdens Gang

Dados pblicos viram sociais

Engajando pessoas nos seus dados

O que este livro (e o que ele no )


A inteno deste livro ser uma fonte til para qualquer um que possa estar
interessado em se tornar um jornalista de dados, ou em aventurar-se no
jornalismo de dados.
Muitas pessoas contriburam na sua composio, e, atravs do nosso esforo
editorial, tentamos deixar essas diferentes vozes e vises brilharem. Ns
esperamos que ele seja lido como uma conversa rica e informativa sobre o que
jornalismo de dados, por que ele importante, e como faz-lo.
Infelizmente, ler este livro no vai te dar um repertrio completo de todo o
conhecimento e habilidade necessrios para se tornar um jornalista de dados.
Para isso, seria necessria uma vasta biblioteca de informaes composta por
centenas de experts capazes de responder questes sobre centenas de tpicos.
Felizmente, essa biblioteca existe: a internet. Ainda assim, ns esperamos que
este livro possa te dar a noo de como comear e de onde procurar se voc
quiser ir alm. Exemplos e tutoriais servem para serem ilustrativos e no
exaustivos.
Ns nos consideramos muito sortudos por termos tido tanto tempo, energia, e
pacincia de todos os nossos voluntrios, e fizemos o melhor para tentar usar
isso com sabedoria. Esperamos que, alm de ser uma fonte de referncia til, o
livro sirva tambm para documentar a paixo e o entusiasmo, a viso e a energia
de um movimento que est nascendo. O livro uma tentativa entender o que
acontece nos bastidores dessa cena de jornalismo de dados.
O Data Journalism Handbook um trabalho em curso. Se voc acha que h
qualquer coisa que precisa ser corrigida ou est ausente, por favor nos avise
para que ela seja includa na prxima verso. Ele tambm est disponvel de
maneira gratuita em uma licena Creative Commons de Atribuio +
Compartilhamento, e ns encorajamos fortemente a compartilh-lo com
qualquer um que possa estar interessado.
Liliana Bounegru (@bb_liliana)
Lucy Chambers (@lucyfedia)
Jonathan Gray (@jwyg)
Maro de 2012
- See more at:
http://datajournalismhandbook.org/pt/0_paginas_preliminares_3.html#sthash.CkL0
MKly.dpuf

Viso Geral do Livro


A designer de infogrficos Lulu Pinney criou este lindo pster, que d um
panorama geral do contedo do Data Journalism Handbook.

Introduo

O que o jornalismo de dados? Qual o seu potencial? Quais so seus limites?


De onde ele vem? Nesta seo iremos explicar o que o jornalismo de dados e o
que ele pode significar para as organizaes jornalsticas. Paul Bradshaw
(Birmingham City University) e Mirko Lorenz (Deutsche Welle) discorrem um
pouco sobre o que h de diferente nesse tipo de reportagem. Jornalistas de
dados de destaque nos contam por que o consideram importante e quais so
seus exemplos favoritos. Finalmente, Liliana Bounegru (Centro Europeu de
Jornalismo) coloca o jornalismo de dados em seu contexto histrico mais
amplo.

O que h neste captulo?

O que o jornalismo de dados?

Por que jornalistas devem usar dados?

Por que o Jornalismo de Dados importante?

Alguns exemplos selecionados

Jornalismo de dados em perspectiva

O jornalismo guiado por dados numa perspectiva brasileira

Existe jornalismo de dados e visualizao no Brasil?

O que o jornalismo de dados?


Eu poderia responder, simplesmente, que um jornalismo feito com dados. Mas
isso no ajuda muito.
Ambos, "dados" e "jornalismo", so termos problemticos. Algumas pessoas
pensam em "dados" como qualquer grupo de nmeros, normalmente reunidos
numa planilha. H 20 anos, este era praticamente o nico tipo de dado com o
qual os jornalistas lidavam. Mas ns vivemos num mundo digital agora, um
mundo em que quase tudo pode ser (e quase tudo ) descrito com nmeros.
A sua carreira, 300 mil documentos confidenciais, todos dentro do seu crculo
de amizades; tudo isso pode ser (e ) descrito com apenas dois nmeros: zeros e
uns. Fotos, vdeos e udio so todos descritos com os mesmos dois nmeros:
zeros e uns. Assassinatos, doenas, votos, corrupo e mentiras: zeros e uns.
O que faz o jornalismo de dados diferente do restante do jornalismo? Talvez
sejam as novas possibilidades que se abrem quando se combina o tradicional
"faro jornalstico" e a habilidade de contar uma histria envolvente com a escala
e o alcance absolutos da informao digital agora disponvel.
Estas possibilidades aperecem em qualquer estgio do processo, seja usando
programas para automatizar o trabalho de combinar informao do governo
local, polcia e outras fontes civis, como Adrian Holovaty fez no ChicagoCrime e
depois no EveryBlock; seja usando um softtware para achar conexes entre
centenas de milhares de documentos, como o The Telegraph fez com o MPs'
expenses.

Imagem 1. Chamado para ajudar a investigar os gastos dos Membros do Parlamento (MPs) - (the
Guardian)

Jornalismo de dados pode ajudar um jornalista a formular uma reportagem


complexa atravs de infogrficos envolventes. Por exemplo, as palestras
espetaculares de Hans Rosling para visualizar a pobreza no mundo com
o Gapminder atraram milhes de visualizaes em todo mundo. E o trabalho
popular de David McCandless em destrinchar grandes nmeroscomo colocar
gastos pblicos dentro de contexto, ou a poluio gerada e evitada pelo vulco
islandsmostra a importncia de um design claro, como o doInformation is
Beautiful.
Ou ainda o jornalismo de dados pode ajudar a explicar como uma reportagem se
relaciona com um indivduo, como a BBC e o Financial Times costumam fazem
com seus oramentos interativos (em que se pode descobrir como o oramento
pblico afeta especificamente voc, em vez de saber como afeta uma "pessoa
comum"). Ele pode tambm revelar o processo de construo das notcias, como
o Guardian fez de maneira to bem-sucedida compartilhando dados, contextos e
questes com o Datablog.
Os dados podem ser a fonte do jornalismo de dados, ou podem ser as
ferramentas com as quais uma notcia contadaou ambos. Como qualquer
fonte, devem ser tratados com ceticismo; e como qualquer ferramenta, temos de
ser conscientes sobre como eles podem moldar e restringir as reportagens que
ns criamos com eles.

Paul Bradshaw, Birmingham City University

Por que jornalistas devem usar dados?


O jornalismo est sitiado. No passado, ns, como uma indstria, contvamos
com o fato de sermos os nicos a operar a tecnologia para multiplicar e
distribuir o que havia acontecido de um dia para o outro. A imprensa servia
como um porto: se algum quisesse impactar as pessoas de uma cidade ou
regio na manh seguinte, deveria procurar os jornais. Isso acabou.
Hoje as notcias esto fluindo na medida em que acontecem, a partir de
mltiplas fontes, testemunhas oculares, blogs, e o que aconteceu filtrado por
uma vasta rede de conexes sociais, sendo classificado, comentado e, muito
frequentemente, ignorado.
Esta a razo pela qual o jornalismo de dados to importante. Juntar
informaes, filtrar e visualizar o que est acontecendo alm do que os olhos
podem ver tem um valor crescente. O suco de laranja que voc bebe de manh, o
caf que voc prepara: na economia global de hoje existem conexes invisveis
entre estes produtos, as pessoas e voc. A linguagem desta rede so os dados:
pequenos pontos de informao que muitas vezes no so relevantes em uma
primeira instncia, mas que so extraordinariamente importantes quando vistos
do ngulo certo.
Agora mesmo, alguns jornalistas pioneiros j demonstram como os dados
podem ser usados para criar uma percepo mais profunda sobre o que est
acontecendo ao nosso redor e como isto pode nos afetar.
A anlise dos dados pode revelar "o formato de uma histria" (Sarah Cohen), ou
nos fornecer uma "nova cmera" (David McCandless). Usando os dados, o
principal foco do trabalho de jornalistas deixa de ser a corrida pelo furo e passa
a ser dizer o que um certo fato pode realmente significar. O leque de temas
abrangente: a prxima crise financeira em formao, a economia por trs dos
produtos que usamos, o uso indevido de recursos ou os tropeos polticos. Tudo
isso pode ser apresentado em uma visualizao de dados convincente que deixe
pouco espao para discusso.
Exatamente por isso jornalistas deveriam ver nos dados uma oportunidade. Eles
podem, por exemplo, revelar como alguma ameaa abstrata, como o
desemprego, afeta as pessoas com base em sua idade, sexo ou educao. Usar

dados transforma algo abstrato em algo que todos podem entender e se


relacionar.
Eles podem criar calculadoras personalizadas para ajudar as pessoas a tomarem
decises, seja comprar um carro, uma casa, decidir um rumo educacional ou
profissional ou ainda verificar os custos de se manter sem dvidas.
Eles podem analisar a dinmica de uma situao complexa, como protestos ou
debates polticos, mostrar falcias e ajudar todos a verem as possveis solues
para problemas complexos.
Ter conhecimento sobre busca, limpeza e visualizao de dados transformador
tambm para o exerccio da reportagem. Jornalistas que dominam estas
habilidades vo perceber que construir artigos a partir de fatos e ideias um
alvio. Menos adivinhao, menos busca por citaes; em vez disso, um
jornalista pode construir uma posio forte apoiada por dados, o que pode
afetar consideravelmente o papel do jornalismo.
Alm disso, ingressar no jornalismo de dados oferece perspectivas de futuro.
Hoje, quando redaes cortam suas equipes, a maioria dos jornalistas espera se
transferir para um emprego em relaes pblicas ou assessoria de imprensa.
Jornalistas de dados e cientistas de dados, contudo, j so um grupo procurado
de funcionrios, no s nos meios de comunicao. As empresas e instituies
ao redor do mundo esto buscando "intrpretes" e profissionais que saibam
entrar fundo nos dados e transform-los em algo tangvel.
H uma promessa de futuro nos dados e isso o que o excita as redaes,
fazendo-as procurar por um novo tipo de reprter. Para freelancers, a
proficincia com dados fornece um caminho para novas ofertas e remunerao
estvel tambm. Veja deste modo: em vez de contratar jornalistas para
preencher rapidamente as pginas e os sites com contedo de baixo valor, a
utilizao dos dados poderia criar demanda para pacotes interativos, nos quais
passar uma semana resolvendo uma questo a nica maneira de faz-los. Esta
uma mudana bem-vinda em muitas partes da mdia.
H uma barreira impedindo os jornalistas de usarem este potencial:
treinamento para aprender como trabalhar com dados passo-a-passo, da
primeira questo at um furo obtido pelo trabalho com os dados.
Trabalhar com dados como pisar em um vasto e desconhecido territrio.
primeira vista, os dados brutos so intrigantes aos olhos e mente. Esses dados

so complicados. bastante difcil mold-los corretamente para a visualizao.


Isto requer jornalistas experientes, que tm energia para olhar aqueles dados
brutos, por vezes confusos, por vezes chatos, e enxergar as histrias escondidas
l dentro.
Mirko Lorenz, Deutsche Welle
A Pesquisa

O Centro Europeu de Jornalismo realizou uma pesquisa para saber mais sobre
as necessidades de formao dos jornalistas. Descobrimos que h uma grande
vontade de sair da zona de conforto do jornalismo tradicional e investir tempo
em dominar novas habilidades. Os resultados da pesquisa nos mostraram que
os jornalistas veem a oportunidade, mas precisam de um pouco de apoio para
acabar com os problemas iniciais que os impedem de trabalhar com dados.
Existe uma confiana de que se o jornalismo de dados for adotado mais
universalmente, os fluxos de trabalho, ferramentas e os resultados vo melhorar
muito rapidamente. Pioneiros como The Guardian, The New York Times, Texas
Tribune, e Die Zeit continuam a elevar o nvel com suas histrias baseadas em
dados.
Ser que o jornalismo de dados permanecer restrito a um pequeno grupo de
pioneiros, ou ser que cada organizao de notcias em breve vai ter sua prpria
equipe dedicada ao jornalismo de dados? Esperamos que este manual ajude
mais jornalistas e redaes a tirar proveito deste campo emergente.

Imagem 2. Pesquisa do Centro Europeu de Jornalismo sobre necessidades de treinamento.

Por que o Jornalismo de Dados importante?


Perguntamos a alguns dos principais profissionais da rea por que eles acham
que o o jornalismo de dados um avano importante. Aqui est o que disseram.
Filtrando o Fluxo de Dados

Quando a informao era escassa, a maior parte de nossos esforos estavam


voltados caar e reunir dados. Agora que a informao abundante, processla tornou-se mais importante. O processamento acontece em dois nveis: 1)
anlise para entender e estruturar um fluxo infinito de dados e 2) apresentao
para fazer com que os dados mais importantes e relevantes cheguem ao
consumidor. Como acontece na cincia, o jornalismo de dados revela seus
mtodos e apresenta seus resultados de uma forma que possam ser replicados.
Philip Meyer, Professor Emrito da Universidade da Carolina do Norte, em
Chapel Hill
Novas abordagens para a narrativa

O jornalismo de dados um termo que, ao meu ver, engloba um conjunto cada


vez maior de ferramentas, tcnicas e abordagens para contar histrias. Pode

incluir desde a Reportagem com o Auxlio do Computador (RAC, que usa dados
como uma "fonte") at as mais avanadas visualizaes de dados e aplicativos de
notcias. O objetivo em comum jornalstico: proporcionar informao e anlise
para ajudar a nos informar melhor sobre as questes importantes do dia.
Aron Pilhofer, New York Times
Como o fotojornalismo, s que com laptop

O jornalismo de dados s se diferencia do "jornalismo de palavras" porque


usamos ferramentas distintas. Ambos trabalham buscando a notcia, fazendo
reportagem e contando histrias. como o fotojornalismo; s que substitui a
cmera pelo laptop.
Brian Boyer, Chicago Tribune
O Jornalismo de Dados o Futuro

O jornalismo movido por dados o futuro. Os jornalistas precisam ser


conhecedores dos dados. Costumava-se conseguir novas reportagens
conversando com pessoas em bares; e pode ser que, s vezes, voc continue
fazendo isso. Mas agora isso tambm possvel se debruando sobre dados e se
equipando com as ferramentas corretas para analis-los e identificar o que h de
interessante ali. Tendo isso em perspectiva, possvel ajudar as pessoas a
descobrir como todas essas informaes se encaixam e o que est acontecendo
no pas.
Tim Berners-Lee, fundador da World Wide Web (WWW)
O processamento de dados encontra o a lapidao do texto

O jornalismo de dados est diminuindo a distncia entre os tcnicos estatsticos


e os mestres da palavra. Faz isso ao localizar informaes que fogem ao padro e
identificar tendncias que no so apenas relevantes de um ponto de vista
estatstico, mas tambm relevantes para decodificar a complexidade do mundo
de hoje.
David Anderton, jornalista freelancer
Atualizando o Seu Conjunto de Competncias

O jornalismo de dados um novo conjunto de competncias para buscar,


entender e visualizar fontes digitais em um momento em que os conhecimentos
bsicos do jornalismo tradicional j no so suficientes. No se trata da
substituio do jornalismo tradicional, mas de um acrscimo a ele.

Em um momento em que as fontes esto se tornando digitais, os jornalistas


podem e devem estar perto dessas fontes. A internet abriu um mundo de
possibilidades alm da nossa compreenso atual. O jornalismo de dados
apenas o comeo do processo de evoluo de prticas antigas para se adaptar ao
mundo online.
O jornalismo de dados cumpre dois objetivos importantes para as organizaes
de mdia: encontrar notcias nicas (que no sejam de agncias), e executar a
funo fiscalizao do poder. Especialmente em tempos de perigo financeiro,
essas metas so bastante importantes para os jornais.
Do ponto de vista de um jornal local, o jornalismo de dados crucial. Existe um
ditado que diz que "uma telha solta na frente da sua porta mais importante
que uma revolta em um pas distante". O fato que se coloca diante de voc e
provoca impacto direto na sua vida. Ao mesmo tempo, a digitalizao est em
todos os lugares. Porque jornais locais tm esse impacto direto na regio em que
so distribudos e as fontes tornam-se cada vez mais digitais, um jornalista
precisa saber como encontrar, analisar e visualizar histrias usando dados como
matria-prima.
Jerry Vermanen, NU.nl
Um remdio para a assimetria da informao

A assimetria da informaono a falta de informao, mas a incapacidade de


absorv-la e process-la na velocidade e no volume com que chega at ns --,
um dos problemas mais significativos enfrentados pelos cidados ao fazer
escolhas sobre como viver suas vidas. Informaes obtidas pela imprensa e a
mdia influenciam escolhas e aes dos cidados. O bom jornalismo de dados
ajuda a combater a assimetria da informao.
Tom Fries, Fundao Bertelsmann
Uma resposta para o uso de dados por assessorias de imprensa

A disponibilidade de ferramentas de medio e a diminuio de seus preos


em uma combinao autossustentvel com foco na performance e na eficincia
em todos os aspectos da sociedadelevaram tomadores de deciso a
quantificar os progressos de suas polticas, monitorar tendncias e identificar
oportunidades.
As empresas continuam adotando novas mtricas mostrando quo boa so as
suas performances no mercado. Os polticos adoram se gabar sobre redues

dos nveis de desemprego e aumentos do PIB. A falta de viso jornalstica em


temas como os escndalos da Enron, Worldcom, Madoff ou Solyndra a prova
da falta de habilidade dos jornalistas para ver atravs e alm dos nmeros.
mais fcil aceitar o valor de face dos nmeros do que o de outros fatos, j que
carregam uma aura de seriedade mesmo quando so complemente fabricados.
A fluncia no uso de dados ajuda os jornalistas a analisar os nmeros com senso
crtico, e certamente os ajudar a ganhar terreno em seus contatos com
assessorias de imprensa.
Nicolas Kayser-Bril, Journalism++
Oferecendo interpretaes independentes de informaes oficiais

Aps o terremoto devastador e o consequente desastre na usina nuclear de


Fukushima, em 2011, o jornalismo de dados foi ganhando corpo e importncia
entre membros da mdia no Japo, pas geralmente atrasado com relao ao
jornalismo digital.
Estvamos perdidos quando o governo e especialistas no tinham dados
confiveis sobre os danos provocados. Quando os oficiais esconderam do
pblico informaes do sistema SPEEDI (rede de sensores japoneses que deve
prever a propagao de radiao entre outras coisas), no estvamos preparados
para decodificar os dados, mesmo que tivessem vazado. Voluntrios comearam
a coletar dados sobre radiao usando seus prprios dispositivos, mas ns no
estvamos armados com o conhecimento de estatstica, interpolao e
visualizao desses dados, entre outras coisas. Jornalistas precisam ter acesso
aos dados brutos, e aprender a no confiar apenas nas interpretaes oficiais
deles.
Isao Matsunami, Tokyo Shimbun
Lidar com o dilvio informacional

Os desafios e oportunidades trazidos pela revoluo digital continuam


disruptivos para o jornalismo. Numa era de abundncia de informao,
jornalistas e cidados precisam de ferramentas melhores, seja quando
estivermos fazendo a curadoria de material proibido por governos do Oriente
Mdio, processando dados surgidos de ltima hora, ou buscando a melhor
maneira de visualizar a qualidade da gua para uma nao de consumidores.
medida que lutamos contra os desafios do consumo apresentados por esse
dilvio de informaes, novas plataformas de publicao tambm permitem a

qualquer pessoa ter o poder de reunir e compartilhar dados digitalmente,


transformando-os em informao. Embora reprteres e editores tm sido os
tradicionais vetores para coletar e disseminar informao, no ambiente
informacional de hoje as notcias mais quentes aparecem antes na internet, e
no nas editorias de jornais.
Ao redor do mundo o vnculo entre os dados e o jornalismo est em forte
ascenso. Na era do big data, a crescente importncia do jornalismo de dados
reside na capacidade de seus praticantes de fornecer contexto, clareza e, talvez o
mais importante, encontrar a verdade em meio expanso de contedo digital
no mundo. Isso no significa que as organizaes de mdia de hoje no tenham
um papel crucial. Longe disso. Na era da informao, jornalistas so mais
necessrios que nunca para fazer a curadoria, verificar, analisar e sintetizar a
imensido de dados. Neste contexto, o jornalismo de dados tem uma
importncia profunda para a sociedade.
Hoje, entender um grande volume de dados ("big data"), particularmente dados
no estruturados, um objetivo central para cientistas de dados ao redor do
mundo, estejam eles em redaes, em Wall Street ou no Vale do Silcio. Um
conjunto crescente de ferramentas comuns, quer empregadas por tcnicos
governamentais de Chicago, tcnicos de sade ou desenvolvedores de redaes,
fornece ajuda substancial para atingir esse objetivo.
Alex Howard, OReilly Media
Nossas vidas so dados

Fazer bom jornalismo de dados difcil porque o bom jornalismo difcil.


Significa descobrir como obter os dados, entend-los e encontrar a histria. s
vezes h becos sem sada e no h uma grande reportagem. Afinal, se fosse
apenas uma questo de pressionar um boto certo, no seria jornalismo. Mas
isso o que faz o jornalismo de dados valer pena e, em um mundo onde nossas
vidas esto cada vez mais compostas por dados, a rea torna-se essencial para
uma sociedade justa e livre.
Chris Taggart, OpenCorporates
Uma forma de economizar tempo

Jornalistas no tm tempo para gastar na transcrio de documentos ou


tentando obter dados de PDFs, de modo que aprender um pouco de

programao (ou saber onde buscar pessoas que podem ajudar) incrivelmente
valioso.
Um reprter da Folha de S.Paulo estava trabalhando com um oramento local e
me chamou para agradecer o fato de termos colocado online as contas da cidade
de So Paulo (dois dias de trabalho para um nico hacker!). Ele disse que vinha
transcrevendo essas informaes manualmente ao longo de trs meses,
tentando construir uma reportagem. Eu tambm lembro de ter solucionado uma
questo ligada a um PDF para o Contas Abertas, uma organizao de notcias de
monitoramento parlamentar: 15 minutos e 15 linhas de cdigo conseguiram o
mesmo resultado que um ms de trabalho.
Pedro Markun, Transparncia Hacker
Uma parte essencial do pacote de ferramentas dos jornalistas

importante ressaltar a parte jornalstica ou o lado da reportagem do


jornalismo de dados. O exerccio no deve ser o de analisar e visualizar por si s,
mas tambm de usar os dados como uma ferramenta para se aproximar da
verdade e do que est acontecendo no mundo. Vejo a capacidade de analisar e
interpret-los como parte essencial do kit atual de ferramentas jornalsticas,
mais do que uma disciplina parte. Por fim, trata-se de fazer boas reportagens e
contar histrias da forma mais apropriada.
Esse novo jornalismo outro meio de analisar o mundo e fazer com que os
governantes prestem contas. Com uma quantidade cada vez maior de dados,
mais importante que nunca que os jornalistas estejam conscientes dessas
tcnicas. Isso deveria estar no arsenal de tcnicas de reportagem de qualquer
jornalista, seja aprender diretamente a trabalhar com os dados ou colaborar
com algum que cumpra esse papel.
O real poder do jornalismo de dados ajudar a obter e provar informaes
quando, por outros meios, seria muito difcil. Um bom exemplo disso uma
reportagem de Steve Doig que analisava os danos provocados pelo furaco
Andrew. Ele juntou dois conjuntos diferentes de dados: um mapeava o nvel de
destruio causado pelo furao, e o outro mostrava a velocidade dos ventos.
Isso permitiu identificar reas onde construes enfraquecidas e prticas de
construo no confiveis contriburam para aumentar o impacto do desastre. O
trabalho ganhou um Prmio Pulitzer em 1993 e continua sendo um grande
exemplo do potencial do jornalismo de dados.

Idealmente, usa-se dados para identificar fatos que fogem ao padro, reas de
interesse ou coisas que so surpreendentes. Neste sentido, eles podem agir
como um norte ou como pistas. Os nmeros podem ser interessantes, mas
apenas escrever sobre eles no suficiente. Voc ainda vai precisar fazer
reportagem para explicar o que eles significam.
Cynthia OMurchu, Financial Times
Adaptao a Mudanas no nosso ambiente informacional

Novas tecnologias digitais trazem novas formas de produzir e disseminar


conhecimento na sociedade. O jornalismo de dados pode ser entendido como
uma tentativa da mdia de se adaptar s mudanas e responder a elas em um
ambiente repleto de informao, incluindo o relato de histrias mais interativas
e multidimensionais que permitem aos leitores explorar as fontes subjacentes s
notcias e incentiv-los a participar da criao e avaliao de reportagens.
Csar Viana, Universidade de Gois
Um jeito de ver coisas que voc no enxergaria de outra forma

Algumas histrias podem apenas ser entendidas e explicadas por meio da


anlisee s vezes da visualizaode dados. Conexes entre pessoas ou
entidades poderosas continuariam ocultas, mortes causadas por polticas contra
drogas seguiriam escondidas, polticas ambientais que destroem a natureza
seguiriam inabalveis. Mas cada ponto acima no permaneceu nessa situao
devido a dados que os jornalistas obtiveram, analisaram e ofereceram aos
leitores. Os dados podem ser to simples como uma planilha bsica ou um
registro de chamadas de celular, ou to complexos como notas de avaliaes de
escolas ou informaes sobre infeco hospitalar. No fundo, porm, todas essas
histrias so temas que merecem ser contados.
Cheryl Phillips, The Seattle Times
Uma forma de contar histrias mais ricas

Podemos pintar histrias de toda a nossa vida por meio de nossos rastros
digitais. Do que consumimos e pesquisamos a onde e quando viajamos, nossas
preferncias musicais, nossos primeiros amores, as realizaes de nossos filhos,
e at os nossos ltimos desejos, tudo isso pode ser monitorado, digitalizado,
armazenado na nuvem e disseminado. Esse universo de informaes pode vir
tona para contar histrias, responder a questes e oferecer uma compreenso da

vida de uma maneira que atualmente supera at mesmo a reconstruo mais


rigorosa e cuidadosa de anedotas.
Sarah Slobin, Wall Street Journal
Voc no precisa de dados novos para dar um furo

s vezes, os dados j so pblicos e esto disponveis, mas ningum olhou para


eles com cuidado. No caso do relatrio da Associated Press sobre 4.500 pginas
de documentos revelados que descrevem aes de empresas de segurana
privada contratadas durante a guerra do Iraque, o material foi obtido por um
jornalista independente ao longo de vrios anos. Ele fez diversos pedidos, por
meio da lei de acesso informao dos EUA (Freedom of Information Act) ao
Departamento de Estado dos Estados Unidos. Eles escanearam os documentos
em papel e os subiram no site DocumentCloud, o que tornou possvel fazer uma
anlise abrangente da situao.
Jonathan Stray, The Overview Project

Alguns exemplos selecionados


Ns pedimos a alguns de nossos voluntrios que dessem seus exemplos
favoritos de jornalismo de dados e dissessem o que gostavam neles. Aqui esto:
"Do no Harm", do Las Vegas Sun

Meu exemplo favorito o a srie Do No Harm de 2010 do Las Vegas Sun sobre
servio hospitalar. O The Sun analisou mais de 2,9 milhes de registros
financeiros de hospitais, que revelaram mais de 3.600 leses, infeces e erros
mdicos que poderiam ter sido prevenidos. Eles obtiveram as informaes por
meio de uma requisio de dados pblicos e identificaram mais de 300 casos
nos quais pacientes morreram por conta de erros que poderiam ter sido
evitados. A reportagem possui diferentes elementos, que incluem: um grfico
interativo que permite ao leitor ver, por hospital, onde leses decorrentes de
cirurgia aconteceram mais que o esperado; um mapa e uma linha do tempo que
mostra infeces se alastrando hospital por hospital e um grfico interativo que
permite aos usurios ordenar os dados por leses evitveis ou por hospital para
ver onde as pessoas esto se machucando. Gosto deste trabalho porque muito
fcil de entender e navegar. Os usurios podem explorar os dados de uma
maneira muito intuitiva.
Alm disso, a iniciativa causou um impacto real: o legislativo de Nevada reagiu
com seis projetos de lei. Os jornalistas envolvidos trabalharam arduamente para
obter e limpar os dados. Um dos jornalistas, Alex Richards, mandou as
informaes de volta aos hospitais e para o Estado no mnimo uma dzia de
vezes para que as falhas fossem corrigidas.
Anglica Peralta Ramos, La Nacin (Argentina)

Imagem 3. Do No Harm (The Las Vegas Sun)

Banco de dados da Folha de Pagamento do Governo

Eu adoro o trabalho que organizaes pequenas e independentes esto


desempenhando todo dia, tais como a ProPublica ou o Texas Tribune que tm
em Ryan Murphy um grande reprter de dados. Se eu tivesse que escolher,
elegeria o projeto de Banco de Dados dos salrios de empregados do governo
do Texas Tribune. Este projeto coleta 660 mil salrios de empregados pblicos
em um banco de dados para usurios procurarem e ajudarem a gerar matrias a
partir dele. Voc pode procurar por agncia, nome ou salrio. simples,
informativo e est tornando pblica uma informao antes inacessvel. fcil de
usar e automaticamente gera matrias. um grande exemplo de por que o
Texas Tribune consegue a maioria de seu trfego das pginas de dados.
Simon Rogers, the Guardian

Imagem 4. Salrios dos empregados do Governo (The Texas Tribune)

Visualizao integral dos Registros da Guerra do Iraque, Associated Press

O trabalho de Jonathan Stray e Julian Burgess em cima dos Registros de Guerra


do Iraque uma iniciativa inspiradora na anlise e visualizao de textos
utilizando tcnicas experimentais para ganhar profundidade em temas que
valem a pena serem explorados dentro de um grande conjunto de dados
textuais.
Por meio de tcnicas de anlise de texto e algoritmos, Jonathan e Julian criaram
um mtodo que mostrava blocos de palavras-chave contidas nos milhares de
relatrios do governo americano sobre Guerra do Iraque vazados pelo
Wikileaks, tudo de uma forma visual.
Embora haja restries aos mtodos apresentados e a abordagem seja
experimental, o trabalho mostra um enfoque inovador. Em vez de tentar ler
todos os arquivos e revirar os registros de guerra com uma noo preconcebida
do que poderia ser achado com determinadas palavras-chaves, esta tcnica
calcula e visualiza tpicos e termos-chave de particular relevncia.
Com a crescente quantidade de informao textual (emails, relatrios, etc) e
numrica vindo ao domnio pblico, achar maneiras de identificar reas vitais

de interesse ser mais e mais importante um subcampo excitante do


jornalismo de dados.
Cynthia OMurchu, Financial Times

Imagem 5. Analizando os Registros de Combate (Associated Press)

Murder Mysteries

Uma das minhas obras favoritas de jornalismo de dados o projeto Murder


Mysteries de Tom Hardgrove do Scripps Howard News Service. Ele construiu
um banco de dados detalhado de mais de 185 mil assassinatos no resolvidos a
partir de dados governamentais e da requisio de registros pblicos. A partir
disso, ele desenvolveu um algoritmo que procura por padres sugerindo a
possvel presena de serial killers. Este projeto completo: trabalho rduo
montando uma base de dados melhor que a do prprio governo, anlise
inteligente usando tcnicas de cincias sociais e apresentao interativa dos
dados online de modo que os leitores possam eles mesmos explorarem.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Imagem 6. Murder Mysteries (Scripps Howard News Service)

Message Machine

Eu adoro a reportagem e a postagem nerd do blog Message Machine da


ProPublica. Tudo comeou quando alguns tuiteiros mostraram curiosidade
sobre terem recebido diferentes emails da campanha presidencial de Obama. Os
colegas da ProPublica notaram e pediram para seu pblico encaminhar
qualquer email que tivesse recebido da campanha. A forma como mostram os
dados elegante, uma apresentao visual da diferena entre muitos emails

distintos que foram enviados naquela noite. extraordinrio porque eles


coletaram os prprios dados (reconhecidamente uma pequena amostra, mas
grande o suficiente para montar uma reportagem). Mas ainda mais incrvel
porque eles esto contando a histria de um fenmeno emergente: big data
usado em campanhas polticas para disparar mensagens especificamente
preparadas para cada pessoa. Isso s um gostinho das coisas por vir.
Brian Boyer, Chicago Tribune

Imagem 7. Message Machine (ProPublica)

Chartball

Um dos meus projetos de jornalismo de dados favoritos o trabalho de Andrew


Garcia Phillips no Chartball. Andrew um grande f de esportes com um apetite
voraz por dados, um olho espetacular para design e capacidade de programar.
Com o Chartball ele visualiza no apenas a histria, mas detalha os sucessos e
fracassos de cada um dos jogadores e dos times de beisebol. Ele coloca em
contexto, cria um grfico atraente e seu trabalho profundo, divertido e
interessante. E olha que eu nem me importo tanto com esportes.
Sarah Slobin, Wall Street Journal

Imagem 8. Vitrias e derrotas em tabelas (Chartball)

Jornalismo de dados em perspectiva


Em agosto de 2010, eu e alguns colegas do Centro Europeu de Jornalismo
organizamos o que acreditamos ser uma das primeiras conferncias
internacionais sobre jornalismo de dados, realizada em Amsterd. Naquele
momento, no havia muitas discusses sobre o tema e poucas organizaes
eram amplamente reconhecidas por trabalhar na rea.
Um dos mais importantes passos para dar visibilidade ao termo foi a forma
como grupos de mdia como The Guardian e The New York Times lidaram com
a imensa quantidade de dados divulgados pelo WikiLeaks. Nesse perodo, o
termo passou a ser usado de maneira mais ampla (ao lado de Reportagem com
Auxlio do Computador, ou RAC) para descrever como jornalistas estavam
usando dados para melhorar suas reportagens e para aprofundar investigaes
sobre um tema.
Ao conversar com jornalistas de dados experientes e tericos do Jornalismo no
Twitter, me parece que uma das primeiras definies do que hoje reconhecemos
como jornalismo de dados foi feita em 2006, por Adrian Holovaty, fundador do
EveryBlock, um servio de informao que permite ao usurios descobrir o que
est acontecendo na sua regio, no seu quarteiro. No seu pequeno ensaio "Uma
maneira fundamental na qual sites de jornais tm que mudar", ele defende que
jornalistas devem publicar dados estruturados, compreensveis por mquinas,
ao lado do tradicional "grande borro de texto":
Por exemplo, digamos que um jornal publicou uma notcia sobre um incndio
prximo. Ler essa histria num celular bacana e elegante. Viva a tecnologia!
Mas o que realmente quero ser capaz de explorar os dados brutos dessa
histria, um a um, com diferentes camadas. Ter a infraestrutura para comparar
detalhes deste incndio com os detalhes dos anteriores: data, horrio, local,
vtimas, distncia para o quartel do Corpo de Bombeiros, nomes e anos de
experincia dos bombeiros que foram ao local, tempo que levaram para chegar,
e incndios subsequentes, quando vierem a ocorrer.
Mas o que torna essa forma peculiar diferente de outros modelos de jornalismo
que usam banco de dados ou computadores? Como e em que extenso o
jornalismo de dados diferente das vertentes de jornalismo do passado?

Reportagem com Auxlio do Computador (RAC) e o Jornalismo de Preciso

H uma longa histria de uso de dados para aprofundamento da reportagem e


distribuio de informao estruturada (mesmo que no legvel por mquinas).
Talvez o mais relevante para o que hoje chamamos de jornalismo de dados a
Reportagem com Auxlio do Computador (RAC) que foi a primeira tentativa
organizada e sistemtica de utilizar computadores para coletar e analisar dados
para aprimorar a notcia.
A RAC foi usada pela primeira vez em 1952 pela rede de TV americana CBS,
para prever o resultado da eleio presidencial daquele ano. Desde a dcada de
60, jornalistas (principalmente os investigativos, principalmente nos Estados
Unidos) tm analisado bases de dados pblicas com mtodos cientficos para
fiscalizar o poder de forma independente. Tambm chamado de "jornalismo de
interesse pblico", defensores dessa tcnicas baseadas no auxlio do
computador tm procurado revelar tendncias, contrariar o senso comum e
desnudar injustias perpetradas por autoridades e corporaes. Por exemplo,
Philip Meyer tentou desmontar a percepo de que apenas os sulistas menos
educados participaram do quebra-quebra nas manifestaes de 1967 em Detroit.
As reportagens da srie "A cor do dinheiro", publicadas nos anos 80 por Bill
Dedman, revelaram preconceito racial sistemtico nas polticas de emprstimo
dos principais bancos. No seu artigo "O que deu errado", Steve Doig procurou
analisar os padres de destruio do Furaco Andrew no incio dos anos 90,
para entender as consequncias das polticas e prticas falhas de
desenvolvimento urbano. Reportagens movidas por dados prestaram valiosos
servios pblicos e deram prmios cobiados aos autores.
No incio dos anos 70, o termo jornalismo de preciso foi cunhado para
descrever esse tipo de apurao jornalstica: "o emprego de mtodos de pesquisa
das cincias sociais e comportamentais na prtica jornalstica" (em The New
Precision Journalism de Philip Meyer). O jornalismo de preciso foi proposto
para ser praticado nas instituies jornalsticas convencionais por profissionais
formados em jornalismo e em cincias sociais. Nasceu como resposta ao "New
Journalism", que aplicava tcnicas de fico reportagem. Meyer defendia que
eram necessrios mtodos cientficos para coleta e anlise de dados, em vez de
tcnicas literrias, para permitir que o jornalismo alcanasse sua busca pela
objetividade e verdade.

O jornalismo de preciso pode ser entendido como reao a algumas das


inadequaes e fraquezas do jornalismo normalmente citadas: dependncia dos
releases de assessorias (mais tarde descrito como "churnalism" ou "jornalismo
de batedeira"), predisposio em acatar as verses oficiais, e por a vai. Estas so
decorrentes, na viso de Meyer, da no aplicao de tcnicas e mtodos
cientficos como pesquisas de opinio e consulta a registros pblicos. Como feito
nos anos 60, o jornalismo de preciso serviu para retratar grupos marginais e
suas histrias. De acordo com Meyer:
O jornalismo de preciso foi uma forma de expandir o arsenal de ferramentas
do reprter para tornar temas antes inacessveis, ou parcialmente acessveis, em
objeto de exame minucioso. Foi especialmente eficiente para dar voz minoria e
grupos dissidentes que estavam lutando para se verem representados.
Um artigo influente publicado nos anos 80 sobre a relao entre o jornalismo e
as cincias sociais ecoa o discurso atual em torno do jornalismo de dados. Os
autores, dois professores de jornalismo americanos, sugerem que nas dcadas
de 70 e 80, a compreenso do pblico sobre o que notcia se amplia de uma
concepo mais direta de "fatos noticiosos" para "reportagens de
comportamento" (ou reportagens sobre tendncias sociais). Por exemplo, ao
acessar os bancos de dados do Censo ou de outras pesquisas, os jornalistas
conseguem "extrapolar o relato de eventos isolados e oferecer contexto que d
sentido ao fatos especficos".
Como podamos esperar, a prtica do uso de dados para incrementar a
reportagem to antiga quanto a prpria existncia dos dados. Como Simon
Rogers aponta, o primeiro exemplo de jornalismo de dados no The Guardian
remonta a 1821. Foi uma lista, obtida de fonte no oficial, que relacionava as
escolas da cidade de Manchester ao nmero de alunos e aos custos de cada uma.
De acordo com Rogers, a lista ajudou a mostrar o verdadeiro nmero de alunos
que recebiam educao gratuita, muito maior do que os nmeros oficiais
revelavam.

Imagem 9. Jornalismo de dados no The Guardian em 1821 (the Guardian)

Outro exemplo seminal na Europa Florence Nightingale e seu relato


fundamental,"Mortalidade no Exrcito Britnico", publicado em 1858. No seu
relato ao Parlamento ingls, ela usou grficos para defender o aperfeioamento
do servio de sade do exrcito britnico. O mais famoso o seu grfico crista
de galo, uma espiral de sees em que cada uma representa as mortes a cada
ms, que destacava que a imensa maioria das mortes foi consequncia de
doenas prevenveis em vez de tiros.

Imagem 10. Mortalidade do exrcito britnico por Florence Nightingale (imagem da Wikipedia)

Jornalismo de dados e a Reportagem com Auxlio do Computador

Atualmente h um debate sobre "continuidade e mudana" em torno do rtulo


"jornalismo de dados" e sua relao com vertentes jornalsticas anteriores que
empregaram tcnicas computacionais para analisar conjuntos de dados.
Alguns defendem que h diferena entre RAC e jornalismo de dados. Defendem
que RAC uma tcnica para apurar e analisar dados de forma a aprimorar uma
reportagem (normalmente investigativa), enquanto o jornalismo de dados se
concentra na maneira como os dados permeiam todo o processo de produo
jornalstico. Nesse sentido, o jornalismo de dados dedica tantas vezes, at
maisateno aos dados propriamente ditos em vez de apenas empreg-los
como forma de descobrir ou melhorar uma reportagem. Por isso, vemos o
Datablog do The Guardian e o jornal Texas Tribune publicando conjunto de
dados lado a lado com as notcias - ou at mesmo apenas os dados sozinhos
para as pessoas analisarem ou explor-los.
Outra diferena que, no passado, jornalistas investigativos enfrentariam
escassez de informaes em relao a questo que estavam tentando responder
ou ponto que buscavam esclarecer. Embora, evidentemente, isso continua a
acontecer, h ao mesmo tempo uma abundncia de informaes que os
jornalistas no necessariamente sabem como manipular. No sabem como
extrair valor dos dados. Um exemplo recente o Combined Online Information
System, maior banco de dados de gastos pblicos do Reino Unido. Este banco
de dados foi por muito tempo cobrado pelos defensores da transparncia mas,
quando foi lanado, deixou jornalistas perplexos e confusos. Como Philip Meyer
escreveu recentemente para mim: "Quando a informao era escassa, a maior
parte dos nossos esforos eram dedicados caa e obteno de informao.
Agora que abundante, o processamento dessa informao mais importante."
Por outro lado, alguns ponderam que no h diferena significativa entre o
jornalismo de dados e a Reportagem com Auxlio do Computador. J senso
comum que mesmo as mais modernas tcnicas jornalsticas tem um histrico e,
ao mesmo tempo, algo de novo. Em vez de debater se o jornalismo de dados
uma novidade completa ou no, uma posio mais produtiva seria consider-lo
parte de longa tradio, mas que agora responde a novas circunstncias e
condies. Mesmo que no haja uma diferena entre objetivos e tcnicas, o
surgimento do termo "jornalismo de dados" no incio do sculo indica nova fase
em que o absoluto volume de dados que esto disponveis onlinecombinado

com sofisticadas ferramentas centradas no usurio, plataformas de


crowdsourcing e de publicao automtica --permitem que mais pessoas
trabalhem com mais dados mais facilmente do que em qualquer momento
anterior da histria.
Jornalismo de dados significa alfabetizao de dados do pblico

A internet e as tecnologias digitais esto alterando fundamentalmente a forma


como a informao publicada. O jornalismo de dados uma parte do
ecossistema de prticas e ferramentas que surgiram em torno dos servios e
sites de dados. Citar e compartilhar fontes e referncias faz parte da natureza da
estrutura de links da internet, a forma como estamos acostumados a navegar
pela informao hoje em dia. Voltando um pouco no tempo, o princpio na base
da fundao da estrutura de links da web o mesmo princpio de citao usado
nos trabalhos acadmicos. Citar e compartilhar as fontes e dados por trs da
notcia uma das maneiras mais bsicas em que o jornalismo de dados pode
aperfeioar o jornalismo, aquilo que o fundador da WikiLeaks, Julian Assange,
chama de "jornalismo cientfico".
Ao permitir que cada um mergulhe com ateno nas fontes de dados e descubra
informao relevante para si mesmo, ao mesmo tempo que checa afirmaes e
desafia suposies comumente aceitas, o jornalismo de dados efetivamente
representa a democratizao de recursos, ferramentas, tcnicas e mtodos antes
restritos aos especialistas; seja reprteres investigativos, cientistas sociais,
estatsticos, analistas ou outros especialistas. Ao mesmo tempo em que citar e
oferecer links para as fontes de dados caracterstica do jornalismo de dados,
estamos caminhando para um mundo em que os dados esto perfeitamente
integrados ao tecido da mdia. Jornalistas de dados tm papel importante ao
ajudar a diminuir as barreiras para compreenso e imerso nos dados, e
aumentar a alfabetizao de dados dos seus leitores em grande escala.

No momento, a comunidade de pessoas que se auto-denominam jornalistas de


dados bastante diferente da comunidade mais madura da RAC. Tomara que,
no futuro, vejamos laos mais fortes entre essas duas comunidades, da mesma
forma que vemos novas organizaes no governamentais e organizaes de
mdia cidad como a ProPublica e o Bureau de Jornalismo Investigativo
trabalharem de mos dadas com redaes tradicionais em investigaes. Ao
mesmo tempo em que a comunidade de jornalismo de dados possa ter formas
inovadoras para entregar dados e apresentar notcias, a abordagem
profundamente analtica e crtica da comunidade da RAC tem muito a ensinar
ao jornalismo de dados.
Liliana Bounegru, Centro Europeu de Jornalismo

O jornalismo guiado por dados numa perspectiva brasileira


A partir do final dos anos 2000, as prticas de Jornalismo Guiado por
Dados (JGD) no apenas estavam em vias de se estabelecer nas redaes da
Amrica do Norte e Europa, como tambm haviam se tornado a principal
estratgia de grande parte da imprensa para a recuperao da audincia, que
vem caindo h dcadas. Pode-se dizer que, hoje, o jornalismo guiado por dados
est na moda. Alm da popularizao das ferramentas e do apelo comercial de
visualizaes e outros produtos relacionados ao JGD, foi importante para isso a
adoo de polticas de acesso informao e transparncia por governos de todo
o mundo. Conhecidos como polticas de dados abertos (open data) ou
transparncia pblica (open government), estes mecanismos inundaram a
Internet com bases de dados antes muito difceis de se obter. Os jornalistas,
portanto, tm hoje o material e as ferramentas para o o JGD ao alcance das
mos.
Servios online, como Google Drive, Infogr.am, DocumentCloud e CartoDB,
apenas para citar alguns, permitem construir, organizar e analisar bancos de
dados, bastando um computador e habilidade com a lngua inglesa para us-los.
Em maio de 2012, a Presidncia da Repblica sancionou a Lei n 12.527,
conhecida como Lei de Acesso Informao, que obriga todos os rgos
pblicos brasileiros a divulgar dados administrativos e a atender a solicitaes
de informao qualquer cidado. Estes dois fatores reavivaram o interesse da
imprensa brasileira pela aplicao de tcnicas computacionais na produo de
notcias.
So os prprios reprteres, individualmente, os principais disseminadores dos
conceitos de JGD no cenrio mundial. Voc pode encontrar aqui uma lista de
quase cem referncias com links para esses trabalhos. No Brasil, existem cada
vez mais jornalistas se preparando para atuar nesta especialidade, alm dos
veteranos da Reportagem Assistida por Computador (RAC) dos anos 1990. Um
dos principais indcios deste interesse foi a criao de uma equipe dedicada
apenas ao jornalismo guiado por dados na redao de O Estado de So Paulo,
pioneira no Brasil, no ano de 2012. Em maio daquele ano, a equipe do Estado
Dadoslanou o Basmetro, um dos primeiros aplicativos jornalsticos
brasileiros. Em agosto do mesmo ano, a Folha de S. Paulo passou a hospedar o
blog FolhaSPDados, cujo objetivo criar visualizaes grficas e mapas
relacionados s reportagens publicadas no veculo impresso e no site da

empresa. A mesma Folha passou a hospedar o blog Afinal de Contas, dedicado a


analisar o noticirio a partir de anlises de dados. Outros veculos, como a
Gazeta do Povo, do Paran, tm usado a experincia da redao com jornalismo
investigativo na produo de grandes reportagens baseadas em dados. J o
gacho Zero Hora, por exemplo, vem se dedicando ao tema do jornalismo
guiado por dados e transparncia pblica atravs de reportagens e do blog Livre
Acesso, inaugurado em 2012 para acompanhar a aplicao da Lei de Acesso
Informao no pas.
No campo do jornalismo independente, o principal exemplo o InfoAmaznia,
criado em 2012 pelo Knight Fellow Gustavo Faleiros, em parceria com o
webjornal O Eco e a Internews. Em 2013, O Eco criou o Ecolab, um Laboratrio
de Inovao em Jornalismo Ambiental. A Agncia Pblica outra redao
independente a aplicar tcnicas de JGD, embora o faa esparsamente. Apesar
disso, foi responsvel por uma das principais contribuies ao JGD no Brasil,
por meio de uma parceria com o Wikileaks, para oferecer a biblioteca de
documentos diplomticos PlusD, entre outras bases de dados.
Estes exemplos sugerem estarmos vivenciando os primeiros passos de um
movimento de institucionalizao das prticas de jornalismo guiado por dados
nas redaes brasileiras. As bases do sucesso do JGD no pas, entretanto, foram
lanadas nos anos 1990.
Breve histrico do Jornalismo Guiado Por Dados no Brasil

Ainda durante o governo de Fernando Collor de Mello como presidente do


Brasil, o jornalista Mrio Rosa, ento empregado no Jornal do Brasil, usou o
Sistema Integrado de Administrao Financeira do Governo Federal (Siafi) para
verificar o superfaturamento na compra de leite em p pela Legio Brasileira de
Assistncia, ento presidida pela primeira-dama, Rosane Collor. Lcio Vaz
relata o caso no livro A tica da malandragem:
Assinada pelo jornalista Mrio Rosa, a matria estava completa, com dados
jamais vistos, como nmeros de ordens bancrias (Obs.) e de empenhos
(reservas feitas no Oramento da Unio). Mrio havia descoberto o Sistema
Integrado de Administrao Financeira (Siafi), uma expresso que se tornaria
muito conhecida de jornalistas e polticos nos anos seguintes. O acesso a esse
sistema, que registra os gastos do governo federal, possibilita fazer uma
completa radiografia de todos os pagamentos feitos a empreiteiras,
fornecedores, Estados e municpios. Uma mina de diamante para os reprteres.

O jornalismo ganhava uma nova e importante fonte de informao, mais


tcnica, quase cientfica. Estavam superados os mtodos mais arcaicos de
apurao, que envolviam, eventualmente, o enfrentamento com jagunos.
Na poca, o acesso a este tipo de base de dados governamental era vedado a
cidados e jornalistas. O prprio autor da reportagem, Mrio Rosa, s pde
realizar pesquisas no Siafi porque o ento senador Eduardo Suplicy (PT-SP) lhe
emprestou a senha a que tinha direito no desempenho de suas atividades
parlamentares. A partir desta e de outras reportagens, o Governo Federal
decidiu permitir oficialmente o acesso de jornalistas ao Siafi, tornando-o uma
das primeiras bases de dados pblicas a serem franqueadas a reprteres no
Brasil.
Ascnio Seleme, hoje diretor de redao de O Globo, foi outro reprter que,
ainda nos anos 1990, usou a senha de um parlamentar para realizar pesquisas
no Siafi, em colaborao com o analista econmico Gil Castelo Branco, diretor
da Organizao No-GovernamentalContas Abertas. Estes dois casos so,
provavelmente, os primeiros exemplos de JGD na histria do jornalismo
brasileiro.
Ao longo dos anos 1990, reprteres como Fernando Rodrigues e Jos Roberto
de Toledo, da Folha de S. Paulo, comeam a usar tcnicas de RAC. A partir de
cursos ministrados na redao por tutores do National Institute for ComputerAssisted Reporting dos Estados Unidos, uma subdiviso da associao
Investigative Reporters and Editors (IRE/NICAR), estas tcnicas foram
disseminadas na redao e depois passaram a integrar o currculo do programa
de trainees da Folha. A partir de 1998, Fernando Rodrigues comeou a construir
o banco de dados Polticos do Brasil, lanado na Web e em livro. Em 2002, Jos
Roberto de Toledo se torna um dos scios-fundadores e vice-presidente
da Associao Brasileira de Jornalismo Investigativo (Abraji), entidade
fundamental na disseminao dos conceitos e tcnicas da RAC no Brasil, tendo
treinado mais de quatro mil jornalistas.
A estruturao da Abraji se deu a partir de um seminrio promovido pelo
Centro Knight para o Jornalismo nas Amricas em dezembro de 2002, cujos
principais palestrantes foram Brant Houston, autor de um manual de RAC e
ento diretor do IRE, e Pedro Armendares, da organizao mexicana Periodistas
de Investigacin, que era um dos tutores dos cursos de RAC organizados pela
Folha de S. Paulo.

Embora seja uma associao voltada ao jornalismo investigativo em geral, a


Abraji atuou na ltima dcada principalmente na divulgao da RAC e na defesa
do acesso informao, como uma das entidades integrantes do Frum de
Direito de Acesso a Informaes Pblicas, criado em 2003, e atravs de cursos e
palestras dois fatores fundamentais para a emergncia do jornalismo guiado
por dados ao longo da dcada de 2000. Duas outras entidades tiveram um papel
importante no estabelecimento destas prticas nas redaes brasileiras: as
organizaes no-governamentais Transparncia Brasil e Contas Abertas.
A primeira foi criada em 2000 com o objetivo de construir e manter bases de
dados sobre financiamento eleitoral, histrico de vida pblica e processos
sofridos por parlamentares em nvel municipal, estadual e federal, notcias
sobre corrupo publicadas nos principais jornais brasileiros e sobre o
desempenho dos juzes membros do Supremo Tribunal Federal. A segunda
entidade, criada em 2005, acompanha o processo de execuo oramentria e
financeira da Unio, atravs de monitoramento do Siafi, e promove o
treinamento de jornalistas para fiscalizar gastos pblicos. As bases de dados
mantidas pela Transparncia Brasil e Contas Abertas permitiram a reprteres
realizar reportagens investigativas ao longo da dcada, quando o acesso s
informaes do Estado dependia de gesto caso-a-caso junto a rgos do
governo e s redaes no investiam neste tipo de recurso.
Um indcio da crescente importncia das bases de dados para as redaes ao
longo da dcada de 2000 est na lista de vencedores do Prmio Esso de Melhor
Contribuio Imprensa, vencido em 2002 e 2006 por Fernando Rodrigues,
pelo arquivo de declaraes de bens de polticos brasileiros Controle Pblico e
pelo livro Polticos do Brasil, respectivamente; pela Transparncia Brasil, em
2006, e pela Contas Abertas, em 2007. Em 2010, a reportagem vencedora do
Prmio Esso, o mais importante do jornalismo brasileiro, foi a srie Drios
Secretos, publicada pela Gazeta do Povo, do Paran. Para elucidar os
movimentos de contratao de funcionrios na Assembleia Legislativa do
Paran, os reprteres construram um banco de dados com todas as nomeaes
realizadas pela casa entre 2006 e 2010, a partir de dirios oficiais impressos.
Cruzando os dados no software para criao de planilhas Microsoft Excel,
puderam descobrir casos de contratao de funcionrios-fantasmas e
nepotismo.

Dados so a tbua de salvao da imprensa?

Esse breve histrico sugere que o jornalismo guiado por dados no foi
assimilado pelas redaes brasileiras atravs da divulgao promovida por
associaes profissionais internacionais, imprensa e jornalistas, que tem se
intensificado desde 2010, mas vem sendo constitudo como prtica na cultura
jornalstica brasileira em paralelo com o processo de informatizao. Todavia,
pode-se inferir que o interesse crescente de empresas e profissionais do mundo
inteiro pelo jornalismo guiado por dados alimenta e incentiva o interesse pelo
tema nas redaes do Brasil. Nmeros da ferramenta de buscas Google mostram
que, a partir de 2010, h um volume crescente de procura por pginas
relacionadas ao jornalismo guiado por dados, como pode ser verificado na
figura abaixo.

Imagem 11. Volume de buscas por data journalism entre janeiro de 2010 e agosto de 2013
(Google Trends, 18 set. 2013)

O primeiro ponto de inflexo na curva de interesse pelo termo data journalism


(jornalismo de dados) no Google coincide com a criao de uma seo dedicada
ao tema, o DataBlog, pelo jornal britnico The Guardian, no final de 2010, e
atinge seus dois maiores picos em maio de 2012, quando o jornal americano
Seattle Times ganha o prmio de melhor reportagem em jornalismo guiado por
dados da associao Global Editors Network, e em abril de 2013, quando o The
Guardian publica no repositrio de vdeos YouTube um documentrio sobre a
histria do jornalismo guiado por dados na redao do veculo britnico.
O interesse da imprensa pelo jornalismo guiado por dados, porm, j era
evidente dois anos. No dia 11 de janeiro de 2009, a New York Magazine, editada
pelo grupo controlador do New York Times, trazia na capa a manchete O novo
jornalismo e uma foto de duas pginas de cinco membros dos setores de
Tecnologias para Redao Interativa, grficos e multimdia da empresa,
acompanhada do subttulo O que estes cybergeeks renegados esto fazendo no
New York Times? Talvez o salvando. A matria conta a histria da formao do

grupo de Tecnologias para Redao Interativa dentro da organizao, cujos


membros, liderados por Aron Pilhofer, so classificados na reportagem como
nerds, desenvolvedores/reprteres ou reprteres/desenvolvedores e
cybergeeks.
O New York Times uma das maiores e mais respeitadas empresas de
jornalismo do mundo e, para alm do sucesso mercadolgico, pode ser
considerada a prpria encarnao da cultura e da mitologia da profisso. O
interesse das redaes brasileiras e mundiais pelas prticas de jornalismo
guiado por dados no est ligado apenas a seus benefcios para as rotinas
produtivas e o atendimento do interesse pblico, mas tambm esperana de
salvar uma indstria em decadncia justamente por efeito das tecnologias
digitais.
Marcelo Trsel, Pontifcia Universidade Catlica do Rio Grande do Sul

Existe jornalismo de dados e visualizao no Brasil?


Existe jornalismo de dados e de visualizao no Brasil? Existe. Est crescendo?
Quero acreditar que est, mas no de jeito sistemtico e organizado, e no na
grande mdia. Sendo honesto, tenho pouca esperana de que estas tcnicas e
ferramentas vo criar razes profundas nela com algumas excees notveis
, pelo menos at que no aconteam algumas mudanas profundas. Aqui esto
alguns dos principais motivos:
1. A alergia ao pensamento lgico, racional, e quantitativo: Tenha em
conta s os seguintes fatos: Alguns dos principais jornais do pas continuam
a publicar horscopos sem pudor nenhum; as TVs nacionais cobrem
aparies de virgens e santos como se fossem fatos, e no iluses; a principal
revista semanal de informao geral uma fonte substancial de exemplos de
grosseira falta de critrio estatstico e visual. Estes so s sintomas de um
fenmeno subjacente que pode gerar um clima pouco propcio para o
desenvolvimento da profisso.
2. A falta de conhecimento dos rudimentos de mtodos de pesquisa:
O jornalista brasileiro, como muitos outros de tradio mediterrnea (no se
esqueam que sou espanhol) , em geral, um escritor-humanista, no um
pesquisador-cientista. Como ter os dois perfis fundamental em qualquer
redao, a mdia brasileira precisa hoje menos do primeiro e mais do
segundo. Em algumas palestras no pas, enquanto comentava exemplos de
grficos ou histrias que poderiam ser melhoradas, falei casualmente: Aqui
podem ver um caso claro de quando melhor usar a mediana e no a
mdia, s para ficar chocado pelos olhares de confuso de uma parte da
audincia. Se ns no sabemos algo to bsico como o que uma mediana, o
que dizer de desvio padro, anlises de regresso, valor-p, ou mtodos
bayesianos, to em moda hoje graas ao sucesso de Nate Silver no The New
York Times?
3. O ensino universitrio do jornalismo: A falta de sabedoria cientfica e
tecnolgica culpa, em grande parte, de um sistema de educao que no
tem se adaptado s necessidades dos jornalistas de hoje. Em um mundo em
que os dados so cada vez mais acessveis, em que empresas e governos
contratam especialistas para manipular dados antes de apresent-los ao
pblico, o corpo profissional, que na teoria teria que servir de filtro, carece
das habilidades necessrias para cumprir com seu trabalho adequadamente.

Pior, por culpa do prximo ponto que descrevo, tambm est se blindando
contra colegas que possam ajudar nessa tarefa.
4. A obrigatoriedade do diploma: A deciso nscia de fazer o diploma
universitrio de jornalismo obrigatrio para o exerccio da profisso pode
dificultar o emprego de gente com perfil diverso para as redaes a no ser
em posies de segunda categoria. Alem disso, a exigncia do diploma
servir tambm como desculpa para que os departamentos de Jornalismo
no sintam a necessidade de se renovarem para oferecer aos estudantes um
melhor treinamento em habilidades conceituais e tecnolgicas.
Por que isto um grande desafio? Hoje muito difcil achar jornalistas
diplomados que, ao mesmo tempo, tenham conhecimentos cientficos ou
tcnicos profundos. No s que o jornalista mdio no saiba mexer com
dados; que no sabe nem ler uma tabela de nmeros, colocar eles em contexto,
e extrair histrias, o que muito mais importante. Como consequncia, a
grande mdia precisa contar com especialistas (cientistas, economistas,
socilogos, etc.) como reprteres e editores, e tambm com profissionais de
cincias da computao para colaborar na anlise profunda e na gesto de
dados.
Me permitam fazer um parntese neste ponto, e ser muito claro. Um hacker que
desenvolve ferramentas para que os cidados acessem dados pblicos, e que
segue as regras ticas prprias da profisso, to jornalista quanto o reprter
que escreve sobre o ltimo escndalo do Governo, gostem os partidrios do
diploma obrigatrio ou no. Se for contratado por um meio de comunicao,
deve ser na posio de jornalista ou, pelo menos, com salrio e poder de deciso
equivalentes aos de um reprter ou editor no mesmo nvel.
Eu leciono infografia e visualizao numa escola de Comunicao e Jornalismo.
No conheo nenhum caso de ex-estudante que tenha mostrado o seu diploma
para um empregador durante uma entrevista. Os jovens jornalistas so
avaliados pelas suas habilidades e conhecimentos.
Por que ter esperana

Na situao atual, portanto, impensvel que mesmo os melhores jornais do


pas reproduzam o que grandes meios de comunicao dos Estados Unidos
The New York Times, The Washington Post, The Boston Globe, LA Times,
ProPublica, The Texas Tribune esto conseguindo: juntar equipes

multidisciplinares que sistematicamente criam complexos e profundos projetos


de jornalismo de dados, visualizaes e infogrficos interativos.
Essas publicaes no consideram o jornalismo de dados acessrio ou enfeite,
mas elemento central das suas coberturas que no s do prestgio, mas
tambm atraem leitores. Em recentes palestras, Jill Abramson, diretora
executiva do The New York Times, se referiu aos seus departamentos de news
applications (aplicativos interativos de notcia), multimdia e infografia como
pilares essenciais do jornal e do seu rumo futuro. Um dos exemplos mais citados
por ela Snow Fall, uma cobertura multimdia, que de forma muito orgnica
mistura texto com imagem, animaes e infografias.
Tendo em conta este panorama desolador, porque acho que o jornalismo de
dados e a visualizao podem crescer e, por sinal, esto crescendo no Brasil? No
que que baseio minha esperana?
Em primeiro lugar, em corajosas iniciativas dentro dos grandes veculos
jornalsticos. So produto geralmente do esforo no suficientemente
reconhecido e sustentado de pequenos grupos de profissionais com vontade e
energia. A equipe do Estado Dados e o blog Afinal de contas, de Marcelo Soares
na Folha de S. Paulo so bons exemplos. So ainda s sementes de um
fenmeno que teria que florescer nos prximos anos, mas pelo menos existem.
Tem tambm projetos isolados, espordicos, feitos por outros veculos da mdia,
como as revistas poca e Veja, e jornais como o Correio, na Bahia, o Estado, e a
Folha. Porm, falta dar continuidade a estes casos notveis.

Em segundo lugar, indivduos e organizaes alm da mdia tradicional esto


mostrando uma criatividade invejvel. No tenho inteno de ser exaustivo na
listagem de projetos que tem chamado a minha ateno nos ltimos tempos,
mas gostaria de destacar alguns que combinam os dados com um interessante
trabalho de design e visualizao:InfoAmazonia e sua impressionante
combinao de bancos de dados e representao cartogrfica; o Radar
Parlamentar, que analisa matematicamente os padres de voto dos
congressistas; as propostas resultantes do W3C, como o Retrato da Violncia
Contra a Mulher no RS e Para Onde vai Meu Dinheiro; e o projeto Escola que
queremos.
Quem sabe, talvez sejam estes hackers, desenvolvedores, designers, jornalistas
independentes, organizaes no governamentais, e fundaes os que ocupem
um espao hoje quase vazio, e os que cumpram uma parte importante da tarefa
de informao pblica que, em tempos anteriores, correspondeu mdia
tradicional. O futuro promete, em qualquer caso. Alberto Cairo,
Universidade de Miami

Na Redao

Como o jornalismo de dados encontra espao em redaes pelo mundo? Como


os pioneiros do jornalismo de dados convenceram seus colegas de que era uma
boa ideia publicar bases de dados ou lanar aplicativos baseados em dados? Os
jornalistas devem aprender a programar ou trabalhar em conjunto com
desenvolvedores talentosos? Nesta seo olharemos para o papel do jornalismo
de dados na Australian Broadcasting Corporation, BBC, Chicago Tribune,
Guardian, Texas Tribune e Zeit Online. Aprenderemos como identificar e
contratar bons desenvolvedores, como fazer com que as pessoas se
comprometam com um tema atravs de hackatonas (maratonas hackers) e
outros eventos, como colaborar alm das fronteiras e modelos de negcio para
jornalismo de dados.

O que h neste captulo?

O Jornalismo de dados da ABC (Australian Broadcasting Corporation)

Jornalismo de Dados na BBC

Como trabalha a equipe de aplicativos de notcias no Chicago Tribune

Bastidores do Guardian Datablog

Jornalismo de dados no Zeit Online

Como contratar um hacker

Aproveitando a expertise dos outros com Maratonas Hacker

Seguindo o Dinheiro: Jornalismo de dados e Colaborao alm das Fronteiras

Nossas Histrias Vm Como Cdigo

Kaas & Mulvad: Contedo pr-produzido para comunicao segmentada

Modelos de Negcio para o Jornalismo de Dados

O Jornalismo de dados da ABC (Australian Broadcasting


Corporation)
A Australian Broadcasting Corporation a empresa pblica de radiofuso na
Austrlia. O oramento anual gira em torno de um 1 bilho de dlares
australianos, que abastece sete redes de rdio, 60 estaes locais de rdio, 3
servios digitais de televiso, um novo servio internacional de televiso e uma
plataforma online para transmitir a oferta cada vez maior de contedo gerado
pelo usurio. Na ltima contagem, havia mais de 4.500 funcionrios em tempo
equivalente a integral e quase 70% deles produzem contedo.
Ns somos uma radiofusora nacional intensamente orgulhosa de nossa
independncia; embora sejamos financiados pelo governo, temos autonomia
garantida por lei. Nossa tradiao o servio pblico independente de
jornalismo. A ABC reconhecida como a empresa de mdia mais confivel no
pas.
Estes so tempos estimulantes; sob a gesto de um diretor administrativo (o exexecutivo de jornal Mark Scott), os produtores de contedo da ABC foram
encorajados a ser "geis", como diz o mantra corporativo.
claro que mais fcil falar do que fazer.
Mas uma inciativa recente para incentivar essa produo foram competies nas
quais os funcionrios faziam rpidas apresentaes (pitchs) de projetos
multiplataforma que gostariam de desenvolver - as ideias vencedoras recebiam
o financiamento da empresa. Assim foi concebido o primeiro projeto de
jornalismo de dados da ABC.
No comeo de 2010, entrei em um desses pitchs para mostrar minha proposta
para trs dos avaliadores. Eu estava remoendo esta ideia h algum tempo,
ambicionando algo como o jornalismo de dados que o, agora legendrio,
Guardian Datablog estava oferecendo. E isso foi s o comeo.
Meu raciocnio era de que, sem dvida, dentro de 5 anos a ABC teria sua prpria
diviso de jornalismo de dados. Era inivitvel, opinei. Mas a questo era como
chegaramos l e quem comearia.
Para os leitores que desconhecem a ABC, pensem em uma grande burocracia
construda ao longo de 70 anos. Seus carros-chefes sempre foram rdio e
televiso. Com o advento do website, na ltima dcada a oferta de contedo
desenvolveu-se em texto, fotos e num grau de interatividade inimaginvel no

passado. O espao virtual estava forando a ABC a repensar os modos de obter


lucro e o seu contedo. claro que um trabalho contnuo.
Mas algo mais estava acontecendo com o jornalismo de dados. O governo 2.0
(que, como descobrimos, largamente ignorado na Austrlia) estava comeando
a oferecer novas maneiras de contar histrias at ento limitadas a zeros e uns.
Eu disse tudo isso para as pessoas durante minha rpida apresentao. Tambm
disse que precisvamos identificar novos conjuntos de habilidades e treinar
jornalistas em novas ferramentas. Precisvamos de um projeto para comear.
E eles me deram o dinheiro para isso.
Em 24 de Novembro de 2011, o projeto multiplataforma online de notcias da
ABC foi lanado com Coal Seam Gas by the Numbers (Gs Metano de Carvo em
Nmeros).
(Nota da traduo: O gs metano retirado do carvo um tipo de gs natural
usado como combustvel. Como foram descobertas grandes e valiosas reservas
desse gs na Austrlia, e sua explorao pode envolver problemas ambientais,
ele se tornou um dos principais assuntos em discusso no pas)

Imagem 1. Coal Seam Gas by the Numbers (ABC News Online)

Foi feito com cinco pginas de mapas interativos, visualizao de dados e texto.
No era exclusivamente jornalismo de dados, mas um hbrido de diferentes
formas de jornalismo nascido da mistura das pessoas na equipe e do tema, um
dos assuntos mais quentes na Australia.

A "jia da coroa" do projeto era um mapa interativo mostrando poos de


metano e concesses de explorao na Austrlia. Os usurios podem pesquislos por localizao e alternar entre o layout que mostra a concesso ou os poos.
Dando um zoom no mapa, podem acompanhar o responsvel pela explorao, a
condio do poo, e a sua data de perfurao. Outro mapa mostra onde h
explorao do gs prxima a aquferos australianos.

Imagem 2. Mapa interativo de poos de gs e concesses na Austrlia (ABC News Online)

Ns fizemos visualizaes de dados que trataram especificamente do problema


da gerao de um subproduto de gua com grande concentrao de sal. Outra
parte do projeto investigou o despejo de produtos qumicos numa bacia de rios.
Nosso Time

Um desenvolvedor web e webdesigner

Um jornalista que liderou o projeto

Um pesquisador, trabalhando meio-perodo, com expertise em extrao de


dados, planilhas de Excel, e "limpeza" dos dados

Um jornalista iniciante trabalhando meio perodo

Um consultor de produo executiva

Um consultor acadmico, com experincia em minerao de dados,


visualizao de grficos e habilidades avanadas de pesquisa

Os servios de um gerente de projetos e a assistncia administrativa da


unidade multiplataforma da ABC

Importante destacar que ns tambm tivemos um grupo de jornalistas de


referncia e outras pessoas que amos consultando conforme precisvamos

De Onde Conseguimos os Dados?

As informaes para os mapas interativos foram retiradas de shapefiles (um


tipo comum de dado geoespacial) baixados de sites do governo.
Outros dados sobre a gua e o sal vieram de diferentes relatrios
As informaes sobre os lanamentos de qumicos vieram de licenas
ambientais emitidas pelo governo.
O Que Aprendemos?

O projeto Coal Seam Gas by the Numbers foi ambicioso no contedo e na escala.
O mais importante para mim foio que aprendemos e como poderamos fazer
isso de uma maneira diferente da prxima vez"
O projeto juntou um monte de pessoas que normalmente no se encontravam
na ABC: em termos leigos, os hacks e os hackers. Muitos de ns no falvamos a
mesma lngua e nem mesmo acompanhvamos o trabalho do outro grupo.
Jornalismo de dados disruptivo!
Lies prticas:

Estar num mesmo local vital para a equipe. Nosso desenvolvedor e


designer trabalhou fora da ABC e veio para as reunies. Isso,
definitivamente, no o ideal! Coloque todos na mesma sala dos jornalistas.

Nosso consultor de produo executiva tambm estava em outro andar do


prdio. Precisvamos estar muito mais perto para que tivssemos a
possibilidade de "dar uma passada" rapidamente.

Escolha uma histria que exclusivamente orientada pelos dados

Olhando o Contexto

Grandes organizaes de mdia precisam se engajar na construo de


capacidades para enfrentar os desafios do jornalismo de dados. Meu palpite
que h um monte de geeks e hackers se escondendo nos departamentos mais
tcnicos das empresas desesperados para sair. Ento precisamos de workshops
"hack e hacker" onde os geeks escondidos, jornalistas jovens, desenvolvedores
web e webdesigners saiam para brincar com os jornalistas mais experientes e
compartilhem habilidades e que sejam orientados.
Ipso facto, o jornalismo de dados interdisciplinar. Equipes de jornalismo de
dados so feitas de pessoas que no tenham trabalhado juntas antes. O espao
digital borrou as fronteiras.
Vivemos em um meio poltico fraturado e de desconfiana. O modelo de negcio
que antes entregava jornalismo profissional independenteimperfeito como
ele est beira do colapso. Devemos nos perguntar, como muitos j esto
fazendo, como o mundo se parecer sem um "quarto poder" vivel. O intelectual
e jornalista norte-americano Walter Lippman observou em 1920 que "admite-se
que uma opinio pblica forte no pode existir sem o acesso a notcias.'' Essa
declarao no menos verdadeira agora. No sculo 21, todo mundo est na
blogosfera. difcil diferenciar mentirosos, dissimulados e grupos de interesse
de jornalistas profissionais. Praticamente qualquer site ou fonte pode ser feito
de forma a parecer ter credibilidade e ser honesto. As manchetes de confiana
esto morrendo na vala. E, neste novo espao de lixo jornalstico, links podem
levar o leitor, infinitamente, a outras fontes mais inteis, mas de aparncia
brilhante, que continuam linkando de volta ao salo de espelhos digitais. O
termo tcnico para isso : bullshit baffles brains (besteira que confunde
crebros: expresso em ingls para indicar fraudes).

No meio digital, todo mundo um contador de histrias, certo? Errado. Se o


jornalismo profissionale com isso quero dizer aquele que abraa uma
narrativa tica, equilibrada e corajosa na busca da verdadequiser sobreviver,
o ofcio dever reafirmar-se no espao digital. Jornalismo de dados apenas
mais uma ferramenta que nos permitir navegar nesse espao. onde vamos
mapear, remexer, classificar, filtrar, extrair e ver aparecer a histria no meio de
todos aqueles zeros e uns. No futuro trabalharemos lado a lado com os hackers,
os desenvolvedores, os designers e os programadores. uma transio que
requer sria capacitao. Precisamos de gestores de notcias que "saquem'' a
conexo jornalismo/ meio digital para comear a investir nessa construo.
Wendy Carlisle, Australian Broadcasting Corporation

Jornalismo de Dados na BBC


O termo "jornalismo de dados" pode abranger uma srie de disciplinas e usado
de diversas formas em organizaes jornalsticas. Por isso, pode ser til definir o
que entendemos por "jornalismo de dados" aqui na BBC. Em linhas gerais, o
termo abrange projetos que utilizam dados para realizar uma ou mais das
seguintes aes:

Permitir que um leitor descubra informao pessoalmente relevante

Revelar uma histria extraordinria e at ento desconhecida

Ajudar o leitor a entender melhor uma questo complexa

Essas categorias podem se sobrepor e, num ambiente on-line, muitas vezes


podem se beneficiar de algum nvel de visualizao.
Faa-o pessoal

No site da BBC News, utilizamos dados para fornecer servios e ferramentas aos
nossos usurios h mais de uma dcada.
O exemplo mais consistente, publicado primeiramente em 1999, so as
nossas Tabelas da rede escolar, que utilizam dados publicados anualmente pelo
governo. Os leitores podem encontrar escolas locais, inserindo um cdigo
postal, e compar-las de acordo com uma srie de indicadores. Jornalistas de
Educao tambm trabalham com a equipe de desenvolvimento para arrastar os
dados s suas matrias antes da publicao.
Quando comeamos a faz-las, no havia site oficial que providenciasse uma
maneira para o pblico explorar os dados. Mas agora que o Ministrio da
Educao tem o seu prprio servio de comparativo, passamos a nos concentrar
mais sobre as histrias que emergem a partir dos dados.
O desafio nesta rea deve ser o de proporcionar o acesso aos dados nos quais h
um claro interesse pblico. Um exemplo recente de um projeto que exps um
grande conjunto de dados, normalmente no disponveis para o pblico, foi a
reportagem especial Every Death on Every Road (Cada morte em Cada estrada).
Ns fornecemos uma busca por cdigo postal, permitindo que os usurios
encontrem a localizao de todas as fatalidades ocorridas nas estradas do Reino
Unido na ltima dcada.
Ns fizemos visualizaes de alguns dos principais fatos e nmeros que
emergem a partir dos dados da polcia e, para dar ao projeto uma sensao mais

dinmica e uma face humana, fizemos uma parceria com a London Ambulance
Association e a rdio e TV BBC de Londres para monitorar acidentes em toda a
capital medida que aconteciam. Isto foi relatado online e em tempo real, e
tambm atravs do Twitter utilizando a hashtag #crash24, e as colises
foram mapeadas medida que eram relatadas.
Ferramentas Simples

Alm de proporcionar maneiras de explorar grandes conjuntos de dados,


tambm tivemos sucesso ao criar ferramentas simples para usurios, que
fornecem informaes pessoalmente relevantes. Estas ferramentas interessam
queles sem tempo disponvel, que podem no querer uma longa anlise. A
capacidade de compartilhar facilmente um fato pessoal algo que tornarmos
padro.
Um exemplo a nossa ferramenta The world at 7 billion: Whats your
number (O mundo em 7 bilhes: Qual o seu nmero?), publicada para
coincidir com a data oficial em que a populao mundial ultrapassou 7 bilhes.
Ao inserir a data de nascimento, o usurio podia descobrir qual "nmero" ele
era, em termos de populao mundial, quando nasceu. Esse nmero podia ser
compartilhado depois atravs do Twitter ou Facebook. O aplicativo usava dados
fornecidos pelo fundo de desenvolvimento da populao das Naes Unidas. Era
muito popular, e tornou-se o link mais compartilhado em 2011 no Facebook do
Reino Unido.

Imagem 3. O mundo em 7 bilhes (BBC)

Outro exemplo recente o da calculadora do oramento da BBC, que permitia


aos usurios descobrirem quo melhor ou pior ser para as suas contas quando
a nova lei oramentria do Reino Unido entrar em vigore compartilhar esse
dado. Fizemos uma parceria com a empresa de contabilidade KPMG LLP, que
nos forneceu clculos com base no plano de oramento anual do governo, e
ento trabalhamos arduamente para criar uma interface atraente que
incentivasse os usurios a completarem a conta de quanto economizariam ou
gastariam a mais com as novas regras.
Minerando os Dados

Mas onde est o jornalismo em tudo isso? Uma definio mais tradicional do
jornalismo de dados descobrir histrias a partir de dados. Existe informao
exclusiva que se esconde na base de dados? Os nmeros so precisos? Ser que
eles provam ou refutam um problema? Estas so questes que um jornalista de
dados ou algum que pratica Reportagem com Auxlio do Computador (RAC)
deve se perguntar. Mas uma quantidade considervel de tempo pode ser gasta
para se peneirar conjuntos gigantescos de dados na esperana de encontrar algo
excepcional.

Nesta rea, descobrimos que mais produtivo fazer parceria com equipes de
investigao ou com programas que tm experincia e tempo para investigar
uma histria. O programa Panorama da BBC, sobre temas cotidianos, levou
meses trabalhando com o Centre for Investigative Journalism, coletando dados
sobre os salrios do setor pblico. O resultado foi um documentrio televisivo e
um relatrio on-line especial, Public Sector pay: The numbers, (Salrios do
Setor Pblico: Os Nmeros) onde todos os dados foram publicados e
visualizados com anlises feitas por setor.
Alm da parceria com jornalistas investigativos, ter acesso a uma srie de
jornalistas com conhecimento especializado essencial. Quando um colega da
editoria de negcios analisou dados sobre cortes de gastos anunciados pelo
governo do Reino Unido, chegou concluso de que o governo estava fazendo
parecer com que os cortes fossem maiores do que realmente eram. O resultado
foi uma reportagem exclusiva, Making sense of the datacomplementada por
uma clara visualizao, que ganhou um prmio da Royal Statistical Society.
Entendendo um problema

Mas o jornalismo de dados no tem de ser apenas encontrar uma informao


exclusiva que ningum conseguiu enxergar antes. O trabalho da equipe de
visualizao de dados combinar bom design com uma narrativa editorial clara,
de modo a fornecer uma experincia atraente para o usurio. Produzir
visualizaes dos dados corretos pode ser til para proporcionar uma melhor
compreenso de um problema ou de uma histria e ns frequentemente usamos
essa abordagem em nossas narrativas na BBC. Uma tcnica usada em nosso
Rastreador de Pessoas em Busca de Emprego no Reino Unido um mapa de
calor mostrando onde h mais gente procurando emprego ao longo do tempo
para fornecer uma viso clara de mudana.
A matria com dados Eurozone debt web (Rede da dvida da Zona do Euro)
explora o emaranhado de emprstimos entre pases. Ela ajuda a explicar uma
questo complicada de forma visual, usando cor e setas de tamanhos
proporcionais s dvidas combinadas com um texto claro. importante
incentivar o usurio a explorar o recurso ou a seguir uma narrativa, sem fazer
com que ele se sinta oprimido pelos nmeros.
Viso Geral da Equipe

A equipe que produz o jornalismo de dados para o site da BBC News composta
por cerca de 20 jornalistas, designers e desenvolvedores.

Alm de projetos de dados e visualizaes, a equipe produz todos os infogrficos


e recursos interativos multimdia no site de notcias. Juntos, eles formam um
conjunto de tcnicas narrativas que chamamos de jornalismo visual. No temos
pessoas especificamente identificadas como jornalistas de dados, mas toda a
equipe editorial deve ser proficiente no uso de aplicativos de planilhas bsicas,
tais como Excel e Google Docs, para analisar dados.
Centrais para qualquer projeto de dados so as habilidades tcnicas e conselhos
dos nossos desenvolvedores e as habilidades de visualizao dos nossos
designers. Enquanto somos todos "primeiramente" jornalista, ou designer ou
desenvolvedor, continuamos a trabalhar duro para aumentar a nossa
compreenso e proficincia em cada uma das outras reas.
Os produtos principais para explorar dados so Excel, Google Docs e Google
Fusion Tables. A equipe tem usado tambm, mas em menor grau, MySQL,
bancos de dados do Access e Solr para explorar conjuntos de dados maiores e
usado RDF e SPARQL para comear a procurar formas em que podemos
modelar eventos usando tecnologias vinculadas aos dados. Desenvolvedores
tambm usam sua linguagem de programao preferida, seja ActionScript,
Python ou Perl, para combinar, analisar, ou geralmente separar um conjunto de
dados com o qual podem estar trabalhando. Perl usado para algumas das
publicaes.
Para explorar e fazer visualizao de dados geogrficos usamos Google Maps e
Bing Maps, alm do Google Earth junto com ArcMAP da Esri.
Para grficos, usamos o pacote Adobe, incluindo After Effects, Illustrator,
Photoshop e Flash, embora raramente publicamos arquivos em Flash no site, j
que o JavaScriptespecialmente JQuery e outras bibliotecas JavaScript, tais
como Highcharts, Raphael e D3cada vez mais atendem nossos requisitos de
visualizao de dados.
Bella Hurrell and Andrew Leimdorfer, BBC

Como trabalha a equipe de aplicativos de notcias no Chicago


Tribune
Como trabalha a equipe de aplicativos de notcias no Chicago Tribune
A equipe que produz aplicativos de notcias para o Chicago Tribune um grupo
de felizes hackers incorporados redao. Trabalhamos prximos aos editores e
reprteres para auxili-los em: 1) apurao e reportagem, 2) ilustrao de
matrias online e 3) construo de recursos de web sempre vivos para os leitores
da regio de Chicago.
importante a nossa presena dentro da redao. Geralmente o trabalho
aparece quando conversamos diretamente com os reprteres. Eles sabem que
ficamos felizes em pensar em maneiras de retirar dados de um site
governamental ruim, arrancar informaes de uma pilha de PDFs, ou, posto de
outra maneira, transformar "no-dados" em um material que voc possa
analisar. uma espcie de estratgia do nosso grupo; com esse contato,
descobrimos outros projetos de dados em potencial.
Diferentemente de outros grupos nesse ramo, nossa equipe foi fundada por
gente vinda do ramo de tecnologia que viu no jornalismo uma mudana na
carreira. Alguns de ns fizeram mestrado em Jornalismo depois de muitos anos
vivendo de programao, outros vieram da comunidade open government.
Trabalhamos com agilidade. Para ter certeza de que estamos sempre na mesma
pgina, toda manh comea com um encontro de 5 minutos para atualizarmos,
uns aos outros, sobre os avanos nos trabalhos. Frequentemente programamos
em pares: dois desenvolvedores em um teclado so quase sempre mais
produtivos do que dois desenvolvedores em dois teclados. A maioria dos
projetos no leva mais de uma semana para ser finalizado, mas, nos trabalhos
mais longos, apresentamos todas as semanas os resultado aos participantes do
projeto (quase sempre reprteres e editores). "Erre rapidamente" o nosso
mantra. Se voc est fazendo errado, preciso que voc saiba o mais rpido
possvel, especialmente se o trabalho tem um prazo de entrega.
H um imenso lado positivo em hackear de maneira sistemtica, sempre tendo
em vista um deadline: estamos sempre atualizando o nosso kit de ferramentas.
Toda semana, produzimos rapidamente um aplicativo ou dois e, depois, ao
contrrio dos trabalhos convencionais com software, podemos deixar o projeto

de lado e seguir para o prximo. uma alegria que dividimos com os reprteres,
e toda semana aprendemos algo novo.

Imagem 4. A equipe de aplicativos de notcias do Chicago Tribune (foto de Heather Billings)

Todas as ideias de aplicativos vm dos reprteres e editores na redao. Isso,


creio, nos diferencia de programadores de outras redaes que frequentemente
do suas prprias sugestes. Construmos fortes relaes pessoais e
profissionais na redao e o pessoal sabe que, quando tem dados, pode vir at
ns.
Muito do nosso trabalho na redao dar suporte ao reprter. Ajudamos a cavar
os dados, fazer com que informaes em PDFs voltem a ser planilhas, extrair
dados de telas de sites, etc. um servio que gostamos de prover porque faz
com que saibamos com antecedncia as reportagens que envolvem trabalhos de
dados na redao. Parte desse trabalho vira aplicativo de notcias: um mapa,
uma tabela ou, s vezes, um site maior.
Antes, direcionvamos o leitor ao aplicativo a partir da reportagem, o que no
resultava em muito trfego. Hoje os aplicativos ficam prximos ao topo do
nosso site e so eles que levam o leitor ao texto, o que funciona bem para
ambos: para o aplicativo e a reportagem. Existe uma seo do site para o nosso

trabalho, mas o link no recebe muitas visitas. Isso no nos surpreende. "Ei,
hoje eu quero ver dados!" no algo que todo mundo diz.
Adoramos ter pageviews e adoramos os elogios de nossos colegas, mas no
isso que faz valer o esforo. A motivao deve sempre ser o impacto: na vida das
pessoas, na lei, no controle dos polticos, e por a vai. O texto vai dialogar com as
tendncias e as humanizar com algumas histrias. Mas o que o leitor deve fazer
quando termina a reportagem? Sua famlia est segura? Suas crianas esto
sendo corretamente educadas? Ficamos felizes quando, com o nosso trabalho,
ajudamos o leitor a encontrar sua prpria histria nos dados. Exemplos de
trabalhos personalizados e impactantes incluem nossos aplicativos deRelatrio
de Segurana de Casas de Repouso e de Boletim Escolar.
Brian Boyer, Chicago Tribune

Bastidores do Guardian Datablog


Quando ns lanamos o Datablog, no tnhamos nenhuma ideia sobre quem
estaria interessado em dados brutos, estatsticas e visualizaes. Como disse
uma pessoa experiente no meu escritrio, "por que algum iria querer isto?"
O Guardian Datablog, que eu edito, era para ser um pequeno blog oferecendo as
bases de dados completas por trs de nossas matrias. Agora ele consiste em
uma pgina inicial; buscas de dados sobre pases e desenvolvimento global;
visualizao de dados de artistas grficos do Guardian e de outras partes da rede
e ferramentas para explorao de dados sobre gastos pblicos. Todos os dias,
usamos as Planilhas do Google para compartilhar todos os dados por trs de
nossos trabalho; ns visualizamos e analisamos esses dados e, ento, os usamos
para criar reportagens no jornal e no site.
Como editor de notcias e jornalista que trabalha com grficos, o projeto seria
um desdobramento lgico do trabalho que eu j estava fazendo, que consistia
em acumular bases de dados e "brigar" com elas para tentar dar mais sentido s
matrias do dia.
Para ns, a pergunta do comeo deste texto hoje est respondida. Os ltimos
anos tm sido incrveis em relao aos dados pblicos. Em seu primeiro dia de
governo, o presidente Obama comeou a liberar as caixas-pretas de dados
governamentais dos Estados Unidos, e seu exemplo foi seguido, em pouco
tempo, por outros sites de dados de governamentais ao redor do mundo:
Austrlia, Nova Zelndia e o site do governo britnico data.gov.uk.
Tivemos o escndalo dos gastos dos membros do parlamento britnico, a mais
inesperada matria de jornalismo de dadoso resultado foi que o governo do
Reino Unido est agora comprometido a liberar uma enorme quantia de dados
todos os anos.
Tivemos uma eleio geral em que cada um dos principais partidos polticos se
comprometeu com a transparncia de dados, abrindo o acesso aos nossos dados
para o mundo. Jornais dedicaram valorosos espaos em suas colunas para a
liberao da base de dados COINS (Combined Online Information System, que
guarda milhes de informaes sobre gastos pblicos).
Ao mesmo tempo, enquanto a web bombardeia mais e mais dados, leitores ao
redor do mundo esto mais interessados que nunca nas informaes cruas por
trs das notcias. Quando lanamos o Datablog, pensamos que a audincia seria

formada por desenvolvedores de aplicativos. Na verdade, ela formada de


pessoas que querem saber mais sobre emisso de carbono, imigrao no Leste
Europeu, o nmero de mortes no Afeganisto, ou at mesmo a quantidade de
vezes que os Beatles usaram a palavra "amor" em suas canes (613).

Imagem 5. O processo de produo do Datablog

Gradualmente, o trabalho do Datablog foi aparecendo nas histrias com que nos
deparamos e as enriquecendo. Ns fizemos um crowdsourcing
(disponibilizamos online) 458 mil documentos relativos aos gastos dos
membros do parlamento ingls e analisamos em conjunto com os usurios os
dados detalhados sobre as alegaes dos parlamentares nos documentos.
Ajudamos nossos usurios a explorar bancos de dados relativos a gastos
pblicos e publicamos os dados por trs das notcias.
Mas a grande mudana para o jornalismo de dados aconteceu na Primavera de
2010, comeando com uma planilha: 92.201 linhas de dados, cada uma
contendo detalhes de uma ao militar no Afeganisto. Este foi o War Logs
(registros de guerra) liberado pelo WikiLeaks. Quer dizer, a primeira parte dele.
Houve ainda dois outros episdios em seguida: o do Iraque e o dos cabos. O
termo oficial utilizado para nomear o banco de dados das duas primeiras partes
foi SIGACTS: Banco de Dados de Aes Significativas dos Estados Unidos
(Significant Actions Database).
A organizao das notcias est muito ligada geografia dentro do jornal e
proximidade com a redao. Se voc est perto, mais fcil sugerir pautas e se
tornar parte do processo; vendo pelo outro lado, estar fora de vista estar
literalmente fora da cabea do reprter. Antes do WikiLeaks, ns ficvamos
num andar diferente, com quem faz grficos. Desde o surgimento do WikiLeaks,
ns passamos a ficar no mesmo andar, perto da redao. Isso significa que
mais fcil para ns sugerir ideias para as editorias, e faz com que reprteres da
redao lembrem-se de ns para ajud-los com suas reportagens.
No faz muito tempo, jornalistas eram os guardies dos dados oficiais. Ns
escrevamos reportagens sobre nmeros e soltvamos para um pblico
agradecido, que no estava interessado nas estatsticas puras. A ideia de
liberarmos informaes brutas nos jornais era um antema.
Agora a dinmica mudou completamente. Nosso papel nos tornarmos
intrpretes; ajudando as pessoas a compreenderem os dados, ou at mesmo
apenas public-los, j que eles so interessantes por si mesmos.
Mas os nmeros sem anlise so s nmeros, e a que entramos. Quando o
Primeiro Ministro britnico declarou que os protestos em Agosto de 2011 no
tinham a ver com a pobreza, ns fomos capazes de mapear os endereos dos
manifestantes e verific-los com indicadores de pobreza a fim de mostrar a
verdade por trs desta declarao.

H um processo por trs de toda reportagem ligada ao jornalismo de dados. Ele


muda constantemente conforme usamos novas ferramentas e tcnicas. Algumas
pessoas dizem que a resposta se tornar um super hacker, escrever cdigos, e
imergir no SQL. Voc pode escolher esta abordagem. Mas muito do trabalho que
fazemos utiliza apenas o Excel.
Primeiramente, localizamos os dados ou os recebemos de uma variedade de
fontes, das ltimas notcias, de dados do governo ou das pesquisas de
jornalistas, e por a vai. Comeamos ento a ver o que fazer com esses dados;
preciso mistur-los com outra base de dados? Como podemos demonstrar as
mudanas ocorridas ao longo do tempo? As planilhas muitas vezes devem ser
organizadastodas as colunas esquisitas e as clulas estranhamente mescladas
realmente no ajudam. E isso assumindo que no estejam em PDF, o pior
formato para dados conhecido da humanidade.
Muitas vezes, dados oficiais vem com cdigos oficiais; cada escola, hospital,
distrito eleitoral, e autoridade local tem um nico cdigo identificador.
Os pases tm tambm (o cdigo do Reino Unido GB, por exemplo). Eles so
teis caso se deseje comear a misturar as bases de dados, e impressionante a
quantidade de maneiras diferentes de escrever uma mesma informao que
podem atrapalhar a anlise. H Burma e Myanmar, por exemplo, ou o Condado
Fayette nos Estados Unidos (h 11 destes nos Estados de Georgia e West
Virginia). Cdigos nos permitem fazer comparaes nesses casos em que um
dado se confunde com outro.
Ao final do processo est o resultado: ser uma reportagem, um grfico, ou uma
visualizao e, quais as ferramentas que iremos utilizar? As ferramentas mais
utilizadas por ns so as grtis com as quais podemos rapidamente produzir
algo. Nossa equipe de desenvolvimento produz os grficos mais sofisticados.
Isto significa que ns comumente utilizamos o Google charts (programa de
grficos do Google) para fazer pequenos grficos de linha ou de pizza, ou o
Google Fusion Tables para criar mapas mais rpidamente e facilmente.
Isto pode parecer novo, mas realmente no .
Na primeira verso do Manchester Guardian (no sbado, 5 de maio de 1821), as
notcias estavam na pgina de trs, assim como em todos os jornais daquela
poca. O primeiro item da capa era um aviso sobre um labrador desaparecido.

Por entre as reportagens e excertos de poemas, um tero dessa pgina de trs foi
tomado por fatos. Uma tabela completa mostrava os custos das escolas
naquela rea, "algo nunca antes informado ao pblico", escreve "N.H.".
N.H. queria seus dados publicados porque, caso contrrio, os fatos seriam
reportados por clrigos destreinados. Sua motivao era que "O contedo de tal
informao valoroso; porque, sem saber em que medida a educao
prevalece, as melhores opinies que podem ser formadas sob a condio e o
progresso futuro da sociedade sero necessariamente incorretas." Em outras
palavras, se as pessoas no sabem o que est acontecendo, como a sociedade
pode melhorar?
No consigo pensar numa anlise melhor para o que ns estamos tentando
fazer. O que antes era reportagem para a pgina de trs do jornal pode, hoje, ser
a notcia da primeira pgina.
Simon Rogers, The Guardian

Jornalismo de dados no Zeit Online


O projeto PISA based Wealth Comparison uma visualizao interativa que
permite comparar padres de vida em diferentes pases. Ele utiliza dados
do PISA 2009, um abrangente relatrio da OCDE sobre o nvel de educao no
mundo, publicado em dezembro de 2010. O relatrio baseado em um
questionrio aplicado a crianas de quinze anos sobre as condies de vida delas
em casa.
A ideia foi analisar e visualizar esses dados com o objetivo de fornecer uma
forma original de comparar os padres de vida em diferentes pases.

Imagem 6. PISA based Wealth Comparison (Zeit Online)

Primeiro, a nossa equipe editorial decidiu quais fatos pareciam teis para tornar
os padres de vida comparveis e quais deveriam ser visualizados, incluindo:

Riqueza (nmero de TVs, carros e banheiros disponveis em casa)

Situao familiar (se os avs esto vivendo com a famlia, percentual de


famlias com apenas um filho, desemprego dos pais, e condio de trabalho
das mes)

Acesso a fontes de conhecimento (Internet em casa, frequncia no uso de


email e quantidade de livros possudos)

Trs indicadores adicionais sobre o nvel de desenvolvimento de cada pas

Com a ajuda da equipe de design, esses fatos foram traduzidos em cones autoexplicativos. Uma programao de design foi construda para fazer comparaes
entre diferentes pases, olhando para eles como se fossem cartas de baralho.
Depois, ns entramos em contato com o pessoal do German Open Data
Network para procurar desenvolvedores que poderiam ajudar com o projeto.
Essa comunidade de pessoas altamente motivadas nos sugeriu Gregor Aisch, um
talentoso designer de informao, para codificar os aplicativos que fariam os
nossos sonhos se tornar realidade (isso sem utilizar o Flash, o que era muito
importante para ns!). Gregor criou uma visualizao interativa de alta
qualidade com um lindo estilo de bolhas, baseado noRaphal-Javascript
Library.
O resultado da nossa colaborao foi um sucesso interativo que gerou muito
trfego na internet. simples comparar quaisquer dois pases, o que faz o
aplicativo til como uma ferramenta de referncia. Ns podemos reutiliz-lo no
nosso trabalho editorial dirio. Por exemplo, se estamos cobrindo algo
relacionado situao de vida na Indonsia, podemos rapidamente e facilmente
embutir um grfico comparando a situao de vida da Indonsia com a da
Alemanha. O know-how ganho pela a nossa equipe foi um grande investimento
para projetos futuros.
No Zeit Online, ns descobrimos que nossos projetos de jornalismo de
dados tm aumentado o trfego e ajudado a envolver o pblico de novas formas.
Por exemplo, houve muita cobertura sobre a situao da usina nuclear em
Fukushima depois do tsunami no Japo. Depois que o material radioativo
escapou da usina nuclear, os moradores que estavam em um raio de 30
quilmetros foram retirados de suas casas. As pessoas podiam ler um monte de
coisas sobre as evacuaes. O Zeit Online encontrou uma forma inovadora para
explicar o impacto ao pblico alemo. Ns perguntamos: quantas pessoas
moram perto de uma usina nuclear na Alemanha? Quantas vivem em um raio
de 30 quilmetros? Um mapa mostra quantas pessoas poderiam ter de deixar
suas casas se algo semelhante acontecesse na Alemanha. O resultado: muitos
acessos; na verdade, o projeto tornou-se viral nas mdias sociais. Projetos de
jornalismo de dados podem ser relativamente fceis de se adaptar a outros

idiomas. Ns criamos uma verso em ingls sobre a proximidade de usinas


nucleares nos EUA, que foi uma grande fonte de trfego. Organizaes de
notcias querem ser reconhecidas como fontes confiveis e de autoridade entre
os leitores. Ns achamos que projetos baseados no jornalismo de dados,
combinados com o fato de que permitimos aos nossos leitores olhar e reutilizar
os dados brutos, nos traz um elevado grau de credibilidade.
H dois anos o departamento de pesquisa e desenvolvimento e o redator-chefe
do Zeit Online, Wolfgang Blau, defendem o jornalismo de dados como uma
importante maneira de contar histrias. Transparncia, credibilidade e
envolvimento do usurio so partes importantes da nossa filosofia. por isso
que o jornalismo de dados uma parte natural do nosso trabalho atual e futuro.
Visualizaes de dados podem agregar valor para a recepo de uma matria e
so uma forma atraente para toda a equipe editorial apresentar contedos.
Por exemplo, em 9 de novembro de 2011, o Deutsche Bank prometeu parar de
financiar a fabricao de bombas de fragmentao. Mas de acordo com um
estudo da organizao sem fins lucrativos Facing Finance, mesmo depois da
promessa, o banco continuou a aprovar emprstimos para os produtores de
bombas de fragmentao. A nossa visualizao de dados mostra aos leitores os
vrios fluxos desse dinheiro. As diferentes subsidirias do Deutsche Bank esto
dispostas no topo; as companhias acusadas de envolvimento na construo de
bombas de fragmentao, embaixo. No meio, os emprstimos esto
representados ao longo de uma linha do tempo. Sobre os crculos so mostrados
os detalhes de cada transao. Claro, a histria poderia ter sido contada
somente em texto. Mas a visualizao permite aos nossos leitores entender e
explorar as relaes financeiras de uma forma mais intuitiva.

Imagem 7. O negcio das bombas (Zeit Online)

Outro exemplo: a Agncia Federal de Estatstica da Alemanha tem publicado


uma grande base de dados sobre estatsticas vitais para o pas, incluindo vrios
modelos de cenrios demogrficos at 2060. A tpica maneira de representar
isso uma pirmide populacional, tal como publicada pela agncia.
Com os nossos colegas do departamento de cincia, tentamos dar aos nossos
leitores uma forma melhor para explorar as projees de dados demogrficos
sobre o futuro da nossa sociedade. Na nossa visualizao, apresentamos um
grupo estatisticamente representativo de 40 pessoas de diferentes idades desde
1950 at 2060. Elas esto organizadas em oito grupos diferentes. Parece uma
foto da sociedade alem em diferentes momentos. Os mesmos dados
visualizados em uma tradicional pirmide populacional do apenas uma
sensao muito abstrata da situao, mas ter um grupo com crianas, jovens,
adultos e idosos faz com que nossos leitores possam relacionar os dados com
mais facilidade. Voc precisa somente apertar play para iniciar uma viagem
atravs de 11 dcadas. Voc pode tambm digitar sua data de nascimento e o
sexo para se tornar parte do grupo: para ver a sua viagem demogrfica atravs
das dcadas e a sua prpria expectativa de vida.
Sascha Venhor, Zeit Online

Imagem 8. Visualizao de dados demogrficos (Zeit Online)

Como contratar um hacker


Uma das coisas que jornalistas me perguntam regularmente "como conseguir
um programador para me ajudar com meu projeto?" No se engane em pensar
que este um processo de mo nica; hackers com conscincia cvica e
aficcionados por dados geralmente tm a mesma ansiedade para manter contato
com jornalistas.
Jornalistas so usurios acima da mdia de servios e ferramentas de dados. Do
ponto de vista de desenvolvedores, jornalistas pensam fora da caixa para usar
ferramentas de dados em contextos que desenvolvedores nem sempre
consideraram (o feedback inestimvel!). Eles tambm ajudam a construir
cenrios, repercutir projetos e a torn-los relevantes. uma relao simbitica.
Felizmente, isso significa que se voc estiver querendo contratar um hacker ou
procurando por possveis colaboraes com um oramento limitado, mais que
provvel que haja algum por a interessado em te ajudar.
Ento como voc vai ach-los? Aron Pilhofer, do New York Times, responde:
Voc pode achar que sua empresa j tem pessoas com todas as habilidades
necessrias, mas essas pessoas no esto necessariamente dentro de sua
redao. Perambule por a, visite os departamentos de tecnologia e de TI e voc
possivelmente vai encontrar algo brilhante. importante tambm saber
apreciar a cultura de programao: encontre algum que tenha um computador
como esse aqui Figure 9 e da provavelmente voc ter o que est
procurando.

Imagem 9. Figurinha carimbada: hackers so geralmente fceis de serem notados (foto de Lucy
Chambers)

Mais algumas ideias de como fazer isso:


Publique em sites de emprego

Identifique e publique em sites voltados a desenvolvedores que


trabalham com diferentes linguagens de programao. Por
exemplo, Python Job Board.
Faa contato com listas de e-mail relevantes

Por exemplo, a lista de email do NICAR-L e do Data Driven Journalism


Contate organizaes relevantes

Por exemplo, se voc quiser arrancar ou depurar dados da web, voc


pode contatar uma organizao como a Scraperwiki, que tem uma grande
lista de contatos de programadores motivados e confiveis.
Entre em redes e grupos relevantes

Procure por iniciativas como o Hacks/Hackers que renem jornalistas e


aficionados por tecnologia. Grupos de Hacks/Hackers esto se
espalhando pelo mundo. Voc tambm pode tentar publicar algo na lista
de empregos deles.
Grupos locais

Voc pode tentar uma busca rpida por uma rea de conhecimento na
sua regio (por exemplo, "javascript" + "london"). Sites como o
Meetup.com tambm so um excelente lugar para se comear.
Competies e Hackathonas

Tendo ou no um prmio em dinheiro, competies de visualizao e de


aplicativos e maratonas de desenvolvimento so geralmente solo frtil
para a colaborao e para estabelecer conexes.
Pergunte a um geek!

Geeks andam com outros geeks. O boca a boca sempre um bom modo
de achar gente boa com quem se trabalhar.
Lucy Chambers, Open Knowledge Foundation
Habilidades Hacker

Depois de achar um hacker, como voc vai saber se ele bom? Ns


pedimos a Alastair Dant do Guardian suas dicas sobre como identificar
um bom hacker:
Eles codificam de todas as formas

Quando se trata de prazos, melhor ser um mediano verstil que um


mestre de uma coisa s. Novos aplicativos requerem esmiuar dados,
grficos dinmicos e obstinao.
Eles vem as coisas dentro do contexto mais amplo

Abordagens holsticas favorecem a narrativa a detalhes tcnicos. Eu


preferiria ouvir uma nota tocada com sentimento a um virtuosismo
incessante em escalas obscuras. Descubra o quo feliz a pessoa fica ao ter
de trabalhar junto com um designer.
Eles contam uma boa histria

Apresentaes narrativas requerem organizar coisas no espao e tempo.


Descubra de qual o projeto eles tm mais orgulho e pea a eles que
mostrem o caminho que fizeram para construir o projeto. Isso revelar
tanto sobre a habilidade deles em se comunicarem quanto sobre o
conhecimento tcnico que possuem.
Eles dialogam ao longo dos processos

Fazer coisas rpido requer grupos mistos trabalhando em funo de


objetivos comuns. Cada participante deve respeitar seus colegas e estar

disposto a negociar. Imprevistos geralmente necessitam de rpido


replanejamento e compromisso coletivo.
Eles se ensinam

A tecnologia move-se rpido. uma luta manter-se atualizado. Tendo


encontrado bons desenvolvedores de todos os tipos de formao, posso
dizer que o trao mais comum entre eles a disposio para aprender
coisas novas e necessrias ao projeto.
Lucy Chambers, Open Knowledge Foundation
Como achar o desenvolvedor dos sonhos

A diferena de produtividade entre um bom desenvolvedor e um


timo no linear - exponencial. Contratar bem
extremamente importante. Infelizmente, contratar bem tambm
muito difcil. tarefa dura vetar candidatos se voc no for um
gerente tcnico experiente. Junte a isso os salrios que as
empresas de jornalismo podem pagar e voc tem um desafio e
tanto.
No Tribune, ns recrutamos a partir de dois ngulos: um apelo
emocional e outro tcnico. O apelo emocional este: jornalismo
essencial para uma democracia efetiva. Trabalhe aqui e voc
pode mudar o mundo. Tecnicamente, ns promovemos o quanto
voc aprender. Nossos projetos so pequenos, rpidos e
frequentes. Cada projeto usa um novo conjunto de ferramentas,
uma nova linguagem, um novo assunto (segurana de incndio,
o regime de penses), que voc tem que aprender. A redao a
prova de fogo. Eu nunca gerenciei um grupo que tenha
aprendido tanto e to rpido quanto a nossa equipe.
Sobre onde procurar, ns tiramos a sorte grande achando timos
hackers na comunidade de open government (pr-transparncia
governamental). A lista de email do Sunlight Labs onde nerds
que fazem o bem mas com empregos sacais de dia passam a
noite. Outra fonte com potencial o Code for America. Todo ano,
um grupo de colegas emerge do CfA, procurando pelo seu
prximo grande projeto. De bnus, o CfA tem um processo de
seleo rigoroso: eles j peneiraram para voc. Atualmente,
jornalistas interessados por programao tambm esto saindo

das escolas de jornalismo. Eles so novos, mas tm potencial


gigantesco.
Por ltimo, contratar desenvolvedores no o suficiente. Voc
precisa de gerenciamento tcnico. Um desenvolvedor solitrio
(especialmente recm-sado da escola de jornalismo e sem
experincia de trabalho) ir tomar muitas decises ruins. At
mesmo o melhor programador, quando deixado a seus prprios
aparelhos, ir escolher o que tecnicamente interessante em vez
do que mais importante para o seu pblico.
Chame isso de contratar um "editor de aplicativos de notcia",
um "gerente de projetos" ou o que seja. Assim como escritores,
programadores precisam de editores, acompanhamento e
algum que dialogue com eles em funo de fazer um programa
no prazo.
Brian Boyer, Chicago Tribune

Aproveitando a expertise dos outros com Maratonas Hacker


Em Maro de 2010, a organizao de cultura digital SETUP, na cidade
holandesa de Utrecht, formulou um evento chamado Hacking Journalism. O
evento foi organizado para encorajar maior colaborao entre desenvolvedores e
jornalistas.
"Ns organizamos hackatonas (competies hacker) para fazer aplicativos
legais, mas ns no conseguimos reconhecer histrias interessantes nos dados.
O que ns construmos no tem relevncia social," disseram os programadores.
"Ns reconhecemos a importncia de jornalismo de dados, mas no temos todas
as habilidades tcnicas para construir as coisas que queremos," disseram os
jornalistas.

Imagem 10. Jornalistas e desenvolvedores na RegioHack (foto por Heinze Havinga)

Trabalhando em um jornal regional, no via dinheiro ou incentivo para


contratar um desenvolvedor para a redao. Jornalismo de dados ainda era uma
incgnita para os jornais holandeses na poca.
O modelo de hackathona era perfeito; um ambiente relax para colaborao, com
bastante pizza e bebidas energticas. A RegioHack foi uma hackathona
organizada pelo meu empregador, o jornal regional De Stentor, nossa
publicao irm, TC Tubantia, e o Saxion Hogescholen Enschede, que cedeu o
espao para o evento.

O combinado foi: qualquer um poderia se alistar para uma hackathona de 30


horas. Ns providenciaramos comida e bebidas. Tivemos como meta 30
participantes, os quais dividimos em seis grupos. Os grupos se focaram em
tpicos diferentes, como crime, sade, transporte, segurana, envelhecimento e
poder. Para ns, os trs maiores objetivos eram:
Encontrar matrias

Para ns, jornalismo de dados algo novo e desconhecido. A nica


maneira que temos de provar o quanto til atravs de reportagens
bem elaboradas. Ns queramos produzir pelo menos trs matrias
usando dados.
Criar conexes entre as pessoas

Ns, os jornalistas, no sabemos como jornalismo de dados feito e no


fingimos saber. Colocando jornalistas, estudantes e programadores numa
mesma sala por 30 horas, queremos que eles compartilhem
conhecimento e insights.
Organizar um evento social

Jornais no organizam muitos eventos socias, ainda mais hackathonas.


Ns queramos testar como um evento conseguiria gerar resultados. Na
verdade, o evento bem que poderia ter sido tenso: 30 horas com
estranhos, um monte de jargo, fritando o crebro com questes bsicas,
e trabalhando fora da sua zona de conforto. Fazendo da hackatona um
evento social (lembra da pizza e das bebidas?), ns buscamos criar um
ambiente no qual jornalistas e programadores poderiam sentir-se
confortveis e colaborar efetivamente.
Antes do evento, a publicao TC Tubantia fez uma entrevista com a viva
de um policial que havia escrito um livro sobre os anos de servio de seu
marido. Ela tambm tinha um documento com todos os homicdios
registrados no leste da Holanda, atualizado pelo seu marido desde 1945.
Normalmente, ns publicaramos o documento no nosso site. Desta vez,
optamos por fazer um aplicativo usando o software Tableau. Ns
tambm blogamossobre como isto foi produzido no nosso site do
RegioHack.
Durante a hackathona, um grupo veio com o assunto sobre o que
aconteceria com as escolas com o envelhecimento da populao em nossa
regio. Fazendo a visualizao de projees futuras, entendemos quais

cidades iriam ter problemas em alguns anos com declnio de matrculas. A


partir deste insight, ns escrevemos uma matria sobre como isso iria afetar
as escolas em nossa regio.
Ns tambm iniciamos um projeto muito ambicioso chamado De
Tweehonderd van Twente (os Duzentos de Vinte) para determinar quem
tinha mais poder em nossa regio e construir uma base de dados das
pessoas mais influentes. Atravs de um clculo no estilo Googlesobre
quem tem mais conexes com organizaes poderosasuma lista das
pessoas mais influentes da regio foi criada. Isso poderia levar a uma srie
de matrias, alm de ser uma ferramenta poderosa para os jornalistas.
Quem tem conexes com quem? Voc pode fazer questes para essa base de
dados e usar isto em seu cotidiano. A base de dados tambm tem valor
cultural. Artistas j perguntaram se poderiam usar o banco de dados quando
finalizado, para fazer instalaes de arte interativa.

Imagem 11. Novas comunidades em volta do jornalismo de dados (foto por Heinze Havinga)

Depois da RegioHack, percebemos que jornalistas consideram o jornalismo


de dados um incremento vivel para o jornalismo tradicional. Meus colegas
continuaram usando e desenvolvendo as tcnicas aprendidas naquele dia
para criar projetos tcnicos mais ambiciosos, como um banco de dados de
custos administrativos de uma moradia. Com esses dados, fiz um mapa
interativo usando Fusion Tables. Ns pedimos para nossos leitores

brincarem um pouco com os dados e colaborarem com resultados no


sitehttp://bit.ly/scratchbook-crowdsourcing, por exemplo. Depois de vrias
questes sobre como ns fizemos o mapa usando Fusion Tables, gravei
um video tutorial.
O que ns aprendemos? Aprendemos muito, mas tambm encontramos
muitos obstculos, como esses quatro:
Por onde comear: pela questo ou pelos dados?

Quase todos os projetos travaram quando buscaram por informaes. Na


maior parte das vezes, eles comearam com uma questo jornalstica.
Mas e ento? Quais dados esto disponveis? Onde podemos ach-los? E,
quando achar esses dados, voc poder responder sua pergunta com
eles? Jornalistas geralmente sabem onde achar informao quando
fazem pesquisa para uma matria. Com jornalismo de dados, a maioria
dos jornalistas no sabem qual informao est disponvel.
Pouco conhecimento tcnico

Jornalismo de dados uma disciplina bem tcnica. Algumas vezes voc


tem de saber arrancar os dados das fontes, outras vezes voc tem de fazer
uma programao para visualizar os seus resultados. Para fazer um
excelente jornalismo de dados, voc precisa de duas coisas: os insights
jornalsticos de um jornalista experiente e o conhecimento tcnico de
algum bem versado digitalmente. Durante a RegioHack, isto no foi
comum.
Isto notcia?

Participantes na sua maioria usaram um conjunto de dados para


descobrir notcias, em vez de procurar interconexes entre fontes
diferentes. Isso acontece por que voc necessita algum conhecimento
estatstico para checar as notcias vindas do jornalismo de dados.
Qual a rotina?

Tudo que escrevi acima se resume a uma coisa: no h rotina. Os


participantes tm algumas habilidades na manga, mas no sabem como e
quando us-las. Um jornalista comparou isso a fazer um bolo. "Ns
temos todos os ingredientes: farinha, ovos, leite, etc. Da jogamos tudo
num saco, misturamos e esperamos que o bolo saia." De fato, temos
todos os ingredientes, mas no sabemos como a receita.

Quais os planos agora? Nossas primeiras experincias com jornalismo


de dados podem ajudar outros jornalistas ou programadores entrar no
mesmo campo de trabalho, e estamos trabalhando para produzir um
relatrio.
Ns tambm estamos pensando em como continuar com a RegioHack
num formato de hackathona. Ns achamos isto divertido, educacional,
produtivo e uma tima introduo ao jornalismo de dados.
Mas para o jornalismo de dados funcionar, temos de integrar isto com
a redao. Alm de discursos, coletivas de imprensa e encontros com
autoridades, jornalistas tm de comear a pensar nos dados. Atravs da
execuo da RegioHack, provamos para nossa audincia que o
jornalismo de dados no somente hype. Ns podemos escrever
matrias mais embasadas e diferenciadas dando a oportunidade aos
leitores de consumirem material impresso e online.
Jerry Vermanen, NU.nl

Seguindo o Dinheiro: Jornalismo de dados e Colaborao alm


das Fronteiras
Jornalistas investigativos e cidados interessados em desvelar corrupo e
crime organizado que afetam as vidas de bilhes tm conquistado, a cada dia
que passa, um acesso sem precedentes a informao. Imensos volumes de dados
de governos e outras organizaes esto disponveis online, e parece que esse
tipo to necessrio de informao est mais ao alcance de todos. Ao mesmo
tempo, oficiais corruptos nos governos e grupos de crime organizado se
empenham em ocultar os seus malfeitos. H um esforo para manter as pessoas
sem informao enquanto conduzem negcios esprios que causam problemas
em todos os nveis da sociedade, levando a conflitos, fome e outras crises.
dever do jornalista investigativo expor os malfeitos e, fazendo isto,
desmantelar mecanismos corruptos e criminosos.

Imagem 12. O Painel Investigativo (OCCRP)

H trs diretrizes que, se seguidas, podem levar a um jornalismo bom e


profundo ao investigar grandes atos de corrupo e crime, mesmo nos
ambientes de informao mais escassa.
Pense fora do seu pas

Em vrios casos, muito mais fcil obter informao fora do pas onde o
jornalismo investigativo opera. Informao obtida via bancos de dados
estrangeiros ou por meio de leis de acesso informao de outros pases
pode ser exatamente o que voc precisa para fechar o quebra-cabeas de
uma apurao investigativa. Criminosos e oficiais corruptos no mantm
o dinheiro no mesmo lugar onde ele foi roubado. Eles preferem depositar
em bancos estrangeiros ou investir em outros pases. Crime global.
Bases de dados que ajudam o jornalista investigativo a rastrear o
dinheiro podem ser encontradas em vrios lugares na internet. Por
exemplo, o Investigative Dashboard (da imagem acima) permite a
jornalistas seguir o dinheiro atravs das fronteiras.
Faa uso das redes existentes de jornalismo investigativo

Jornalistas investigativos de todo mundo se juntam em organizaes


como The Organized Crime and Corruption Reporting Project, The
African Forum for Investigative Reporting, The Arab Reporters for
Investigative Journalism, and The Global investigative Journalism
Network. Jornalistas podem tambm fazer uso de plataformas de
jornalismo profissional como a IJNet, onde informao relacionada ao
jornalismo global trocada diariamente. Muitos dos reprteres dessas
redes trabalham em problemas similares e encontram situaes
parecidas, portanto faz muito sentido trocar informaes e mtodos.
Listas de discusso por email e grupos de redes sociais so agregadas a
esses fruns, ento bastante fcil entrar em contato com seus
companheiros jornalistas e pedir informaes ou aconselhamento. Ideias
para reportagens investigativas podem tambm partir da.
Use a tecnologia e colabore com hackers

Softwares ajudam os jornalistas investigativos a acessar e processar


informao. Eles so teis para depurar, fuar, coletar e entender um
grande volume de dados, e tambm para achar os documentos certos
para a matria sair. H muitos programas j prontos que podem ser
usados como ferramenta para analisar, colher, ou interpretar
informaoe, mais importante, jornalistas investigativos precisam
saber que h muitos programadores prontos para ajudar se requisitados.
Estes sabem como obter e manejar a informao, e podem ajudar muito
na investigao. Os programadores, alguns membros de movimentos de

opendata globais, podem se tornar inestimveis aliados na luta contra o


crime e a corrupo, ajudando jornalistas a colher e analisar informaes.
Um bom exemplo de interface entre programadores e cidados
o ScraperWiki, um lugar onde jornalistas podem pedir ajuda com extrao
de dados de sites. O Investigative Dashboard mantm uma lista de
ferramentas prontas para recolher, modelar, e analisar dados.
A utilidade das diretrizes que mencionei tem sido visvel em vrios casos.
Um bom exemplo o trabalho de Khadija Ismayilova, uma experiente
jornalista investigativa do Azerbaijo que trabalha num ambiente bem
austero, em se tratando de acesso informao. Ismayilova tem de
sobrepujar obstculos diariamente para oferecer ao pblico azeri
informao boa e confivel. Em Junho de 2011,a reprter da Radio Free
Europe/Radio Libertys (RFE/RL) em Baku (capital do Azerbaijo) mostrou
que as filhas do presidente do pas, Ilham Aliyev, secretamente
comandavam uma empresa de telefonia em rpido crescimento, a
Azerfon por meio de firmas offshore com sede no Panam. A Azerfon tem
aproximadamente 1,7 milho de assinantes, cobre 80% do territrio do pas,
e era (naquela poca) o nico provedor de servios 3G no Azerbaijo.
Ismayilova gastou trs anos tentando descobrir quem eram os donos da
companhia, mas o governo se negava a abrir informaes dos acionistas e
mentiu diversas vezes sobre a propriedade da empresa. As autoridades
chegaram a anunciar que a companhia era de propriedade da empresa
alem Siemens AG, o que foi depois negado pelos alemes. Depois de muito
investigar, a reprter conseguiu descobrir que a Azerfon pertencia s
empresas privadas com sede no Panam, mas isso parecia ser o fim da linha
para a reportagem. At que ela contou com ajuda de fora. No comeo de
2011, Ismayilova descobriu, atravs do Investigative Dashboard, que
companhias com sede no Panam podem ser rastreadas atravs de um
aplicativodesenvolvido pelo programador e ativista Dan OHuiginn. Com a
ferramenta, ela revelou o envolvimento das duas filhas do presidente.
Na verdade, OHuiginn criou uma ferramenta que ajudou jornalistas de todo
o o mundo relatar na corrupoo Panam, conhecido paraso fiscal, tem
sido usado por vrios oficiais corruptos para esconder dinheiro roubado
(dos comparsas do antigo presidente egpicio, Hosni Mubarak, a oficiais
corruptos nos Balcs ou na Amrica Latina). O que o programador-ativista
fez chamado de web scraping: um mtodo que permite a extrair e

reconstituir a informao para que possa ser usada na investigao.


OHuiginn teve de forar a extrao de informaes do Registro das
companhias do Panam porque o site, mesmo aberto ao pblico, s permite
buscas se o reprter souber o nome da companhia. Isto limita as
possibilidades da investigao, j que os reprteres geralmente procuram
pelo nome das pessoas para rastrear as suas propriedades. Com a extrao
de dados, ele criou um novo site onde buscas de nome tambm so
possveis. Com isso, o site permite a reprteres investigativos de muitos
pases buscar pelos nomes autoridades e checar se eles secretamente so
proprietrios de corporaes no Panam.
H outras vantagens em usar as diretrizes que mencionei, alm de obter
melhor acesso informao. Uma delas minimizar o risco e garantir
melhor proteo aos reprteres investigativos que trabalham em ambientes
hostis. Quando numa rede, o jornalista trabalha com colegas em outros
pases, ento mais difcil para criminosos identificarem o responsvel pela
exposio dos seus crimes. Como resultado, fica muito mais difcil para
governos e oficiais corruptos tentarem uma retaliao ao jornalista.
Outra dica para guardar que uma informao que no parece muito valiosa
num local pode ser crucial em outro. A troca de dados por redes de
jornalistas investigativos pode levar a novas matrias importantes. Por
exemplo, a informao que um romeno foi pego na Colmbia com 1 kg de
cocana no ganhar a primeira pgina de um jornal em Bogot, mas pode
ser muito importante para o pblico romeno se um reprter descobre que
essa pessoa est trabalhando para o governo de Bucareste.
Reportagem investigativa eficiente o resultado de cooperao entre
jornalistas investigativos, programadores, e outros que querem usar os
dados para contribuir com uma sociedade mais limpa, justa e global.
Paul Radu, Organized Crime and Corruption Reporting Project

Nossas Histrias Vm Como Cdigo


O OpenDataCity foi fundado no final de 2010. No havia quase nada que
pudesse ser chamado de jornalismo de dados acontecendo na Alemanha na
poca.
Por que fizemos isso? Muitas vezes ouvimos pessoas que trabalham para jornais
e TVs dizerem: "No, ns no estamos prontos para comear uma rea dedicada
ao jornalismo de dados na nossa redao. Mas ficaramos felizes em terceirizar
isso para algum."
At onde sabemos, somos a nica companhia exclusivamente especializada em
jornalismo de dados na Alemanha. Atualmente, estamos em trs: dois com uma
formao jornalstica e um com um profundo conhecimento de cdigos e
visualizao. Trabalhamos tambm com hackers, designers e jornalistas freelancers.
Nos ltimos doze meses fizemos quatro projetos de jornalismo de dados com
jornais, e oferecemos treinamento e consultoria para trabalhadores de mdia,
cientistas, e escolas de jornalismo. O primeiro aplicativo que fizemos foi o TAZ,
uma ferramenta interativa sobre barulhos de aeroporto sobre o recmconstrudo aeroporto em Berlim. Nosso prximo projeto notvel foi
uma aplicao sobre reteno de dados em cima da quantidade imensa de dados
que uma companhia telefnica guardava de cada pessoa (um poltico alemo
requisitou todos os dados dele na justia e mostramos o que podia ser feito com
esses dados). Neste projeto, com o jornal Zeit Online, ganhamos um Grimme
Online Award e um Lead Award na Alemanha, e um Prmio de Jornalismo
Online da Associao de Jornalismo Online nos Estados Unidos. No momento
em que escrevemos este texto, temos vrios projetos na linha de produo, que
vo de simples infogrficos interativos at o desenho e desenvolvimento de um
tipo de middleware (software usado para transportar informaes entre
programas de diferentes) de jornalismo de dados.

Imagem 13. Mapa do barulho do aeroporto (Taz.de)

Claro, ganhar prmios ajuda a construir uma reputao. Mas quando


conversamos com os publishers, que tm de aprovar nossos projetos, nosso
argumento para investir em jornalismo de dados no ganhar prmios. sobre
receber ateno atravs de um longo perodo de tempo e de uma maneira
sustentvel. Ou seja, construir coisas devido ao seu impacto no longo prazo; o
objetivo no o furo, que frequentemente esquecido depois de alguns dias.
Aqui esto trs argumentos que usamos para encorajar os editores a
empreenderem projetos de longo prazo:
Projetos de dados no envelhecem

Dependendo de seu design, novos materiais podem ser adicionados a


aplicativos de jornalismo de dados. E, alm de atender aos usurios, os
projetos tambm podem ser usados internamente para reportagem e
anlise. Se voc se preocupa que sua concorrncia tambm se beneficie
do seu investimento, possvel manter alguns atributos ou algum dado
para uso interno apenas.
Voc pode se beneficiar do trabalho j feito

Quando trabalhando num projeto de dados, voc frequentemente ir


criar pequenos cdigos que podem ser reutilizados ou atualizados. O
prximo projeto pode demorar metade do tempo porque voc sabe muito

melhor o que fazer (e no fazer), e porque tem partes e pedaos que


podem ser reaproveitados.
Jornalismo de dados se paga

Projetos de dados so mais baratos que tradicionais campanhas de


marketing. O mercado de notcias online frequentemente investe em
estratgias como o SEO ou o SEM (tticas que visam fazer um site
aparecer melhor nas pginas de busca). Um projeto de dados
normalmente ir gerar vrios cliques e alvoroo, e pode se tornar viral.
Editores normalmente iro pagar menos por isso do que tentando gerar a
mesma ateno com cliques e vnculos atravs do SEM.
Nosso trabalho no muito diferente de outras agncias de novas mdias:
oferecemos aplicaes ou servios para o mercado de notcias. Mas talvez
nosso diferencial seja em nos pensar, primeiramente, como jornalistas. Ao
nosso ver, os produtos que entregamos so reportagens, embora sejam
fornecidas no em palavras, imagens, udio ou vdeo, mas em cdigos.
Quando falamos de jornalismo de dados, temos de falar de tecnologia,
software, aparelhos, e como contar uma histria com eles.
Para exemplificar, recentemente terminamos uma aplicao que puxa, em
tempo real, dados do site da ferrovia alem. Isso permitiu desenvolver
um monitor de trem interativo para o dirio alemo Sddeutsche Zeitung,
mostrando os atrasos de trens de longa distncia em tempo real. Os dados
da aplicao so atualizados a cada minuto, e ns estamos oferecendo um
API para ele. Comeamos no projeto h alguns meses, e desde ento
coletamos um imenso banco de dados, que cresce a cada hora. Neste
momento, acumulamos centenas de milhares de linhas de dados. O projeto
permite explorar esses dados em tempo real e pesquisar nos arquivos dos
meses anteriores. No fim, a histria que contamos ser bastante definida
pela ao individual dos usurios.
No jornalismo tradicional, devido caracterstica linear da mdia escrita ou
de rdio e TV, temos de pensar sobre um comeo, um fim, um
desenvolvimento da histria, o tamanho e o ngulo da que a obra adotar.
Com o jornalismo de dados as coisas so diferentes. Sim, existe um comeo.
A pessoa vem ao site e tem uma primeira impresso da interface. Mas
depois ela est por si. Talvez fique por um minuto, ou por meia hora.

Nosso trabalho como jornalistas de dados oferecer a estrutura ou o


ambiente para isto. Assim como a codificao e o tratamento de bits de
dados, ns temos de pensar em maneiras inteligentes para criar
experincias. A Experincia do Usurio (UX) vem principalmente da
Interface (Grfica) do Usurio (GUI). No final, essa a parte que vai decolar
ou afundar um projeto. Voc pode ter o melhor cdigo operando no fundo
atravs do manejo de um excitante conjunto de dados. Mas se a interface ao
usurio ruim, ningum vai se importar com ele.
Ainda h muito o que aprender e com o que experimentar. Mas por sorte
existe a indstria de games, que tem inovado h muitas dcadas com
respeito a narrativas, ecossistemas e interfaces digitais. Quando
desenvolvemos aplicaes de jornalismo de dados devemos observar de
perto como o design de games funciona e como as histrias so contadas
nesses jogos. Por que jogos simples como Tetris so to divertidos? E o que
faz os mundos abertos de games como Grand Theft Auto ou Skyrim serem
geniais?
Ns achamos que o jornalismo de dados veio para ficar. Em alguns anos, o
fluxo de trabalho do jornalismo de dados vai ser naturalmente inserido em
redaes porque sites de notcias tero que mudar. A quantidade de dados
que est disponvel publicamente vai continuar crescendo. Mas, felizmente,
novas tecnologias vo continuar a nos permitir encontrar novas maneiras de
contar histrias. Algumas destas histrias sero guiadas por dados, e muitas
aplicaes e servios tero uma caracterstica jornalstica. A questo
interessante qual estratgia as redaes vo desenvolver para estimular
este processo. Elas vo organizar grupos de jornalistas de dados integrados
s suas redaes? Existiro departamentos de pesquisa e desenvolvimento
parecidos com startups dentro da empresa? Ou partes do trabalho sero
terceirizadas para companhia especializadas? Ns ainda estamos no comeo
e apenas o tempo dir.
Lorenz Matzat, OpenDataCity

Kaas & Mulvad: Contedo pr-produzido para comunicao


segmentada
A chamada stakeholder media (formada por servios de reportagem
segmentados, por empresas no jornalsticas e outros grupos) um setor
emergente, mas amplamente desprezado por tericos da mdia. Ele possui um
tremendo impacto potencial por meio de redes online ou para gerar contedo. O
setor pode ser definido como meios de comunicao controlados por grupos
organizacionais ou institucionais interessados em promover determinados
interesses ou certas comunidades. ONGs frequentemente criam esse tipo de
mdia, assim como grupos de consumidores, associaes profissionais,
sindicatos, entre outros. O ponto que limita a sua habilidade de influenciar a
opinio pblica ou outros grupos de interesse o fato de que normalmente eles
carecem da capacidade de descobrir informaes importantes, at mais que
grupos tradicionais de mdia que sofreram com cortes de funcionrios. Kaas &
Mulvad, uma empresa Dinamarquesa com fins lucrativos, um dos primeiros
empreendimentos investigativos de mdia a prover a capacidade de experts para
esse segmento.
A empresa comeou em 2007 como uma spinoff do Instituto Dinamarqus para
Reportagem Com Auxlio de Computador (Dicar, na sigla em ingls), uma
instituio sem fins lucrativos. Comeou com a venda de reportagens
investigativas para a mdia e treinava jornalistas em anlise de dados. Seus
fundadores, Tommy Kaas e Nils Mulvad, eram reprteres da grande mdia. A
nova empresa ofereceu o que eles chamam de dados mais insights
jornalsticos (contedo semi-finalizado que requer edio), principalmente
para meios de comunicao segmentados, que finalizam o contedo com
releases ou matrias e distribuem na mdia tradicional ou pelos seus canais
diretos (como sites das empresas). Clientes diretos incluem instituies
governamentais, empresas de relaes pblicas, sindicatos e organizaes no
governamentais como a EU Transparency e WWF. O trabalho para as ONGs
incluiu o monitoramento agrcola e de subsdios pesca, alm de atualizaes
peridicas sobre as atividades de lobistas da Unio Europeia gerados por meio
da extrao de dados (prtica do "scraping") de sites na internet. Clientes
indiretos incluem fundaes que financiam projetos de ONGs. A empresa
tambm trabalha com a grande mdia; um tabloide comprou um servio de
monitoramento de celebridades, por exemplo.

Imagem 14. Empresas de comunicao segmentada - Stakeholder Media (Fagblaget3F)

Os projetos de jornalismo de dados no portiflio deles incluem:


Mapa do Desemprego para o 3F

Uma visualizao de dados com indicadores chave sobre o desemprego


na Dinamarca realizado para o 3F, o maior sindicato da Dinamarca.
Condies de vida para o 3F

Outro projeto para o 3F que mostra a desigualdade de condies de renda


e qualidade de vida em diferentes partes da Dinamarca. O mapa usa 24
indicadores diferentes.
Mapa dos municpios endividados para o jornal "Ugebrevet A4''

Um projeto que calcula um "ndice de endividamento" dos municpios e


mostra numa visualizao de dados as diferenas na economia.

Instalaes perigosas na Dinamarca

Projeto que mapeia e analisa instalaes perigosas prximas a creches e a


outras instituies infantis, realizado por "Born & Unge", revista
publicada pela BUPL - Associao Dinamarquesa de Professores de
Educao Infantil.
Dados sobre Responsabilidade Corporativa para a empresa Vestas

Visualizao de dados sobre cinco reas de responsabilidade corporativa


para a empresa dinamarquesa de turbinas elicas Vestas. O texto
gerado automaticamente. As informaes so atualizadas
automaticamente a cada trs meses em 400 webpages, desde de dados de
escala mundial at sobre cada uma das unidades de produo.
Mapa de nomes para a Experian

Escreva seu sobrenome e veja a distribuio de pessoas com o mesmo


nome em diferentes reas da Dinamarca.
Smiley Map para Ekstra Bladet

Diariamente a Kaas & Mulvad extraiu dados de todas as inspees


sanitrias que indicavam comida de m qualidade e mapearam as
ltimas delas para o tabloide dinamarqus Ekstra Bladet.
Kaas & Mulvad no so os primeiros jornalistas a trabalhar com mdia
segmentada. O Greenpeace, por exemplo, frequentemente coloca
jornalistas para trabalhar como colaboradores nos seus relatrios. Mas
no sabemos de nenhuma outra empresa cujas ofertas de mdia
segmentada focada em jornalismo de dados; muito mais comum
jornalistas trabalharem em ONGs como reprteres, editores e
redatores. O foco atual em Reportagem com Auxlio de Computadores
(RAC) est na pesquisa e na descoberta (pense no WikiLeaks). Aqui,
novamente, Kaas & Mulvad inovam, focando na anlise de dados. Sua
abordagem requer no apenas habilidades de programao, mas
tambm de compreenso de que tipo de informao pode trazer uma
histria de impacto. Pode-se dizer com segurana que qualquer um que
quiser imitar seu servio provavelmente teria de adquirir esses dois
conjuntos de habilidades por meio de parcerias, porque as pessoas
raramente possuem ambos.

Processos: TI inovadora mais anlises

A empresa conduz cerca de 100 projetos por ano, com durao que
varia de algumas horas a alguns meses. Alm disso, investe
continuamente em projetos que ampliam sua capacidade e suas
ofertas. O servio de monitoramento de celebridade era um
experimento desse tipo. Outro envolveu coleta de dados na internet
(scraping) para notcias de execues hipotecrias e criao de mapas
delas. Os scios dizem que o primeiro critrio para iniciar projetos o
quanto eles gostam do trabalho e podem aprender com ele. A busca da
empresa pelo mercado vem depois que um novo servio est definido.
Eles deixam claro que, dentro da grande mdia, encontraram
dificuldade para desenvolver novos mtodos e novos negcios.
Mulvad comenta que:
No temos editores ou chefes para decidir quais projetos podemos
fazer, qual software ou hardware devemos comprar. Podemos comprar
nossas ferramentas de acordo com o que o projeto precisa, bem como
as melhores solues para a coleta de informaes da internet e
minerao de dados. Nosso objetivo ser vanguarda nestas reas.
Tentamos obter clientes que esto dispostos a pagar, ou se o projeto
divertido, fazemos isso por um custo menor.
Valor criado: Marcas Pessoais, Coorporativas e Receitas

O volume de negcios em 2009 foi de cerca de 2,5 milhes de coroas


dinamarquesas, ou 336 mil euros. A empresa tambm sustenta a
reputao dos scios como jornalistas de ponta, o que mantm uma
demanda para servios de palestras e aulas. Suas aparies pblicas,
por sua vez, apoiam a marca da empresa.
Insights principais deste exemplo

A crise de reduo de capacidade da grande mdia tambm uma


crise de sub-utilizao de capacidades. Kaas e Mulvad tiveram de
deixar a grande mdia para fazer o trabalho que eles valorizam, e
isso d dinheiro. Nada impediu uma empresa de notcias de
absorver esse valor.

Ao menos em alguns mercados, existe uma possibilidade de lucro


para "contedo semi-acabado", que pode servir aos interesses de
grupos de mdia segmentada.

No entanto, esta oportunidade levanta a questo de quanto controle


os jornalistas podem exercer sobre a apresentao e o uso do seu
trabalho por terceiros. Lembramos que essa questo j existe
dentro da grande mdia (onde editores podem impor mudanas no
trabalho de um jornalista), e isso tem existido dentro das demais
indstrias miditicas (como no cinema, aonde conflitos entre
diretores e estdios sobre os "cortes finais" no so raros). No
particularmente um perigo moral da mdia segmentada, mas no
ir desaparecer, tambm. Mais ateno necessria para a tica
dessa realidade e mercado crescente

Do ponto de vista das receitas, um nico produto ou servio no


suficiente. Empreitadas de jornalismo investigativo bem-sucedidas
precisam adotar uma abordagem de portiflio, na qual consultoria,
ensino, palestra e outros servios podem trazer receitas adicionais
para apoiar a marca.

Trecho extrado e editado de Mark Lee Hunter and Luk N. Van


Wassenhove,"Disruptive News Technologies: Stakeholder Media and
the Future of Watchdog Journalism Business Models''. INSEAD
Working Paper, 2010

Modelos de Negcio para o Jornalismo de Dados


Dentre todos os interesses e esperanas no que diz respeito ao jornalismo de
dados, existe uma questo sobre a qual as redaes sempre se mantm curiosas:
quais so os modelos de negcio?
Devemos ter cuidado ao fazer previses, mas um olhar para a histria recente e
a situao atual da indstria da mdia pode esclarecer algumas questes.
Atualmente, h muitas organizaes jornalsticas que se beneficiaram ao adotar
novas abordagens.
Termos como "jornalismo de dados" e o mais novo chavo, "cincia dos dados",
podem soar como se descrevessem algo novo, mas isso no bem verdade. Ao
contrrio, esses novos rtulos so apenas formas de caracterizar uma mudana
que vem ganhando fora ao longo de dcadas.
Muitos jornalistas parecem no ter conhecimento do tamanho da receita que j
gerada atravs da coleta, anlise e visualizao de dados. Trata-se de um
negcio de refinamento de informao. Com ferramentas de dados e
tecnologias, possvel cada vez mais lanar luz sobre questes altamente
complexas, sejam elas finanas internacionais, dvida, demografia, educao e
assim por diante. O termo "business intelligence" descreve uma variedade de
conceitos de TI que tm por objetivo proporcionar uma viso clara sobre o que
est acontecendo nas empresas comerciais. As grandes e rentveis empresas do
nosso tempo, incluindo McDonalds, Zara e H&M, apostam em um rastreamento
constante de dados para se tornarem lucrativas. E isso funciona muito bem para
elas.
O que est mudando agora que as ferramentas desenvolvidas para essa rea
agora esto se tornando disponveis para outros domnios, incluindo a mdia. E
h jornalistas que as entendem. Citemos, como exemplo, Tableau, uma empresa
que fornece um conjunto de ferramentas de visualizao. Ou o movimento "Big
Data", no qual empresas de tecnologia usam pacotes de software (muitas vezes
de cdigo aberto) para trabalhar intensamente atravs de pilhas de dados,
extraindo insights em milsimos de segundo.
Estas tecnologias podem ser aplicadas ao jornalismo. Equipes do The Guardian
e The New York Times esto constantemente forando os limites neste campo
emergente. E o que estamos vendo atualmente apenas a ponta do iceberg.

Mas como isso gera dinheiro para o jornalismo? O grande mercado que est se
abrindo em todo o planeta tem a ver com a transformao de dados disponveis
publicamente em algo que podemos processar: tornar os dados visveis e
humanos. Queremos ser capazes de nos relacionar com os grandes nmeros que
ouvimos todos os dias no noticirioo que os milhes e bilhes significam para
cada um de ns.
H algumas empresas baseadas em mdia de dados muito rentveis, que
simplesmente aplicaram este princpio antes que outras. Elas gozam taxas de
crescimento saudveis e lucros s vezes impressionantes. Um exemplo a
Bloomberg. A empresa opera cerca de 300 mil terminais e fornece dados
financeiros aos seus usurios. Se voc est no negcio financeiro, esta uma
ferramenta poderosa. Cada terminal vem com um teclado com cdigo de cores e
at 30.000 aes para pesquisar, comparar, analisar e ajudar voc a decidir o
que fazer em seguida. Esse negcio gera cerca de US$ 6,3 bilhes (EUA) por
anopelo menos o que foi estimado em uma matria de 2008 no The New
York Times. Como resultado, Bloomberg tem contratado jornalistas de direita,
esquerda e centro. Eles compraram a venervel mas deficitria Business
Week, e assim por diante.
Outro exemplo o conglomerado de mdia canadense conhecido atualmente
como Thomson Reuters. Eles comearam com um jornal, compraram alguns
ttulos bem conhecidos no Reino Unido, e ento decidiram h duas dcadas sair
do negcio de jornais. Em vez disso, eles cresceram com base em servios de
informao, com o objetivo de fornecer uma perspectiva mais profunda a
clientes de uma srie de reas. Se voc se preocupa em ganhar dinheiro com
informao especializada, meu conselho seria ler sobre a histria da empresa na
Wikipdia.
E observem a Economist. A revista tem construdo uma marca excelente,
influente em seu aspecto de mdia. Ao mesmo tempo, a "Economist Intelligence
Unit'' agora mais uma empresa de consultoria, elaborao de relatrios sobre
tendncias relevantes e previses para quase todos os pases do mundo. Eles
esto empregando centenas de jornalistas e alegam servir cerca de 1,5 milho de
clientes em todo o mundo.
E existem muitos nichos de servios de dados que podem servir como
inspirao: eMarketer nos EUA, que fornece comparaes, grficos e conselhos
para qualquer pessoa interessada em marketing na internet; Stiftung Warentest,

na Alemanha, uma instituio que verifica a qualidade de produtos e servios;


Statista, tambm da Alemanha, uma startup que ajuda a visualizar informaes
publicamente disponveis.
Em todo o mundo, existe uma onda de empresas iniciantes no setor, cobrindo
uma vasta gama de reas, por exemplo, a Timetric, que tem por objetivo
"reinventar a pesquisa em negcios", OpenCorporates, Kasabi, Infochimps, e
Data Market. Muitas delas so, indiscutivelmente, experimentos, mas juntas,
podem ser consideradas um importante sinal de mudana.
Depois, existem os meios de comunicao pblicos, o que em termos de
jornalismo de dados, so um gigante adormecido. Na Alemanha, 7,2 bilhes de
euros esto migrando para este setor, anualmente. O jornalismo um produto
especial: se bem feito, no se trata apenas de gerar lucros, mas de prestar um
papel importante para a sociedade. Uma vez que esteja claro que o jornalismo
de dados pode fornecer percepes melhores e mais confiveis, com maior
facilidade, uma parte deste dinheiro poderia ser usado para novos postos de
trabalho nas redaes.
Com o jornalismo de dados, no se trata apenas de ser o precursor, mas de ser
uma fonte confivel de informao. Neste mundo repleto de canais, a ateno
pode ser gerada em abundncia, mas confiana um recurso cada vez mais
escasso. Os jornalistas de dados podem ajudar a reunir, sintetizar e apresentar
fontes de informao diversas e muitas vezes difceis, de modo a fornecer
percepes reais sobre questes complexas para a audincia. Ao invs de apenas
reciclar press releases e reescrever matrias vistas ou ouvidas anteriormente em
outros lugares, os jornalistas de dados podem fornecer aos leitores uma
perspectiva clara, compreensvel e, de preferncia personalizvel, com grficos
interativos e de acesso direto a fontes primrias. Nada muito trivial, mas
certamente valioso.
Ento, qual a melhor abordagem para que os aspirantes a jornalistas de dados
possam explorar este campo e convencer a chefia a apoiar projetos inovadores?
O primeiro passo deve ser procurar oportunidades imediatas perto de casa:
frutos mais fceis de colher. Por exemplo, voc pode j ter colees de textos
estruturados e dados que poderia usar. Um bom exemplo disso o "Banco de
Dados de Homicdios'' do Los Angeles Times. Aqui, os dados e as visualizaes
so a parte central, no algo pensado depois. Os editores coletam informaes
sobre todos os crimes que encontram e s ento escrevem artigos com base

neles. Com o tempo, tais colees se tornam melhores, mais profundas e mais
valiosas.
Isto pode no funcionar da primeira vez. Mas funcionar ao longo do tempo.
Um indicador muito esperanoso que o Texas Tribune e a ProPublica, duas
empresas que podemos considerar de mdia ps-impressa, informaram que o
financiamento para as suas organizaes de jornalismo sem fins lucrativos
ultrapassou suas metas muito mais cedo do que o planejado.
Tornar-se proficiente em os dados sobre tudoseja como um generalista ou
como um especialista focado em um aspecto da cadeia de dadosfornece uma
perspectiva valiosa para as pessoas que acreditam no jornalismo. Como um
editor bem conhecido na Alemanha disse recentemente em uma
entrevista,"existe este novo grupo que se diz jornalistas de dados. E no esto
mais dispostos a trabalhar por mixaria.''
Mirko Lorenz, Deutsche Welle

Estudos de Caso

Nesta seo, ns mostramos com mais profundidade os bastidores de muitos


projetos de jornalismo de dadosde aplicativos desenvolvidos em um dia a
investigaes de nove meses. Ns aprendemos sobre como fontes de dados
podem ser usadas para aumentar e melhorar a cobertura de tudo, de eleies a
gastos pblicos, de protestos corrupo, do desempenho de escolas ao preo
da gua. Veremos grandes organizaes de mdia, como BBC, Chicago Tribune,
Guardian, Financial Times, Helsingin Sanomat, La Nacin, Wall Street Journal
e o Zeit Online, mas tambm iniciativas menores, como California
Watch,Hack/HackersBuenos Aires, ProPublica e um grupo de jornalismo
cidado brasileiro chamado de Amigos de Januria.

O que h neste captulo?

Basmetro: Passando o poder da narrativa para o usurio

InfoAmaznia: o dilogo entre jornalismo e dados geogrficos

The Opportunity Gap: projeto de oportunidades em escolas

Uma investigao de nove meses dos Fundos Estruturais Europeus

A crise da Zona do Euro

Cobrindo o gasto pblico com OpenSpending.org

Eleies parlamentares finlandesas e financiamento de campanha

Hack Eleitoral em tempo real (Hacks/Hackers Buenos Aires)

Dados no Noticirio: WikiLeaks

Hackatona Mapa76

A cobertura dos protestos violentos no Reino Unido pelo The Guardian

Boletins escolares de Illinois (EUA)

Faturas de hospitais

Care Home Crisis: A crise da empresas de sade em domiclio

O telefone conta tudo

Quais modelos se saem pior na inspeo veicular britnica?

Subsdios de nibus na Argentina

Jornalistas de dados cidados

O Grande Quadro com o Resultado das Eleies

Apurando o preo da gua via crowdsourcing

Basmetro: Passando o poder da narrativa para o usurio


O Basmetro foi a primeira ferramenta criada pelo Estado Dados, que, por sua
vez, foi o primeiro ncleo de jornalismo de dados das redaes brasileiras. No
um infogrfico, no um banco de dados, no uma tabela, mas tudo isso ao
mesmo tempo.
O propsito do Basmetro medir, partidria e individualmente, o grau de
apoio de deputados e senadores ao governo federal no Congresso Nacional a
qualquer tempo. Por que o governo como base de medida? Porque assim que
funcionam a Cmara e o Senado no Brasil: aprovando ou rejeitando proposies
do Executivo.
O outro motivo que o apoio ao governo condicional, melfluo, temporrio,
pendular. Nenhum voto lquido e certo. A "base governista" um vcio de
linguagem. Apoio vira oposio de uma votao para outra, e vice-versa. Tudo
depende de negociao, de agrados, de liberaes de verbas, de concesses de
cargos.
Da a importncia de medir essas oscilaes e saber quem e quantos esto onde
no espectro poltico a cada instante. O Basmetro o termmetro do
presidencialismo de coalizo que governa o Brasil desde a redemocratizao.
uma interface simples para analisar um sistema complexo e volumoso.
Esto computados no Basmetro centenas de milhares de votos nominais (nos
quais os parlamentares se identificam) dados na apreciao de matrias em que
o governo tenha encaminhado a votao contra ou a favor - sejam projetos de
lei, emendas constitucionais, medidas provisrias, destaques de votao, ou
simples requerimentos de inverso de pauta.
No so consideradas no Basmetro votaes simblicas, secretas ou nominais
nas quais o lder do governo no tenha orientado sua bancada para votar a favor
ou contra - seja porque impossvel saber como votou cada parlamentar, seja
porque o governo no tinha um interesse manifesto no resultado.
O Basmetro registra se o deputado ou senador votou a favor, contra, se absteve
ou no votou. A sua taxa de governismo obtida pela diviso do nmero de
votos a favor do governo pelo total de votos dados pelo parlamentar (includas
as abstenes).
Assim, um deputado que tenha votado 62 vezes junto com o lder do governo,
que por 9 vezes tenha votado contra e que por 2 vezes tenha se abstido de votar

ter uma taxa de governismo de 85%. No importa que o deputado seja, como ,
do DEM (partido de oposio) nem que ele tenha faltado a 112 votaes. Conta
apenas e exclusivamente o que ele fez transparentemente em plenrio.
A taxa de governismo das bancadas partidrias obtida pela mdia das taxas de
todos os parlamentares do partido que tenham participado de alguma votao
computada pelo Basmetro. Todos entram nesse clculo, inclusive os que por
uma razo ou outra no exeram mais o mandato. Busca-se assim medir o
comportamento histrico da bancada, no apenas o instantneo.
O Basmetro foi concebido para permitir ao usurio fazer recortes temporais,
partidrios ou geogrficos simplesmente deslizando seus marcadores ou
acionando seus filtros.
possvel comparar, por exemplo, o tamanho da base governista na Cmara dos
Deputados durante o primeiro ano do governo Dilma Rousseff (79% de apoio
mdio) com o da primeira metade do terceiro ano (71%). Ou, mais
especificamente, o grau de fidelidade do PMDB: nesse perodo, caiu de 93%
para 73%.
Alm dos "sliders" de tempo localizados no eixo horizontal da interface, outro
"slider" colocado no eixo vertical permite contar, automaticamente, quantos
deputados ou senadores votaram com que frequncia junto com o governo.
Se o usurio pesquisar o tamanho do "ncleo duro" da base de Dilma na
Cmara, por exemplo, descobrir que ele foi reduzido a um tero entre 2011 e o
primeiro semestre de 2013. No comeo do governo, nada menos do que 306
deputados votavam pelo menos 90% das vezes junto com o governo. Entre
janeiro e junho de 2013 esse nmero havia sido reduzido a 103 (e 79 deles so
do PT).

Imagem 1. Basmetro mostra a reduo do "ncleo duro" do governo

Trata-se de uma medida objetiva do grau de apoio que o governo de ocasio


dispe a cada momento no Congresso. Ao contrrio da cobertura jornalstica
tradicional, passa longe do discurso poltico, dos bastidores, das negociaes, do
mise-en-scne. mais preciso, mais conciso, menos dependente das fontes
de informao humanas e, por consequncia, menos manipulvel.
tambm uma revoluo na narrativa jornalstica. Em vez de o jornalista contar
para o leitor/espectador/ouvinte o que aconteceu, o Basmetro transfere ao
usurio o poder de narrar a histria para si prprio. O jornalista perdeu a
exclusividade de descrever o que se passou. Qualquer um pode fazer isso - sem
intermedirios, preferncias ou preconceitos que no os seus.
Como em toda boa ferramenta, o uso do Basmetro permanente - ao menos
enquanto houver Congresso Nacional e/ou meios de o Estado Dados alimentlo. A base cresce a cada votao no Senado e na Cmara. Pode incorporar
votaes de governos passados (inclui os dos governos de Luiz Incio Lula da
Silva), futuros e novas dimenses. Isso provoca problemas, porm.
O cdigo do Basmetro transfere a maior parte das operaes para o navegador
do usurio. Isso torna as transies e clculos mais rpidos, mas aumenta o
tempo de espera para o carregamento das bases de votaes quando o usurio
acessa a ferramenta pela primeira vez. A cada novo governo, maior o tamanho
dessa base a ser transferida, o que acaba sendo uma limitao.

Em outra inovao nas redaes jornalsticas, o cdigo do Basmetro est


disponvel no Github com licena livre. Qualquer um pode fazer o download e
construir um basmetro para a Assembleia Legislativa de seu Estado ou para a
Cmara Municipal de sua cidade. Sem pagar nada pelos direitos autorais. Basta
citar a fonte.
O Basmetro s existe porque um trabalho coletivo. Ele rene habilidades de
profissionais com distintas formaes: jornalistas,
engenheiros/desenvolvedores e designers. Tambm no teria sido possvel se
vrios nveis de chefias no Estado no tivessem comprado a ideia do projeto e
destinado os recursos humanos e materiais necessrios sua realizao.
Para alm do seu uso cotidiano na redao pelos jornalistas que acompanham
poltica, a aceitao do Basmetro surpreendeu seus criadores. Quem temamos
que abominasse a novidade - a academia - adorou. E quem imaginvamos que
usaria a ferramenta com estrondo - os polticos - se calou.
Logo aps seu lanamento, a ferramenta inspirou uma srie de artigos escritos
por professores universitrios e pesquisadores, todos eles publicados no portal
estadao.com.br. A editora da Fundao Getlio Vargas se props a editar um
livro com verses ampliadas e atualizadas desses artigos. Uma ferramenta
eminentemente digital, o Basmetro acabou no papel.
Jos Roberto de Toledo, coordenador do Estado Dados

InfoAmaznia: o dilogo entre jornalismo e dados geogrficos

Imagem 2. Mapa do desmatamento mostrando o desmatamento na selva do Peru causado pelo


avano da indstria de leo de palma (InfoAmaznia)

Em 2008, a necessidade de reportar sobre a alta incidncia de incndios


florestais dentro de parques e reservas no Brasil me colocou em contato com as
novas tecnologias de mapeamento digital. Naquela ocasio, a simples
descoberta de que era possvel incluir dados prprios em ferramentas do Google
descortinou para mim uma revoluo na forma de fazer a cobertura de meio
ambiente.
Meu primeiro instinto foi exatamente localizar as reportagens sobre as
queimadas em uma mapa interativo. Nos meses que seguiram, fui descobrindo,
fascinado, outros instrumentos que permitiam visualizaes ainda mais
poderosas e que facilitavam a navegao do pblico pelos dados. Como bem
observou a minha esposa, tornei-me amante do Google Earth.
O especial Monitor - Fogo nas reas Protegidas, lanado pelo site O Eco foi a
experincia precursora do que, 4 anos depois, viria a ser o InfoAmaznia: uma
plataforma digital que rene jornalismo e dados ambientais em uma espcie de
dilogo onde o fio condutor a referncia geogrfica. Dados emprestavam
contexto para as reportagens, mas o inverso tambm era verdadeiro: o

jornalismo qualificava a informao vinda do satlite. Nossa frase de efeito na


poca foi o que satlite capta do espao, o reprter conta em terra
Uma exposio em 2010 na British Library me mostrou com enorme clareza que
mapas so bons instrumentos de informao h sculos. Mas a utilizao deles,
sempre bastante restrita. Basta visitar a suntuosa sala de mapas do Museu do
Vaticano para entender como a confeco das cartas servia aos que detinham
poder. O surgimento da geoweb, como tem sido classificado o crescente uso de
mapas digitais, democratizou o conhecimento geogrfico e abriu uma nova
porta para o jornalismo: transmitir contedo sobre os mapas, criando distintas
camadas de informao. O mapa se tornou um meio de publicao, onde a teia
de longitude e latitude pode ser vista da mesma forma como as antigas marcas
da lauda no papel.
A inspirao para o InfoAmaznia foi reforada pela enorme quantidade de
dados gratuitos; sries histricas sobre fogo e desmatamento, por exemplo, so
encontradas em formatos abertos nos sites da NASA ou do Instituto Brasileiro
de Pesquisas Espaciais (INPE). Nossa ideia, logo de incio, era usar o dado de
satlite como contexto e guia para reportagens que deveriam ser feitas em
campo pelos jornalistas. Assim surgiu um nome para a prtica, o geojornalismo
- uma espcie de galho dentro da frondosa rvore do jornalismo de dados.
Tenho enfatizado que o termo geojornalismo apareceu mais por conta de um
desejo de propagandear o que estamos fazendo do que como um conceito bem
formado. No entanto, aps anos amadurecendo a plataforma, nos demos conta
de que existem muitos fundamentos que surgiram exatamente do desejo de
transformar o jornalismo em uma camada relevante para entender um
determinado territrio, neste caso a maior floresta tropical do planeta.
A arquitetura do InfoAmaznia

O projeto InfoAmaznia foi lanado em junho de 2012 atravs de uma parceria


entre O Eco e Internews, uma organizao americana dedicada a fomentar a
mdia em pases em desenvolvimento, com apoio do Centro Internacional de
Jornalistas (ICFJ), que financia o meu trabalho atravs das Bolsas Knight.

Imagem 3. A equipe de desenvolvedores do InfoAmazonia reunida em 17 de junho poucas horas


antes do lanamento no Rio de Janeiro (foto: Gustavo Faleiros)

A primeira deciso, e certamente a mais difcil, foi a escolha da ferramenta de


mapas. Desde o planejamento da plataforma, em 2008, a escolha era utilizar as
ferramentas do Google. Mas notamos que, por conta da grande quantidade de
informao coletada, necessitvamos de algo diferente, e acabamos nos unindo
em uma parceria com a empresa americana MapBox.
A deciso por usar a tecnologia de MapBox foi guiada pelo fato de que os mapas
funcionam como imagens interativas, suportando uma enorme quantidade de
dados. Ao contrrio de outras ferramentas, as camadas so renderizadas antes
de irem para nuvem e um recurso conhecido como UTF Grid permite a
interao entre os usurios e a base de dados com uma rapidez incrvel. Isso nos
permite ter hoje mapas como o do desmatamento, com at 15 camadas
diferentes com sries histricas representando dados dos ltimos 20 anos.
Para montar o InfoAmazonia contamos com 8 pessoas. Do MapBox - cuja
equipe liderada pelo programador Alex Barth enriqueceu o projeto com novas
ideias - havia o designer do site, um designer de mapas e um programador para
o sistema de publicao (CMS). Do nosso lado, no Brasil, tnhamos uma gestora
de desenvolvimento (Juliana Mori, que coordenava a execuo das etapas do
projeto) e dois jornalistas organizando a base de dados das reportagens. Eu e
James Fahn (da Internews) cuidamos da parte institucional e concepo
editorial.

Uma das questes fundamentais foi criar uma base de dados de reportagens
sobre os temas que seriam representados nos mapas. Usando uma planilha de
Google Docs, onde havia uma coluna de coordenadas geogrficas, comeamos a
acumular notcias em portugus, ingls e espanhol sobre desmatamento,
queimadas, conservao, minerao e outras questes relevantes. No
lanamento, a tabela possua 180 matrias. Um ano depois, cerca de 800 j
tinham sido agregadas .
Modelo para distribuir e replicar

exatamente a acumulao de dados que nos faz mover em novas direes.


Acreditamos que o aplicativo InfoAmazonia tem algumas caractersticas que o
tornam nico. Este o nico local na web onde se pode encontrar concentradas
informaes sobre Amaznia como um todo, no apenas do Brasil, mas dos 9
pases que detm a floresta tropical. Esta vantagem tambm se torna um desafio
na gesto dos dados.
Nossa primeira ao para lidar com o desafio foi criar um tema de Wordpress
exclusivo para a gesto dos mapas e notcias por jornalistas. Para isso,
trabalhamos com dois estdios de So Paulo, Cardume e Memelab. Em maio de
2013, esse tema do Wordpress - batizado de Mappress - se tornou livre para
utilizao e seu cdigo pode ser encontrado no GitHub. Potencialmente, outros
projetos com informaes do Cerrado, da Caatinga ou da Mata Atlntica
podero surgir, testando a validade do olhar territorial na cobertura jornalstica.
Recentemente, criamos uma seo dedicada customizao dos mapas pelo
pblico e por instituies parceiras. possvel levar toda essa informao que
batalhamos para agregar simplesmente embedando - ou seja incorporando - o
cdigo em seu prprio site. Os mapas podem ser desagregados por camadas ou
filtrados por tipo de notcias. Nossa esperana uma s: aumentar o alcance e o
impacto dos dados sobre a Amaznia.
Gustavo Faleiros, InfoAmaznia

The Opportunity Gap: projeto de oportunidades em escolas


The Opportunity Gap usou dados de direitos civis do Departamento de
Educao americano nunca antes liberados e mostrou que alguns estados dos
EUA, como a Flrida, aumentaram o nvel de educao e ofereceram aos
estudantes ricos e pobres acesso praticamente igual a cursos de alto nvel,
enquanto outros, como Kansas, Maryland, e Oklahoma oferecem menos
oportunidades em bairros com famlias mais pobres.

Imagem 4. O projeto The Opportunity Gap (ProPublica)

Os dados incluram todas as escolas pblicas em bairros com trs mil alunos ou
mais. Mais de trs quartos de todos os estudantes de escolas pblicas foram
representados. Um reprter de nossa redao obteve os dados e nosso diretor de
Reportagem com Auxlio do Computador (RAC) os limpou extensivamente.
Foi um projeto com aproximadamente trs meses de durao. Ao todo, seis
pessoas trabalharam juntas na matria e no aplicativo de notcias: dois editores,
um reprter, uma pessoa de RAC e dois desenvolvedores. A maioria de ns no
estava trabalhando exclusivamente no projeto durante este perodo.
O projeto realmente exigiu a combinao de nossas habilidades: profundo
conhecimento na rea, entendimento das melhores prticas com dados, design e
habilidades em programao, e por a vai. Mais importante foi a habilidade de
encontrar a histria dentro dos dados. O projeto tambm exigiu edio, no s

para a matria que resultaria dos dados, mas tambm para prprio aplicativo de
notcias.
Para o tratamento e anlise dos dados foram utilizados principalmente Excel e
scripts de tratamento, bem como o Microsoft Access. O aplicativo de notcias foi
escrito em Ruby on Rails e usa muito JavaScript.
Alm de uma reportagem mais geral sobre o problema, nossa cobertura incluiu
um aplicativo de notcias interativo permitindo encontrar exemplos na imensa
base de dados. Usando nosso aplicativo, um leitor poderia identificar sua escola
localpor exemploCentral High School in Newark, N.J.e imediatamente ver
a performance dela em reas variadas. Apertando o boto Comparar com
escolas de alto e baixo ndice de pobreza, veria uma comparao outros colgios,
sua pobreza relativa e seu nvel de ensino de matemtica, participao no
Advanced Placement (programa criado nos Estados Unidos para oferecer
matrias de nvel universitrio a alunos do Ensino Mdio) e outros cursos
importantes. A situao de pobreza dos estudantes mostrada pelo percentual
de alunos que podem ingressar num programa de almoo grtis do governo.
Em nosso exemplo, ao clicar no boto, Central High comparada a Millburn Sr.
High (menos pobre) e International High (mais pobre). O Opportunity Gap
mostra que apenas 1% dos estudantes de Milburn podem ter almoo gratuito e
72% deles cursaram ao menos uma disciplina do Advanced Placement (AP). No
outro extremo,a escola International High, 85% dos seus alunos so elegveis ao
almoo grtis, mas somente 1% deles cursou disciplinas do AP.
Por meio deste exemplo, o leitor pode usar algo que ele conhea - uma escola de
ensino mdio - para entender algo que no conhea: a distribuio do acesso
educao e o quanto a pobreza um indicador desse acesso.
Ns tambm integramos o aplicativo ao Facebook, de maneira que ele
informasse automaticamente os leitores sobre as escolas de seu interesse
quando estes acessassem a rede social.
O trfego para todos os nossos aplicativos de notcias excelente, e estamos
particularmente orgulhosos da maneira como este app conta uma histria
complexa indo mais direto ao ponto, ele ajuda os leitores a contar suas
prprias histrias para si mesmos.
Tal como em muitos projetos que comeam a partir de dados governamentais,
foi necessrio limpar muito os dados. Por exemplo, enquanto existem apenas

cerca de 30 cursos no programa Advanced Placement, algumas escolas


relataram centenas deles. Isso levou verificao manual e ligaes para as
escolas para confirmao e correes.
Tambm trabalhamos arduamente para ter certeza de que o app contasse uma
histria que fosse "distante" e uma "prxima". Ou seja, o aplicativo precisava
apresentar ao leitor uma viso geral e ampla nacional especificamente, uma
maneira de comparar o que faziam os estados no que diz respeito ao acesso
educao. Mas, uma vez que a uma viso geral por vezes deixa os leitores
confusos sobre o que os dados significam para eles, ns tambm queramos que
eles fossem capazes de encontrar a sua prpria escola local e compar-la com
escolas mais ricas e pobres na sua rea.
Se fosse aconselhar aspirantes a jornalistas de dados interessados em assumir
esse tipo de projeto, diria que voc tem que conhecer o assunto e ser curioso!
Todas as regras aplicadas a outros tipos de jornalismo valem aqui. Voc tem que
conhecer os fatos direito, certificar-se de contar bem a histria e,
principalmente, verificar se o aplicativo de notcias no discorda da histria que
voc est escrevendo porque, se isso acontecer, um dos dois deve estar errado.
Alm disso, se voc quiser aprender a programar, a coisa mais importante
comear. Voc pode gostar de aprender por meio de aulas, livros ou vdeos, mas
certifique-se que voc tem realmente uma boa ideia para um projeto e um prazo
suficiente para complet-lo. Se h uma histria em sua cabea que s pode sair
como um aplicativo de notcias, ento a falta de conhecimento de programao
no ir te parar!
Scott Klein, ProPublica

Uma investigao de nove meses dos Fundos Estruturais


Europeus
Em 2010, o Financial Times e o Bureau of Investigative Journalism
(BIJ) somaram foras para investigar os Fundos Estruturais Europeus. O
objetivo era identificar quem so os beneficirios desses fundos e se o dinheiro
era bem aplicado. Com 347 bilhes de euros em sete anos, os Fundos
Estruturais so o segundo maior programa de subsdios da Unio Europeia
(UE). O programa existe h dcadas, mas exceto por alguns panoramas gerais,
havia pouca transparncia sobre seus beneficirios. Como parte de uma srie de
mudanas na atual rodada de financiamento, as autoridades foram obrigadas a
tornar pblicas suas listas de beneficirios, incluindo a descrio dos projetos e
o montante de recursos recebidos da UE e do fundos nacionais.

Imagem 5. Investigao dos Fundos Estruturais Europeus (Financial Times e Bureau of Investigative
Journalism)

A equipe do projeto foi composta por 12 jornalistas e um programador em


tempo integral que colaboraram por nove meses. Apenas a coleta de dados levou
vrios meses.
O projeto resultou em cinco dias de cobertura do Financial Times e no BIJ, um
documentrio de rdio da BBC, e diversos documentrios para TV.

Antes de encarar um projeto com esse nvel de esforo, voc deve ter certeza que
os achados sero originais, e que ao fim voc ter boas histrias que ningum
mais tem.
O processo foi dividido em diferentes passos.
1. Identificar quem possui os dados e como esto armazenados

A Direo-Geral de Poltica Regional da Comisso Europeia (DG REGIO)


mantm umportal para agregar as pginas de autoridades regionais que
publicam dados. Acreditvamos que a Comisso tivesse uma base de dados
abrangente com informaes sobre seus projetos e que esta poderia ser acessada
diretamente, ou que ao menos pudssemos solicitar os dados por meio de
pedidos pela lei de informao. Mas essa base no existia no nvel de
detalhamento que precisvamos. Rapidamente percebemos que muitos dos
links que a Comisso fornecia estavam quebrados e que a maior parte das
autoridades publicava dados em formato PDF, em vez de formatos como CSV ou
XML, mais adequados para anlises.
Um time de at 12 pessoas trabalhou para identificar os dados mais recentes e
compilar os links em uma planilha que usamos colaborativamente. Uma vez que
os campos no estavam uniformes (por exemplo, os cabealhos estavam em
diferentes idiomas, algumas bases usavam moedas diferentes e algumas
incluam ainda separaes por financiamento da UE ou fundos nacionais),
precisvamos ter o mximo de preciso possvel para traduzir e descrever os
campos disponveis em cada base de dados.
2. Download e tratamento dos dados

O prximo passo consistiu em fazer download de todas as planilhas, PDFs e, em


alguns casos, arrancar os dados com scripts dos sites internet.
Cada base de dados precisava, ento, ser padronizada. Nossa maior tarefa era
extrair os dados dos PDFs, alguns com centenas de pginas. Muito desse
trabalho foi feito por meio do UnPDF e do ABBYY FineReader, que permitem a
extrao de dados para formatos como CSV ou Excel.
Essa etapa tambm envolvia a checagem e rechecagem para verificar se as
informaes extradas do PDF estavam corretas. Isso era feito por meio de
filtragem, classificao e soma de totais (para assegurar que correspondiam ao
que estava registrado nos PDFs).

3. Criar o banco de dados

O programador da equipe montou um banco de dados SQL. Cada um dos


arquivos preparados foi ento utilizado como um bloco de construo para a
base global em SQL. A cada dia, um upload dos arquivos individuais era feito
para essa base de dados SQL, que podia ser consultada em tempo real por meio
de palavras-chave em uma interface amigvel.
4. Rechecagem e anlise

A equipe analisou os dados de duas formas principais:


Pela interface (front end) da base de dados

Isso envolvia entrar com palavras-chave de interesse (ex.: "tabaco",


"hotel", "companhia A") no mecanismo de busca. Com ajuda do Tradutor
do Google, que foi includo como funcionalidade de busca em nossa base
de dados, essas palavras-chave foram traduzidas para 21 idiomas e
retornavam resultados mais adequados. Estes podiam ser baixados e os
reprteres podiam aprofundar a pesquisa nos projetos individuais de seu
interesse.
Por meio de macroanlises usando toda a base de dados

Ocasionalmente, era possvel baixar toda a base de dados, que poderia


ento ser analisada (por exemplo, usando palavras-chave ou agregando
dados por pas, regio, tipo de gasto, nmero de projetos por beneficirio
etc.)

Nossas pautas surgiam a partir desses dois mtodos, mas tambm por meio
de investigao em campo e pesquisas secundrias.
A rechecagem da integridade das informaes (agregando e confrontando
com aquilo que as autoridades disseram estar sendo alocado) levou um tempo
considervel. Um dos principais problemas era que as autoridades em sua
maioria divulgavam somente o montante de "financiamento da UE e
nacional". De acordo com as regras da UE, cada programa pode financiar
determinados percentuais do total de dinheiro para os subsdios. O
financiamento da UE estabelecido, no nvel do programa, pela chamada
taxa de co-financiamento. Cada programa (por exemplo, competitividade
regional) composto de numerosos projetos. Um projeto pode, tecnicamente,
receber 100% de financiamento da UE e outro, nada; contanto que estejam
agrupados, o montante de financiamento do programa no pode ser maior
que a taxa de co-financiamento aprovada.
Isso significava que precisvamos checar cada montante de financiamento
que citvamos em nossas reportagens com a empresa beneficiria em
questo.
Cynthia OMurchu, Financial Times

A crise da Zona do Euro


Ns estamos cobrindo cada passo da crise da Zona do Euro. O drama medida
que os governos quebram e as poupanas de uma vida so perdidas, a reao
dos lderes mundiais, as medidas de austeridade e os protestos contra elas.
Todos os dias, no Wall Street Journal, existem grficos de desemprego, queda
do PIB, queda dos mercados mundiais. gradual. paralizante.
Os editores da Primeira Pgina marcam uma reunio para discutir ideias para a
cobertura do fim de ano e, assim que samos da reunio, fico a pensar: como
deve ser viver esta situao?
Ser como 2008, quando fui despedido e no parava de aparecer ms noticias?
Lembro que falvamos dos nossos empregos, trabalho e dinheiro todas as noites
durante o jantar, quase esquecendo como isso poderia irritar a minha filha. E os
fins de semana foram os piores. Tentei negar o medo que parecia estar
permanentemente fungando na minha nuca e a ansiedade comprimindo as
minhas costelas. Era assim que se sentia agora uma famlia na Grcia ou na
Espanha?
Voltei e segui Mike Allen, o editor da primeira pgina, at ao seu escritrio e
lancei a ideia de contar a crise atravs das famlias na Zona do Euro, olhando
primeiro para os dados, encontrando perfis demogrficos para entender o que
constitua uma famlia e depois realando isso juntamente com imagens e
entrevistas em udio. Utilizaramos belos retratos, as vozes e os dados.
De volta minha mesa, escrevi um resumo e desenhei um logotipo.

Imagem 6. A Crise da Zona do Euro: resumo (Wall Street Journal)

Durante as trs semanas seguintes fui caa dos nmeros: mtricas sobre
casamento, mortalidade, tamanho da famlia e gastos com a sade. Li sobre
condies de vida e nmeros de divrcio, vi questionrios sobre bem-estar e
taxas de poupana. Pesquisei nos departamentos nacionais de estatsticas,
telefonei ao escritrio do Population Bureau da ONU, ao FMI, Eurostat e OCDE
at que encontrei um economista que tinha passado a sua carreira
acompanhando famlias europeias. Ele me levou at uma especialista em
composies familiares, que me indicou vrios documentos sobre o assunto.
Com o meu editor, Sam Enriquez, reduzi o nmero de pases. Juntamos uma
equipe para discutir a abordagem visual e quais reprteres poderiam nos
entregar palavras, udios e histrias. Matt Craig, o editor de fotografia da
primeira pgina, iniciou o trabalho de encontrar os fotgrafos. Matt Murray,
Vice-Chefe de Redao para cobertura global, enviou um memorando aos
diretores das sucursais solicitando a ajuda dos reprteres (isto foi crucial:
aprovao da direo).
Mas primeiro, aos dados. Durante as manh, exportava os dados para planilhas
e construa grficos para identificar tendncias: reduo das poupanas,
desaparecimento das penses, mes voltando ao trabalho, gastos na sade,
juntamente com a dvida do governo e desemprego. Durante as tardes eu
analisava os grupos de dados, comparando pases para encontrar histrias.

Fiz isto durante uma semana at me perder e comear a duvidar de mim


mesmo. Talvez fosse a abordagem errada. Talvez no fosse sobre pases, mas
sobre pais e mes, e crianas e avs. Os dados cresciam.
E encolhiam. s vezes passava horas coletando informao apenas para
perceber que ela me dizia, bem, nada. Que eu tinha obtido conjuntos de dados
completamente errados. Algumas vezes os dados eram muito velhos.

Imagem 7. Julgar a utilidade de um conjunto de dados pode ser uma tarefa bastante demorada
(Sarah Slobin)

E ento os dados ganharam corpo novamente assim que percebi que ainda tinha
perguntas, e que ainda no entendia as famlias. Precisava ver, dar forma a eles.
Ento fiz um conjunto de grficos no Illustrator e comecei a ajust-los e edit-

los. Assim que que os grficos surgiam, tambm surgia um retrato coeso das
famlias.

Imagem 8. Visualizao de Grficos: entendendo tendncias e padres escondidos nas bases de


dados (Sarah Slobin)

Imagem 9. Nmeros so pessoas: o valor dos dados est nas histrias individuais que eles
representam (Wall Street Journal)

Ento, comeamos. Liguei para cada reprter. Enviei-lhes os grficos, a ideia


geral e um convite aberto para encontrarem histrias que sentissem serem
significativas, que aproximassem a crise aos nossos leitores. Precisvamos de
uma pequena famlia em Amsterd, e outras maiores na Espanha e na Itlia.
Queramos ouvir mltiplas geraes para ver como a histria pessoal moldava
as respostas de cada uma.

A partir da, acordava cedo para verificar o meu e-mail, levando em conta a
diferena de fuso horrio. Os reprteres responderam com belos assuntos,
sumrios, e surpresas que eu no tinha previsto.
Para a parte fotogrfica, sabamos que queramos retratos de geraes. A ideia
do Matt era fazer com que os seus fotgrafos acompanhassem um membro da
famlia ao longo de um dia de suas vidas. Ele escolheu jornalistas visuais que
tinham coberto assuntos internacionais, noticias e at guerras. Matt queria que
cada sesso de fotos terminasse na mesa de jantar. Sam sugeriu que
inclussemos os menus.
A partir de ento, foi uma questo de esperar para ver que histria as fotos
contavam. Para ver o que as famlias diziam. Desenhamos o visual do aplicativo
interativo. Roubei uma paleta dum livro do Tintin, trabalhamos na interao. E
quando estava tudo reunido e tnhamos os storyboards, voltamos a acrescentar
alguns (no muitos, mas alguns) dos grficos originais. Apenas o suficiente para
pontuar cada histria, apenas o suficiente para dar corpo aos temas. Os dados
tornaram-se uma pausa na histria, uma maneira de alterar o ritmo.
No fim, os dados eram as pessoas: elas eram as fotografias e as histrias. Elas
eram o que emoldurava cada narrativa e conduzia a tenso entre os pases.
Quando publicamos, logo antes do Ano Novo, conhecia todos os membros das
famlias pelo nome. Ainda penso em como esto agora. E se isto no parece um
projeto de dados, por mim tudo bem. Porque todos esses momentos que esto
documentados no Vida na Zona do Euro, essas histrias de sentar para uma
refeio e falar sobre o trabalho e a vida com a sua famlia eram algo que
podamos dividir com os nossos leitores. Entender os dados foi o que tornou
isso possvel.

Imagem 10. Vida na Zona do Euro (Wall Street Journal)

Sarah Slobin, Wall Street Journal

lamentares finlandesas e financiamento de campanha


0

Cobrindo o gasto pblico com OpenSpending.org


Em 2007, Jonathan chegou Open Knowledge Foundation com uma proposta
de uma pgina para um projeto chamado Where Does My Money Go? (Para
onde vai o meu dinheiro?), que tinha o objetivo de tornar mais fcil aos cidados
do Reino Unido entender como as verbas pblicas eram gastas. O projeto foi
pensado como o prottipo de uma iniciativa maior para reproduzir visualmente
informaes pbicas, baseada no trabalho pioneiro do Isotype Institute de Otto
e Marie Neurath, na dcada de 1940.

Imagem 11. Where Does My Money Go? (Open Knowledge Foundation)

O projeto permitiu aos usurios explorar dados pblicos de vrias fontes usando
ferramentas intuitivas de cdigo aberto. Ganhamos um prmio para ajudar a
desenvolver um prottipo, e posteriormente recebemos financiamento do 4IP
(fundo de inovao do canal Channel 4) para transform-lo num aplicativo web
completo. O guru do design da informao David McCandless (do Information
is Beautiful) criou visualizaes diferentes dos dados que ajudaram as pessoas a
se relacionar com os grandes nmerosincluindo a "Country and Regional
Analysis", que mostra como o dinheiro gasto nas diferentes partes do pas
e "Daily Bread", que mostra aos cidados um detalhamento de quantas libras
so pagas por dia em impostos.

Imagem 12. A calculadora de impostos do Daily Bread do projeto "Where Does My Money Go?"
(Open Knowledge Foundation)

Naquela poca, o santo graal para o projeto eram os dados do COINS, acrnimo
paraCombined Online Information System (Sistema Online de Informaes
Combinadas), o banco de dados mais abrangente e detalhado das finanas do
governo do Reino Unido. Trabalhando com Lisa Evans (antes de ela integrar o
time do Guardian Datablog), Julian Todd, Francis Irving (agora no famoso
Scraperwiki) e Martin Rosenbaum (BBC), entre outros, ns preenchemos
inmeros requerimentos para obter os dadossem sucesso em muitos deles.
Quando os dados foram finalmente liberados, em meados de 2010, o fato foi
considerado uma grande vitria pelos defensores da transparncia. Ganhamos
acesso avanado aos dados para carreg-los no nosso projeto, e recebemos uma
ateno significativa da imprensa quando isso se tornou pblico. No dia da
liberao dos dados, havia dzias de jornalistas no nosso canal no IRC
questionando sobre como abri-los e explor-los (os arquivos tinham dezenas de
gigabytes). Enquanto alguns especialistas afirmaram que a liberao em massa
dos dados era to complicada que estava escondendo por meio de
transparncia, muitos jornalistas se debruaram sobre os eles para dar a seus
leitores um retrato sem precedentes de como as verbas pblicas so gastas. O
Guardian criou um blog em tempo real sobre a liberao e muitos veculos da

mdia cobriram o assunto e ofereceram anlises e descobertas a partir dos


dados.
No demorou at que comessemos a receber solicitaes e pedidos de
informao para a execuo de projetos semelhantes em outros pases. Pouco
tempo depois de lanarOffenerHaushalt uma verso do projeto para o
oramento do Estado alemo criado por Friedrich Lindenbergns lanamos
o OpenSpending, uma verso internacional para ajudar os usurios a mapear os
gastos pblicos ao redor do mundo, um pouco como o OpenStreetMap os
ajudou a mapear aspectos geogrficos. Implementamos novos designs com a
ajuda do talentoso Gregor Aisch, parcialmente baseados nos designs originais
de David McCandless.

Imagem 13. OffenerHaushalt, a verso alem do Where Does My Money Go? (Open Knowledge
Foundation)

Com o projeto OpenSpending, trabalhamos extensivamente com jornalistas


para obter, representar, interpretar e exibir dados sobre gastos ao pblico.
OpenSpending um enorme banco de dados pesquisvel de gastos pblicos
tanto de informaes oramentrias de alto nvel quanto de operaes de gastos
efetivos. Qualquer um pode carregar informaes de seu municpio e produzir
visualizaes a partir delas.

Inicialmente pensvamos que haveria maior demanda por nossas visualizaes


mais sofisticadas, mas depois de conversar com organizaes jornalsticas
percebemos que havia necessidades mais bsicas, como a capacidade de inserir
tabelas dinmicas de dados nas postagens de seus blogs. Querendo encorajar as
organizaes jornalsticas a dar acesso pblico aos dados ao longo de suas
histrias, construmos um programa para isso tambm.
Nosso primeiro grande lanamento foi na poca do primeiro Festival
Internacional de Jornalismo em Perugia. Um grupo de programadores,
jornalistas e funcionrios do governo colaboraram para carregar dados da Itlia
na plataforma OpenSpending, o que gerou uma rica viso de como os gastos
estavam divididos entre a administrao central e as administraes regionais e
locais. O lanamento ganhou cobertura do Il Fatto Quotidiano, Il Post, La
Stampa, Repubblica, e Wired Italia, assim como do Guardian.

Imagem 14. A verso italiana do Where Does My Money Go? (La Stampa)

Em 2011 ns trabalhamos com o Publish What You Fund (Publique o que voc
financia) e oOverseas Development Institute para mapear o financiamento da
ajuda humanitria a Uganda entre 2003 e 2006. Pela primeira vez voc podia
ver o fluxo do financiamento dentro do oramento nacionalpermitindo ver
at que ponto as prioridades dos doadores se alinhavam com as prioridades do
governo. Houve alguns resultados interessantespor exemplo, tanto
programas de combate ao HIV como de planejamento familiar se revelaram

como quase totalmente financiados por doadores externos. Isto foi coberto
pelo Guardian.
Ns tambm vnhamos trabalhando com ONGs e grupos de ativistas para cruzar
dados de gastos com outras fontes de informaes. Por exemplo, a Privacy
International nos procurou com uma grande lista de empresas de tecnologia de
segurana e uma lista de agncias que compareceram a uma famosa feira
internacional de segurana, conhecida informalmente como o "baile dos
arapongas". Ao relacionar os nomes das companhias com dados de gastos
pblicos, foi possvel identificar quais delas possuam contratos com o
governoque poderiam ento ser investigados por meio de pedidos oficiais de
informao com base no FOI (Freedom of Information Act). O Guardian cobriu
essa histria.
Trabalhamos atualmente para aumentar o conhecimento fiscal entre os
jornalistas e o pblico, como parte de um projeto chamado Spending Stories,
que permite aos usurios relacionar dados sobre gastos pblicos com
reportagens ligadas a esses gastos, para mostrar os nmeros por trs das
notcias.
Por meio de nosso trabalho nesta rea, ns aprendemos que:

Jornalistas frequentemente no esto acostumados a trabalhar com dados


brutos, e muitos no consideram isto um fundamento necessrio para sua
reportagem.

Analisar e compreender dados um processo que requer dedicao intensiva


de tempo, ainda que se possua as habilidades necessrias. Encaixar isto no
ciclo curto do noticirio difcil, de maneira que o jornalismo de dados
frequentemente usado em projetos investigativos de longo prazo.

Dados divulgados por governos esto muitas vezes incompletos ou


desatualizados. Muito frequentemente, bancos de dados pblicos no podem
ser usados para fins investigativos sem o acrscimo de informaes mais
especficas requisitadas por meio de lei de acesso informao.

Grupos de ativistas, especialistas e pesquisadores geralmente dispem de


mais tempo e recursos que jornalistas para conduzir pesquisas mais
extensivas baseadas em dados. Pode ser muito proveitoso se juntar a eles
para trabalhar em equipe.

Lucy Chambers e Jonathan Gray, Open Knowledge Foundation

Eleies parlamentares finlandesas e financiamento de


campanha
Recentemente houve julgamentos relacionados ao financiamento das
campanhas nas eleies gerais finlandesas de 2007.
Depois das eleies de 2007, a imprensa descobriu que as leis sobre divulgao
de financiamento de campanha no tiveram efeito sobre os polticos.
Basicamente, o financiamento de campanha tem sido usado para comprar
favores de polticos, que no declararam as origens de seus financiamentos
como mandam as leis finlandesas.
Aps esses incidentes, as leis tornaram-se mais rigorosas. Depois das eleies
gerais de maro de 2011, o jornal Helsingin Sanomat decidiu explorar
cuidadosamente todos os dados disponveis sobre o financiamento de
campanha. A nova lei determina que o financiamento eleitoral deve ser
declarado, e apenas doaes abaixo de 1.500 euros podem ser annimas.
1. Procura de dados e desenvolvedores

O jornal Helsingin Sanomat tem hackatonas desde maro de 2011. Ns


convidamos programadores, jornalistas e designers grficos finlandeses para o
poro do nosso prdio. Os participantes so divididos em grupos de trs e
encorajados a desenvolver aplicaes e visualizaes. Tivemos at agora, em
cada um dos nossos trs eventos, cerca de 60 participantes. Ns decidimos que
os dados de financiamento de campanha deviam ser o foco da hackatona HS
Open 2, de maio de 2011.
A Agncia Nacional de Auditoria da Finlndia a autoridade que mantm os
registros de financiamento de campanha. Essa foi a parte mais fcil. O chefe de
tecnologia de informao Jaakko Hamunen construiu um website que permite o
acesso, em tempo real, ao banco de dados. A Agncia de Auditoria fez o website
em apenas dois meses depois do nosso pedido.
O website http://www.vaalirahoitus.fi disponibilizar ao pblico e imprensa a
partir de agora informaes sobre o financiamento de campanha para cada
eleio.

Imagem 15. Financiamento de campanhas (Helsingin Sanomat)

2. Brainstorm de ideias

Os participantes do HS Open 2 chegaram a vinte propostas diferentes sobre o


que fazer com os dados. Voc pode encontrar todos os prottipos em nosso
website (texto em finlands).
Uma pesquisadora de bioinformtica chamada Janne Peltola notou que os
dados de financiamento de campanha pareciam os dados genticos que ela
pesquisa, no que diz respeito a conter muitas interdependncias. Em
bioinformtica existe uma ferramenta de cdigo aberto chamada Cytoscape que
usada para mapear estas interdependncias. Ento ns movemos os dados
atravs do Cytoscape, e construmos um prottipo muito interessante.
3. Implementar a ideia no papel e na web

A lei sobre o financiamento de campanhas estabelece que os membros eleitos do


parlamento devem declarar o financiamento at dois meses aps as eleies. Na
prtica, isso significa que conseguimos os dados na metade de junho. Durante o
HS Open, tnhamos dados apenas da parcela de prestao de contas que os
polticos haviam apresentado antes do prazo final.
Houve tambm um problema com o formato dos dados. A Agncia Nacional de
Auditoria providenciou os dados como dois arquivos CSV. Um continha o
oramento total das campanhas e o outro listava o total de doadores. Ns

tivemos que combinar esses dois, criando um arquivo que continha trs colunas:
doador, recebedor e total. Se os polticos tinham provido todo o dinheiro da
prpria campanha, no nosso formato de dados aparecia Politico A doou X euros
para Politico A. Contra-intuitivo, talvez, mas isso funcionou no Cytoscape.
Quando os dados foram limpos e reformatados, logo os passamos pelo
Cytoscape. Depois, o nosso departamento grfico fez uma pgina inteira de
grficos externos.
Finalmente, criamos uma belssima visualizao no nosso site. No foi um
grfico de anlise de rede. Queramos dar s pessoas uma maneira fcil de
explorar quanto existe de financiamento de campanha e quem financia. A
primeira visualizao mostra a distribuio de financiamento entre os membros
do parlamento. Quando voc clica em um membro, voc detalha os resultados
dos financiamentos dele. Voc tambm pode votar se determinado doador
bom ou no. A visualizao foi feita por Juha Houvinen e Jukka Kokko, de uma
agncia chamada Satumaa. A verso web de visualizao de financiamento de
campanha utiliza os mesmos dados que a anlise de rede.
4. Publicar os dados

Claro, a Agncia Nacional de Auditoria j publicou os dados, por isso no houve


a necessidade de republicar. Mas, como ns havamos tratado os dados e os
colocado em uma estrutura melhor, decidimos republic-los. Distribumos os
nossos dados com a licenaCreative Commons Atribuio 3.0.
Usamos para o projeto Excel e Google Refine para a limpeza e a anlise de
dados; Cytoscape para a anlise de rede; e Illustrator e Flash para a visualizao.
O Flash deveria ter sido HTML5, mas ns j estvamos trabalhando fora do
tempo estipulado.
O que aprendemos? Talvez a lio mais importante foi a de que as estruturas de
dados podem ser muito difceis. Se os dados originais no esto no formato
adequado, recalcul-los e convert-los vai demorar muito tempo.
Esa Mkinen, Helsingin Sanomat

Hack Eleitoral em tempo real (Hacks/Hackers Buenos Aires)

Imagem 16. Eleies 2011 (Hacks/Hackers Buenos Aires)

Hack Eleitoral um projeto que exibe dados dos resultados parciais das eleies
de outubro de 2011 na Argentina. O sistema tambm conta com informaes de
eleies anteriores e estatsticas sociodemogrficas de todo o pas. O projeto foi
atualizado em tempo real com informaes da contagem dos votos das eleies
nacionais de 2011 na Argentina e fornecia parciais. Foi uma iniciativa do
Hacks/Hackers Buenos Aires com o analista poltico Andy Tow. Um esforo
colaborativo de jornalistas, programadores, designers, analistas, cientistas
polticos e outros membros do Hacks/Hackers local.
Que dados ns usamos?

Todos os dados vieram de fontes oficiais: a Administrao Nacional Eleitoral


forneceu acesso aos dados da contagem provisria de votos pela Indra (empresa
que compila o resultado da votao em todo o pas); o Ministrio do Interior
forneceu os dados sobre os cargos eletivos e os candidatos dos diferentes
partidos; um projeto de uma universidadeforneceu as informaes biogrficas e
a plataforma poltica de cada chapa presidencial; informaes
sociodemogrficas vieram do Censo Nacional da Populao e Habitao de
2001, do Censo 2010 (Indec) e do Ministrio da Sade.

Como o sistema foi desenvolvido?

O aplicativo foi gerado durante a hackatona (maratona hacker) Eleies 2011,


promovida pelo Hacks/Hackers Buenos Aires na vspera das eleies. O evento
teve a participao de 30 voluntrios de diferentes reas. O Hack Eleitoral foi
desenvolvido como uma plataforma aberta que poderia ser melhorada com o
tempo. Usamos as ferramentas Google Fusion Tables, Google Maps e bibliotecas
de imagens vetoriais.
Ns trabalhamos na construo de polgonos para a exibio do mapeamento
geogrfico e da demografia eleitoral. Combinando polgonos de um software de
GIS (Sistema de Informaes Geogrficas, na sigla em ingls) com a geometria
de tabelas de dados pblicos do Google Fusion Tables, geramos tabelas com
chaves correspondentes ao banco de dados eleitoral do Ministrio do Interior,
da Indra, e aos dados sociodemogrficos do Indec. A partir da, criamos as
visualizaes no Google Maps.
Usando a API do Google Maps, publicamos diversos mapas temticos
representando a distribuio espacial da votao por meio de diferentes tons de
cor, nos quais a intensidade da cor representava o percentual de votos de cada
uma das vrias chapas presidenciais nos diferentes departamentos
administrativos e locais de votao, com destaque especial para os principais
centros urbanos: a cidade de Buenos Aires, os 24 distritos da Grande Buenos
Aires, a cidade de Crdoba, e Rosrio.
Ns usamos a mesma tcnica para gerar mapas temticos de eleies anteriores
(as primrias presidenciais de 2011 e a eleio de 2007), assim como da
distribuio dos dados sociodemogrficos, como nveis de pobreza, mortalidade
infantil e qualidade de vida, permitindo uma comparao histrica. O projeto
tambm mostrou a distribuio espacial dos diferentes percentuais de votao
obtidos por cada chapa nas eleies gerais de outubro comparados s primrias
de agosto.
Mais tarde, usando dados da contagem parcial dos votos, criamos um mapa
animado representando a anatomia da contagem, no qual o progresso na
contagem mostrado desde o encerramento dos locais de votao at o dia
seguinte.

Prs

Ns partimos com o objetivo de encontrar e apresentar dados, e


conseguimos fazer isso. Tnhamos mo o banco de dados
sociodemogrficos do UNICEF sobre a infncia, assim como o banco de
dados dos candidatos, criado pelo grupo yoquierosaber.org da Universidade
Torcuato Di Tella. Durante a hackathona, reunimos um grande volume de
dados suplementares que terminamos no incluindo.

Ficou claro que o trabalho jornalstico e de programao foi enriquecido pelo


conhecimento acadmico. Sem a contribuio de Andy Tow e de Hilario
Moreno Campos, teria sido impossvel alcanar os objetivos do projeto.

Contras

Os dados sociodemogrficos que conseguimos usar no estavam atualizados


(a maioria era do censo de 2001) e no eram muito detalhados. Por exemplo,
eles no incluam detalhes sobre o PIB local, a principal atividade
econmica, o nvel de escolaridade, o nmero de escolas, a quantidade de
mdicos per capita, e muitas outras coisas que teriam sido timas de se ter.

O sistema foi planejado inicialmente para ser uma ferramenta que pudesse
ser usada para combinar e exibir quaisquer dados, assim os jornalistas
poderiam facilmente exibir dados que os interessassem na internet. Mas
tivemos que deixar isso para uma outra oportunidade.

Como o projeto foi construdo por voluntrios num curto espao de tempo,
foi impossvel fazermos tudo que queramos. Entretanto, alcanamos um
grande progresso na direo certa.

Pelo mesmo motivo, todo o trabalho colaborativo de 30 pessoas terminou


concentrado em apenas um programador quando os dados fornecidos pelo
governo comearam a chegar, e ns tambm enfrentamos alguns problemas
ao importar dados em tempo real. Esses problemas foram resolvidos em
poucas horas.

Consequncias

A plataforma Hack Eleitoral teve um grande impacto na mdia, com cobertura


em televiso, rdio, impresso e on-line. Mapas do projeto foram utilizados pelos
diferentes meios de comunicao durante a eleio e nos dias seguintes. Com o
passar dos dias, os mapas e visualizaes eram atualizados, o que aumentou
ainda mais o trfego de dados. No dia da eleio, o site criado na data recebeu

cerca de 20 mil visitantes nicos, e seus mapas foram reproduzidos na primeira


pgina do jornal Pgina/12, por dois dias seguidos, assim como em reportagens
do La Nacin. Alguns mapas foram usados na edio impressa do jornal Clarn.
Esta foi a primeira vez que a visualizao interativa de mapas atualizados em
tempo real foi usada na histria do jornalismo argentino. Nos mapas principais
era possvel ver a vitria esmagadora de Cristina Fernandez de Kirchner, por
54% dos votos, ilustrada pela intensidade das cores. Isso tambm ajudou os
usurios a compreender casos especficos em que candidatos locais tiveram
vitrias esmagadoras nas provncias.
Mariano Blejman, Mariana Berruezo, Sergio Sorn, Andy Tow e Martn
Sarsale, do Hacks/Hackers Buenos Aires

Dados no Noticirio: WikiLeaks


Comeou com um integrante do time de reportagem investigativa perguntando
"Voc bom com planilhas, no?'' E essa era uma bela de uma planilha: 92.201
linhas de dados, cada uma contendo uma detalhada anlise de um evento
militar no Afeganisto. Esse era oWikiLeaks war logs. Quer dizer, a Parte um.
Havia mais dois episdios para acompanhar: o vazamento do Iraque e dos
Telegramas. O termo oficial Base de Dados de Aes Significativas do exrcito
dos Estados Unidos (em ingls, na sigla SIGACTS).
Os dirios de guerra do Afeganistocompartilhados com o The New York
Times e o Der Spiegeleram jornalismo de dados em ao. O que ns
queramos fazer era possibilitar que o nosso time de reprteres especialistas
obtivessem grandes histrias por meio da informaoe queramos analis-la
para obter a viso geral, para mostrar como a guerra est realmente
acontecendo.
Era importante para o que faramos que no publicssemos a base de dados
completa. O WikiLeaks j iria fazer isso e ns queramos ter certeza de que no
revelaramos nomes de informantes ou colocaramos as tropas da OTAN em
perigo desnecessariamente. Ao mesmo tempo, precisvamos tornar mais fcil o
uso dos os dados para o nosso time de reprteres investigativos comandados
por David Leigh e Nick Davies (que negociaram a liberarao dos dados com
Julian Assange). Ns tambm queramos tornar mais simples o acesso a
informaes principais to clara e abertamente quanto nos era possvel.
Os dados vieram a ns como um enorme arquivo de Excel: mais de 92,201
linhas de dados, algumas com nada dentro ou pobremente formatadas. Isso no
ajudou em nada os reprteres que tentavam se arrastar entre os dados, em
busca de histrias. A base de dados era grande demais para se extrair dali
relatrios significativos.
Nosso time construiu um banco de dados simples, usando SQL. Agora, os
reprteres poderiam procurar histrias para palavras-chave ou eventos. De
repente, o conjunto de dados tornou-se acessvel e a criao de histrias tornouse mais fcil.
Os dados eram bem estruturados: cada evento tinha os seguintes campos: hora,
data, uma descrio, nmero de baixas, e o que era cruciallatitude e
longitude detalhadas.

Imagem 17. Os dirios de guerra do WikiLeaks (the Guardian)

Tambm comeamos a filtrar os dados para que nos ajudassem a contar uma
das principais histrias da guerra: o aumento de ataques com dispositivos
explosivos improvisados (IED na sigla em ingls), bombas caseiras de beira de
estrada, imprevisveis e difceis de combater. Esse conjunto especfico de dados
ainda era gigante, mas mais fcil de gerenciar. Houve cerca de 7.500 exploses
com IEDs ou emboscadas (uma emboscada onde o ataque combinado com,
por exemplo, pequenas armas de fogo ou granadas-foguete) entre 2004 e 2009.
Outros 8.000 IEDs foram encontrados e desarmados. Esses dados nos
permitiram ver que o sul do pas, onde as tropas Inglesas e Canadenses estavam
at ento, era a pior rea de impactoo que confirmava as informaes de
nossos reprteres que cobriram a guerra.
O lanamento dos dirios de guerra do Iraque em Outubro de 2010 liberou
outros 391.000 registros da guerra para debate pblico. Em comparao com o
vazamento do Afeganisto, atingiu um outro nvel. Pode-se dizer que isso fez
desta guerra a mais documentada na histria. Cada mnimo detalhe estava l
agora, para que pudssemos analisar e desvendar. Mas um fator se destacava: o
volume absoluto de mortes, a maioria de civis.
Assim como com o Afeganisto, o Guardian decidiu no republicar a base de
dados inteira, em grande parte porque no conseguamos ter certeza de que o

campo do sumrio poderia conter detalhes confidenciais de informantes e por a


vai.
Mas ns permitimos que nossos usurios fizessem o download da planilha
contendo os registros de cada incidente onde algum morreu, aproximadamente
60.000 no total. Removemos o campo do sumrio, deixando apenas os dados
bsicos: o comando militar, nmero de mortes, e a classificao geogrfica.
Ns tambm pegamos todos os incidentes em que algum tenha morrido e os
colocamos em um mapa usando Google Fusion tables. No ficou perfeito, mas
um comeo na tentativa de mapear os padres da destruio que devastou o
Iraque.
O telegramas foram vazados em dezembro de 2010, em um nvel
completamente diferente. Era um conjunto enorme de dados de documentos
oficiais: 251.287 remessas de mais de 250 embaixadas dos EUA em todo o
mundo e consulados. uma imagem nica da atuao diplomtica norteamericanaincluindo mais de 50 mil documentos relativos j administrao
Obama. Mas o que tinha nos dados?
Os prprios despachos vieram por meio da vasta Rede Roteadora de Protocolos
Secretos da Internet ou SIPRNet. A SIPRNet o sistema militar mundial de
internet norte-americano, mantido em separado da internet civil e gerido pelo
Departamento de Defesa em Washington. Desde os ataques de setembro de
2001, h um movimento nos EUA para interligar arquivos de informaes
governamentais, na esperana de que a inteligncia-chave no mais fique presa
em "stovepipes" (meios de informaes verticalizados e isolados). Um nmero
crescente de embaixadas norte-americanas ligou-se SIPRNet durante a ltima
dcada, de forma que informaes militares e diplomticas pudessem ser
compartilhadas. Em 2002, 125 embaixadas estavam na SIPRNet; Em 2005,
eram 180, e, atualmente, a grande maioria das misses dos Estados Unidos em
todo o mundo esto ligadas ao sistema por isso que a maior parte dos
telegramas vazados so de 2008 e 2009. Como David Leigh escreveu:
Uma remessa de uma embaixada marcada como SIPDIS automaticamente
baixada para o website confidencial da embaixada. De l, ela pode ser acessada
no s por qualquer um do departamento de estado, mas, tambm, por
qualquer um no exrcito dos EUA que possua uma licena de segurana at o
nvel "Secreto", uma senha, e um computador conectado SIPRNet.

o que surpreendentemente est acessvel a mais de 3 milhes de pessoas. H


vrias camadas de dados projetadas para nunca serem exibidas a cidados de
fora dos EUA. Pelo contrrio, elas deveriam ser lidas por oficiais em
Washington do nvel da Secretria de Estado Hillary Clinton. Os telegramas so
normalmente esboados pelo embaixador local ou subordinados. Os
documentos "Altamente Secretos'' e acima da inteligncia estrangeira no
podem ser acessados do SIPRNet.
Ao contrrio dos vazamentos anteriores, isso era predominantemente texto, no
quantificvel. Isso era o que estava includo:
Uma fonte

A embaixada ou rgo que o enviou.


Uma lista de destinatrios

Normalmente, os telegramas eram enviados para algumas embaixadas e


rgos.
Um campo para assunto

Um resumo do despacho.
Cdigos

Cada mensagem foi rotulada com algumas abreviaes de palavraschave.


Corpo de texto

A mensagem em si. Optamos pela no publicao completa destes por


razes de segurana bvias.
Uma nuance interessante como os telegramas quase criaram
vazamentos por demanda. Eles guiaram as notcias por semanas aps
serem publicados; agora, sempre que uma histria sobre um regime
corrupto ou escndalo internacional surge, o acesso aos telegrama nos d
a possibilidade de novas histrias.
A anlise das correspondncias uma tarefa enorme que pode nunca ser
terminada completamente.
Essa uma verso editada de um captulo publicado em "Facts are
Sacred: The Power of Data" (Fatos so Sagrados: O Poder dos Dados),
de Simon Rogers, the Guardian (publicado no Kindle)

Hackatona Mapa76
Ns lanamos o Hacks/Hackers Buenos Aires em abril de 2011. Tivemos dois
encontros iniciais para divulgar a ideia de uma maior colaborao entre
jornalistas e desenvolvedores de software, que contaram com 120 a 150 pessoas
em cada um dos eventos. Para o terceiro encontro, organizamos uma hackatona
de 30 horas com oito pessoas durante uma conferncia de jornalismo digital na
cidade de Rosrio, a 300 quilmetros de Buenos Aires.
Um tema recorrente nos encontros era o desejo de obter grandes volumes de
dados da internet e represent-los visualmente. Para ajudar com isso, nasceu o
projeto Mapa76, que ajuda usurios a extrair dados e mostr-los usando mapas
e linhas do tempo. No foi uma tarefa fcil.

Imagem 18. Mapa76 (Hacks/Hackers Buenos Aires)

Por que Mapa76? Em 24 de maro de 1976 houve um golpe na Argentina que


durou at 1983. Durante esse perodo, estima-se que tenha havido 30 mil
pessoas desaparecidas, milhares de mortes e 500 crianas nascidas durante o
cativeiro foram apropriadas pela ditadura militar. Mais de 30 anos depois, o
nmero de pessoas condenadas na Argentina por crimes contra humanidade
cometidos durante a ditadura chega a 262 (at setembro de 2011). H 14
julgamentos iniciados e 7 com datas de incio definidas. H 802 pessoas em
vrios processos judiciais abertos.
Esses processos geram grandes volumes de dados que so difceis de serem
processados por pesquisadores, jornalistas, organizaes de direitos humanos,
juzes, promotores e outras pessoas. Os dados so produzidos de forma dispersa
e os pesquisadores muitas vezes no tiram proveito de softwares para ajud-los

com a interpretao. No fim das contas, isto significa que, frequentemente, fatos
so ignorados e hipteses ficam limitadas. Mapa76 uma ferramenta
investigativa que d livre acesso a essas informaes para fins jornalsticos,
legais, jurdicos e histricos.
Para nos preparar para a hackatona, criamos uma plataforna que
desenvolvedores e jornalistas poderiam usar para colaborar no dia do evento.
Martin Sarsale desenvolveu alguns algoritmos bsicos que extraa dados
estruturados a partir de documentos de texto simples. Algumas bibliotecas do
projeto DocumentCloud.org tambm foram usadas, mas no muitas. A
plataforma automaticamente analisava e extraa nomes, datas e locais dos
textose permitia que os usurios explorassem fatos importantes sobre casos
diferentes (por exemplo, data de nascimento, local de priso, o suposto local do
desaparecimento, e assim por diante).
Nosso objetivo era criar uma plataforma para extrao automtica de dados dos
julgamentos da ditadura militar na Argentina. Ns queramos uma maneira
para automaticamente (ou, ao menos, semi-automaticamente) mostrar dados
importantes relacionados a casos de 1976-1983 que fossem baseados em
evidncias escritas, argumentaes e julgamentos. Os dados extrados (nomes,
lugares e datas) so coletados, armazenados e podem ser analisados e refinados
pelo pesquisador, assim como ser explorado utilizando-se mapas, linhas do
tempo e ferramentas de anlise de redes.
O projeto vai permitir que jornalistas, pesquisadores, promotores e
testemunhas sigam a histria da vida de uma pessoa, incluindo o perodo de
priso e de desaparecimento ou soltura subsequente. Onde houver ausncia de
informao, os usurios podero vasculhar um vasto nmero de documentos em
busca de dados que podero ser relevantes para o caso.
Para a hackatona, fizemos um anncio por meio do Hacks / Hackers Buenos
Aires, que, ento, tinha cerca de 200 membros (no momento em que escrevo,
so 540). Ns tambm entramos em contato com vrias associaes de direitos
humanos. A reunio teve a presena de cerca de 40 pessoas, incluindo
jornalistas, organizaes de advogados, desenvolvedores e designers.
Durante a hackatona, identificamos as tarefas que os diferentes tipos de
participantes poderiam exercer independentemente para ajudar as coisas a
funcionarem bem. Por exemplo, pedimos aos designers que trabalhassem em
uma interface que juntasse mapas e linhas do tempo, pedimos aos

desenvolvedores para analisar a possibilidades para extrair dados estruturados e


algoritmos para remover a ambiguidade de nomes, e pedimos aos jornalistas
para investigar o que aconteceu com pessoas especficas, para comparar
diferentes verses de histrias, e passar um pente fino nos documentos para
contar histrias sobre casos particulares.
Provavelmente, o principal problema que tivemos aps a hackatona foi que o
nosso projeto era muito ambicioso, nossos objetivos de curto prazo
demandavam muito trabalho, e difcil coordenar uma rede frouxa de
voluntrios. Quase todos os envolvidos com o projeto tiveram um dia intenso de
trabalho e muitos tambm participaram de outros eventos e projetos. O coletivo
Hacks/Hackers Buenos Aires fez 9 reunies em 2011.
O projeto est em constante desenvolvimento. H um time central de quatro
pessoas trabalhando com mais de uma dzia de colaboradores. Ns temos
um grupo de emails pblico e um repositrio de cdigos atravs do qual
qualquer um pode se envolver com o projeto.
Mariano Blejman, Hacks/Hackers Buenos Aires

A cobertura dos protestos violentos no Reino Unido pelo The


Guardian
No vero de 2011, o Reino Unido foi tomado por uma onda de manifestaes
violentas, depredaes e saques. Polticos sugeriram que as aes no tinham
ligao alguma com a pobreza e que aqueles que participaram dos saques eram
simplesmente criminosos. O Primeiro Ministro, com outros lderes
conservadores, culparam as mdias sociais por provocarem os quebra-quebras,
sugerindo que os saques foram organizados via Facebook, Twitter e Blackberry
Messenger (BBM). Houve pedidos para que as plataformas de mdias sociais
fossem fechadas temporariamente. Como o governo britnico no investigou
porque os quebra-quebras aconteceram, o The Guardian, em colaborao com a
Escola Londrina de Economia, construiu o projeto inovador Reading the
Riots ("Lendo os Protestos") para esclarecer essa questo.

Imagem 19. Os tumultos ingleses: todo incidente checado (The Guardian)

O jornal usou extensivamente jornalismo de dados para entender melhor quem


estava participando dos saques e o porqu. Alm disso, trabalhou em conjunto
com outro time de acadmicos, liderados pelo professor Rob Procter da
Universidade de Manchester, para entender o papel das mdias sociais, muito
usadas pelo The Guardian nas reportagens sobre os protestos. A equipe do
Reading the Riots foi liderada pelo editor de projetos especiais do The
Guardian, Paul Lewis. Durante os protestos, Paul enviou relatos da linha de

frente em cidades ao longo da Inglaterra (principalmente atravs do seu perfil


no Twitter, @paullewis). Esse segundo time trabalhou em cima de 2,6 milhes
de tutes cedidos pelo Twitter. O principal objetivo do trabalho ali foi enxergar
como os rumores circularam no Twitter, a funo que diferentes usurios/atores
tiveram em propagar e espalhar fluxos de informao, ver se a plataforma foi
usada para incitar e examinar outras formas de organizao.
Em termos do uso do jornalismo de dados e da visualizao de dados, til
separar dois perodos-chave: o das maneiras com que os dados ajudaram a
narrar as notcias enquanto os tumultos se desdobravam; e, em seguida, um
perodo de pesquisa muito mais intensa com dois grupos de pesquisadores
trabalhando com o The Guardian, para coletar dados, analis-los e escrever
profundas reportagens relatando as concluses. Os resultados da primeira fase
do projeto Reading The Riots foram publicados durante uma semana de
exaustivas reportagens, no comeo de dezembro de 2011. Abaixo h alguns
exemplos de como o jornalismo de dados foi usado nos dois perodos.
Fase um: os tumultos enquanto aconteceram

Usando mapas simples, o time de dados do The Guardian mostrou os locais de


tumultos confirmados e, ao integrar os dados de renda e pobreza localizao
dos quebra-quebras, comeou a desmontar a principal narrativa poltica de que
no havia relao entre saques e pobreza. Ambos os exemplos usaram
ferramentas de cartografia inditas e, no segundo caso, combinou dados de
localizao com outro conjunto de dados para comear estabelecer outras
conexes e relaes.
Em relao ao uso das mdias sociais durante os tumultos (no caso, o Twitter), o
jornal criou uma visualisao das hashtags relacionadas ao tumultos naquele
perodo, o que ressaltou que o Twitter foi utilizado mais para reagir aos
tumultos do que para organizar as pessoas que participariam dos saques, com a
hashtag #riotcleanup (ou #limpezadotumulto) (campanha espontnea para
limpeza das ruas aps a confuso) apresentando o pico de crescimento mais
significativo.
Fase Dois: Interpretando os protestos

Quando o jornal publicou suas concluses, aps meses de intensa pesquisa e


trabalho ntimo com os dois times de acadmicos, duas visualizaes se
destacaram e foram amplamente discutidas. A primeira, um pequeno vdeo,
mostra o resultado da combinao entre os locais conhecidos em que pessoas

participaram dos quebra-quebras e seus endereos, mostrando assim o que


chamamos de "trajeto do tumulto". Aqui o jornal trabalhou com um especialista
em cartografia de transporte, ITO World, para modelar a rota mais provvel
percorrida pelos baderneiros em direo aos locais dos saques, destacando
diferentes padres para diferentes cidades, com alguns viajando grandes
distncias.
A segunda visualizao aborda as maneiras com que os rumores se espalharam
no Twitter. No debate com a equipe de acadmicos, sete boatos foram
selecionados para anlise. Os acadmicos em seguida coletaram todo os dados
relativos a cada boato e bolaram um cdigo de cores que classificou cada tute
de acordo com quatro caractersticas: pessoas simplesmente repetindo o boato
(fazendo uma afirmao), rejeitando-o (fazendo um desmentido),
questionando-o (interrogao), ou simplesmente comentando-o (comentrio).
Todos os tutes foram triplamente codificados e os resultados foram exibidos
numa visualizao feita pelo time de Interatividade do The Guardian. A equipe
do jornaldescreveu como construiu a visualizao.
O que to admirvel nessa visualizao que ela mostra de maneira eloquente
algo muito difcil de descrever: a natureza viral dos boatos e a maneira como
seus ciclos de vida se desenvolvem ao longo do tempo. O papel da mdia
tradicional evidente em alguns desses boatos (por exemplo, desmascarando-os
completamente ou de fato confirmando-os como notcia), como tambm a
natureza retificadora do prprio Twitter ao lidar com os rumores. Essa
visualizao no apenas deu grande ajuda tarefa de contar bem essa histria,
mas tambm permitiu a compreenso real de como os rumores se comportam
no Twitter, o que oferece informao til para lidar com eventos como esses no
futuro.
O que fica claro com o ltimo exemplo a sinergia poderosa entre o jornal e um
grupo de acadmicos capazes de analisar profundamente 2,6 milhes de tutes
ligados aos quebra-quebras. Apesar dos acadmicos terem construdo
ferramentas originais para suas anlises, eles agora esto trabalhando
para torn-las disponveis para qualquer um que queira us-las, fornecendo
uma plataforma para anlise. Combinada com o passo-a-passo descrito pela
equipe do The Guardian, isso fornece um estudo de caso til de como a anlise
de mdias sociais e a visualizao podem ser usadas para narrar histrias to
importantes. Farida Vis, Universidade de Leicester

Boletins escolares de Illinois (EUA)


A cada ano, a Secretaria de Educao do Estado de Illinois (EUA) publica os
chamados "boletins escolares", dados demogrficos e de desempenho de todas
as suas escolas pblicas. um conjunto de dados expressivoa base, em 2011,
possua aproximadamente 9.500 colunas de largura. O problema quando se
trabalha com essa quantidade de dados escolher o que apresentar. (Assim
como em qualquer projeto de software, o mais complicado no construir o
software, e sim o software certo).
Trabalhamos com os reprteres e o editor da equipe de educao para escolher
os dados mais interessantes. (H muitos dados ali que parecem interessantes,
mas que um reprter te dir que, na verdade, tem falhas ou pode levar a
concluses erradas).
Tambm fizemos uma enquete e entrevistamos colegas da redao que tm
crianas em idade escolar. Isso por causa de uma lacuna na equipe de
aplicativos de notciasningum tinha filhos nessa faixa etria. Ao longo do
caminho, aprendemos muito sobre nosso pblico e tambm sobre a usabilidade
(ou a falta dela!) da verso anterior de nosso site de escolas.

Imagem 20. 2011 Boletins escolares de Illinois (Chicago Tribune)

Nosso objetivo era desenvolver um projeto para alguns usurios e tipos de uso
especficos:

Pais que querem saber como a escola de seu filho est avaliada

Pais que esto procurando um lugar para morar, uma vez que a qualidade da
escola tem peso significativo nessa deciso.

Na sua primeira verso, o site de escolas era um projeto de seis semanas e dois
desenvolvedores. Na atualizao que fizemos em 2011, passou a ser de quatro
semanas e dois desenvolvedores (na realidade, havia trs pessoas trabalhando
ativamente no projeto, mas nenhuma em tempo integralento consideremos
duas pessoas).
Uma pea-chave desse projeto era o design da informao. Embora
apresentemos uma verso reduzida dos dados, ainda assim h muitos dados, e
fazer isso tudo ficar compreensvel era um desafio. Felizmente, conseguimos
trazer para o projeto um designer especialista em apresentar informaes
complexas. Ele nos guiou a uma apresentao amigvel, mas que no subestima
a habilidade ou a disposio do leitor de entender os nmeros.
O site foi desenvolvido em Python e Django. Os dados esto hospedados em
MongoDBos dados sobre as escolas so heterogneos e hierrquicos, no
cairia bem numa base de dados relacional (seno, teramos provavelmente
usado PostgreSQL).
Experimentamos pela primeira vez o framework Twitter Bootstrap (um kit de
desenvolvimento para criar interfaces na web) nesse projeto, e ficamos
satisfeitos com os resultados. Os grficos foram desenhados com o Flot.
O aplicativo tambm abriga uma srie de reportagens que escrevemos sobre o
desempenho das escolas. Funciona como uma espcie de portal no seguinte
sentido; quando h uma nova reportagem sobre o desempenho escolar,
colocamos no topo do aplicativo, ao lado de listas de escolas relevantes para a
matria (e quando uma nova reportagem ganha repercusso, os leitores do
chicagotribune.com so redirecionados para o aplicativo, e no para a
reportagem).
Relatrios recentes mostram que os leitores adoram o aplicativo. O retorno que
recebemos foi altamente positivo (ou, ao menos, construtivo!), e o nmero de
visitas est bem alto. Para completar, esses dados ainda devem gerar interesse
por ao menos um anoapesar de esperarmos que as visitas diminuam
medida que as reportagens sobre as escolas saiam da pgina inicial, nossa
experincia passada mostra que os leitores continuam a acessar o site ao longo
do ano.

Algumas ideias-chave que aprendemos com esse projeto:

Os infografistas so seus amigos. Eles so bons em fazer informaes


complexas ficarem mais palatveis.

Pea ajuda redao. Esse foi o segundo projeto em que realizamos uma
enquete e entrevistas com a redao, e foi uma excelente maneira de
conhecer a opinio de pessoas atenciosas que, assim como seu pblico, tm
diferentes bagagens e, em geral, sentem certo desconforto com
computadores.

Mostre seu trabalho! Muitos dos retornos que tivemos foram solicitaes dos
dados que usamos na aplicao. Disponibilizamos muitos deles
publicamente via API, e em breve vamos lanar dados que no havamos
pensado em incluir inicialmente.

Brian Boyer, Chicago Tribune

Faturas de hospitais
Reprteres investigativos da CaliforniaWatch receberam informaes de que
uma grande rede de hospitais na Califrnia poderia estar burlando de forma
sistemtica o programa federal Medicare, que paga os custos de tratamentos
mdicos de americanos com 65 anos ou mais. O esquema denunciado
chamado de upcoding, que significa relatar pacientes com condies de sade
mais complicadasas quais do o direito a receber um valor de reembolso
maiordo que realmente existiam. Mas uma fonte-chave da denncia era um
sindicato que estava brigando com a gerncia da rede de hospitais, e a equipe da
CaliforniaWatch sabia que seria necessria uma verificao independente para
que a histria tivesse credibilidade.
Felizmente, o Departamento de Sade da Califrnia tem documentos pblicos
que do informaes muito detalhadas sobre cada caso tratado em todos os
hospitais do Estado. As 128 variveis incluem at 25 cdigos de diagnstico da
"Classificao Estatstica Internacional de Doenas e Problemas Relacionados
Sade" (mais conhecida como CID-9), publicada pela Organizao Mundial de
Sade (OMS). Embora os pacientes no sejam identificados pelo nome nos
registros, outras variveis dizem a idade do paciente, como os custos so pagos e
qual hospital o tratou. Os jornalistas perceberam que, com esses registros,
podiam ver se os hospitais pertencentes rede estavam mesmo relatando certas
condies raras a taxas significativamente mais altas do que as verificadas em
outros hospitais.

Imagem 22. Kwashiorkor (California Watch)

As bases de dados eram muito grandes, quase 4 milhes de registros por ano. Os
reprteres queriam estudar o equivalente a seis anos de registros, a fim de ver
como os padres mudaram ao longo do tempo. Eles pediram os dados agncia
estatal, que chegaram em CD-ROMs facilmente copiados para um computador.
O reprter encarregado da anlise de dados usou um sistema chamado SAS para
trabalhar com eles. O SAS muito poderoso (permite a anlise de muitos
milhes de registros) e usado por agncias governamentais, incluindo o
Departamento de Sade da Califrnia, mas caroo mesmo tipo de anlise
poderia ter sido feito com qualquer uma de uma variedade de outras
ferramentas de bancos de dados, como o Microsoft Access ou o opensource MySQL.
Com os dados em mos e os programas apropriados para estud-los, encontrar
padres suspeitos seria relativamente simples. Por exemplo, uma das alegaes
foi de que aquela rede estava relatando vrios graus de desnutrio em taxas
muito mais elevadas do que as taxas vistas em outros hospitais. Usando o SAS, o
analista de dados extraiu tabelas de frequncia que mostraram os nmeros de
casos de desnutrio relatados a cada ano por cada um dos mais de 300
hospitais de emergncia da Califrnia. Em seguida, as tabelas de frequncia
foram importadas para o Excel para uma inspeo mais prxima dos padres de

cada hospital. A capacidade do Excel para classificar, filtrar e calcular taxas dos
nmeros brutos fez com que os padres fossem fceis de identificar.
Foi particularmente notvel o fato de existirem relatos de uma condio
chamada Kwashiorkor, uma sndrome de deficincia de protena vista quase que
exclusivamente em crianas famintas nos pases em desenvolvimento afetados
pela falta de alimentos. Ainda assim, os hospitais da rede estavam
diagnosticando casos de Kwashiorkor entre californianos idosos em taxas at 70
vezes maiores do que a mdia de todos os hospitais do Estado.
Em outras reportagens, a anlise usou tcnicas semelhantes para examinar as
taxas informadas de condies raras como a septicemia, encefalopatia,
hipertenso maligna e doenas do sistema nervoso autnomo. E outra anlise
examinou as alegaes de que a rede estava transferindo da emergncia os para
leitos hospitalares percentuais acima do normal de pacientes do Medicare, cujo
pagamento para a assistncia hospitalar mais certo do que para a emergncia.
Resumindo, reportagens como essas se tornam possveis quando voc usa os
dados para produzir evidncias e testar de forma independente as denncias
feitas por fontes que poderiam estar enviesadas. Essas histrias tambm so um
bom exemplo da necessidade de fortes leis de acesso informao; a razo pela
qual o governo obriga hospitais a informar esses dados para que esse tipo de
anlise possa ser feita, seja por parte do governo, da academia, de
pesquisadores, jornalistas ou mesmo cidados. O tema dessas reportagens
importante porque analisa se milhes de dlares de dinheiro pblico esto
sendo gastos corretamente.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Care Home Crisis: A crise da empresas de sade em domiclio


Uma investigao do Financial Times sobre o mercado de servios de sade em
casa (home care) exps como algumas empresas tornaram o cuidado de idosos
uma mquina de lucro e destacou os custos humanos de um modelo de negcios
que favoreceu o retorno do investimento em vez de bons cuidados.
A anlise foi oportuna, pois os problemas financeiros da empresa Southern
Cross, ento a maior operadora de home care do pas, estavam chegando a um
estgio crtico. H dcadas o governo promoveu uma privatizao no setor de
cuidadores e continuou a atrair o setor privado para prticas astutas de
negcios.
Nossa investigao comeou com a anlise de dados obtidos a partir do rgo
regulador do Reino Unido responsvel por fiscalizar servios de sade em
domiclio. A informao era de utilidade pblica, mas exigiu muita persistncia
para ser obtida em uma forma utilizvel.
Os dados incluram avaliaes (agora extintas) sobre o desempenho dos servios
em domiclios e tambm se eles eram privados, estatais ou sem fins lucrativos. A
Comisso de Qualidade da Assistncia, at junho de 2010, avaliou cuidados
domiciliares em nvel de qualidade (que iam de 0 estrelas = ruim a 3 estrelas =
excelente).
O primeiro passo necessrio foi um grande tratamento de dados, pois aqueles
dados continham categorias no-uniformes. Isso foi feito usando
principalmente o Excel. Ns tambm determinamospor meio de pesquisas
secundrias ou por telefonese determinados servios domiciliares haviam
sido adquiridos por meio de grupos de private-equity. Antes da crise financeira,
o setor de home care era um m para private equity e investidores imobilirios,
mas vrios - como Southern Cross - comearam a enfrentar srias dificuldades
financeiras. Queramos estabelecer se havia algum efeito no fato de uma
empresa ser ligada a um fundo de private equity (que normalmente financia
empresas em fase de expanso de forma agressiva).
Um conjunto relativamente simples de clculos do Excel permitiu-nos
estabelecer que os cuidadores sem fins lucrativos e geridos pelo governo tinham,
em mdia, um desempenho significativamente melhor do que os do setor
privado. Alguns grupos de private-equity de home care mostravam um
desempenho acima da mdia, e outros bem abaixo da mdia.

Junto com a reportagem de campo, os estudos de casos de negligncia jogaram


um olhar mais profundo sobre falhas nas polticas de regulao, bem como
mostraram outros dados sobre os nveis de remunerao, rotatividade, etc., e
nossa anlise foi capaz de evidenciar a verdadeira situao de cuidado ao idoso.
Algumas dicas:

Certifique-se de manter suas anotaes de como manipulou os dados


originais.

Mantenha uma cpia dos dados originais e nunca mude-os.

Faa a checagem e rechecagem de seus dados. Faa a anlise muitas vezes (e


se precisar, desde o incio).

Se voc mencionar empresas particulares ou pessoas, oferea a eles a


oportunidade de resposta.

Cynthia OMurchu, Financial Times

O telefone conta tudo


A compreenso da maioria das pessoas sobre o que pode realmente ser feito
com os dados fornecidos pelos celulares terica; h poucos exemplos no
mundo real. por isso que Malte Spitz, do Partido Verde alemo, decidiu
publicar seus prprios dados. Para acessar as informaes, ele teve que abrir um
processo contra a gigante das telecomunicaes alem Deutsche Telekom. Os
dados, contidos em um gigantesco documento de Excel, foram a base para o
mapa interativo publicado no Zeit Online. Cada uma das 35.831 linhas da
planilha representa uma ocasio na qual o celular de Sptiz transferiu
informaes. O perodo de todos esses eventos foi de apenas seis meses.
Vistos individualmente, os dados so, na maioria das vezes, inofensivos. Mas se
tomados em conjunto, podem fornecer o que investigadores chamam de perfil:
uma clara imagem dos hbitos e preferncias do indivduo e, de fato, de sua
vida. Este perfil revela quando Spitz andou pelas ruas, quando pegou um trem,
quando estava em um avio. Os dados mostram que ele trabalha principalmente
em Berlim e quais cidades ele visitou. Mostra ainda quando ele acordou e
quando dormiu.

Imagem 23. O telefone conta-tudo (Zeit Online)

A base de dados da Deutsche Telekom manteve privada parte dos dados de


Spitz: para quem ele ligou e quem ligou para ele. Este tipo de informao no s

infringiria a privacidade de vrias outras pessoas, como tambm iriamesmo se


os nmeros estivessem criptografadosrevelar muito mais que o necessrio
sobre Spitz (mas agentes governamentais do mundo real teriam acesso a essa
informao).
Pedimos a Lorenz Matzat e Michael Kreil, do OpenDataCity, que explorassem os
dados e buscassem uma soluo para a apresentao visual. "Primeiramente,
usamos ferramentas como o Excel e o Fusion Tables para entender os dados; em
seguida, desenvolvemos uma interface de mapa para permitir audincia
interagir com as informaes de uma maneira no linear", disse Matzat. Para
ilustrar quantos detalhes da vida de algum podem ser obtidos por meio destes
dados armazenados, a pesquisa foi ampliada com dados pblicos sobre suas
atividades (Twitter, registro em blogs, informao sobre partido poltico, entre
outros). Este o tipo de processo que qualquer bom investigador iria
provavelmente seguir para traar o perfil de uma pessoa que estivesse sob
observao. Junto com a equipe de infogrficos do Zeit Online, o time de
pesquisa e desenvolvimento finalizou uma tima interface de navegao:
pressionando o boto "play", o usurio embarca em uma viagem pela vida de
Malte Spitz.
Aps o lanamento bem-sucedido do projeto na Alemanha, notamos que
tnhamos um trfego muito grande de acessos de fora do pas, e ento decidimos
criar uma verso em ingls do aplicativo. Depois de ganhar o Germany Grimme
Online Award, o projeto foi honrado com o Prmio da ONA (Online News
Association - Associao de Jornais Online) em setembro de 2011, sendo a
primeira vez que isso ocorria com um site de notcias alemo.
Todos os dados esto disponveis nesta planilha do Google Docs. Leia a
reportagem no Zeit Online.
Sascha Venohr, Zeit Online

Quais modelos se saem pior na inspeo veicular britnica?


Em janeiro de 2010, a BBC obteve as taxas de aprovao e reprovao da
inspeo veicular do Ministrio do Transporte para diferentes marcas e modelos
de carros. Este teste atesta se um carro seguro e se possui condies de
trafegar pelas ruas; todo carro com mais de trs anos deve passar pela
verificao anual.
Obtivemos os dados por meio da lei de acesso informao aps uma longa
batalha com a VOSA, a agncia do Departamento de Transporte britnico que
supervisiona a inspeo. A VOSA recusou nosso pedido para acesso a esses
dados sob o argumento de que violaria a confidencialidade comercial. O rgo
sustentou que isso poderia causar "danos comerciais" s fabricantes de veculos
com alta taxa de reprovao. Apelamos ao Comissrio de informao, que
determinou a abertura dos dados em nome do interesse pblico. S assim a
VOSA divulgou os dados, 18 meses aps a solicitao.
Analisamos os nmeros com foco nos modelos mais populares e comparando
carros da mesma idade. Isso apontou grandes discrepncias. Por exemplo, entre
carros de trs anos, 28% dos Renault Mgane foram reprovados, em contraste
com apenas 11% dos Toyota Corolla. Os dados foram divulgados na televiso, no
rdio e na internet.

Imagem 24. Publicao das taxas de reprovao na inspeo veicular (BBC)

Os dados nos foram entregues em um documento PDF de 1,2 mil pginas, que
tivemos que converter em uma planilha para anlise. Alm das nossas
concluses, publicamos o arquivo de Excel (com mais de 14 mil linhas de dados)
no site BBC News junto com nossa reportagem. Isso permitiu que todos
acessassem os dados em um formato mais simples.
O resultado foi que outras pessoas comearam a usar esses dados para suas
prprias anlises, as quais no tivemos tempo de fazer em funo da pressa para
publicar rapidamente a reportagem (algumas delas, na verdade, superaram
nossas capacidades tcnicas naquele momento). Isso incluiu a verificao dos
ndices de reprovao de carros com outras idades, comparando registros de
fabricantes, e a criao de bases de dados para consulta por modelos
individuais. Acrescentamos links para esses sites em nossa matria, de modo
que leitores pudessem conhecer os outros trabalhos.
Isso mostrou algumas vantagens de divulgar dados brutos para numa
reportagem baseada em dados. Pode haver excees (por exemplo, se voc
planeja usar os dados para reportagens posteriores e quer guard-los enquanto
isso), mas publicar as informaes tem vrios benefcios importantes:

Seu trabalho descobrir coisas e cont-las ao pblico. Se voc se deu o


trabalho de obter os dados, deve tambm divulg-los.

Outras pessoas podem descobrir pontos de interesse significativo que voc


no viu, ou simplesmente detalhes que sejam mais importantes para elas
ainda que no tenham relevncia para a sua reportagem.

Outros podem se basear em seu trabalho para desenvolver uma anlise mais
detalhada, ou usar tcnicas diferentes para apresentar ou visualizar os
nmeros, usando ideias ou capacidades prprias que podem investigar os
dados de outras maneiras.

parte da incorporao de responsabilidade e de transparncia ao processo


jornalstico. Outros podem entender seus mtodos e verificar seu trabalho,
se desejarem.

Martin Rosenbaum, BBC

Subsdios de nibus na Argentina


Desde 2002, os subsdios para nibus no sistema de transporte pblico da
Argentina tm crescido exponencialmente, batendo recordes a cada ano. Mas
em 2011, aps vencer as eleies, o governo federal recm-eleito anunciou corte
nos subsdios. Ao mesmo tempo, decidiu transferir a administrao de linhas de
nibus e de metr locais para a Prefeitura de Buenos Aires. Como a
transferncia dos subsdios para esse governo local no foi esclarecida e havia
falta de verbas para garantir a segurana do sistema de transporte, a prefeitura
da cidade de Buenos Aires rejeitou a deciso.
Enquanto isso acontecia, meus colegas do La Nacin e eu nos encontrvamos
pela primeira vez para discutir como comear nossa prpria operao de
jornalismo de dados. Nosso editor de Finanas sugeriu que os dados de
subsdios publicados pela Secretaria de Transporte seriam um bom desafio
inicial, pois era muito difcil tirar sentido daquilo em funo do formato e da
terminologia usados.
As condies precrias do sistema de transporte pblico atrapalham a vida de
mais de 5,8 milhes de passageiros todos os dias. Atrasos, greves, panes de
veculos ou at acidentes so frequentes. Decidimos investigar para onde vo os
subsdios do sistema pblico de transporte na Argentina e tornar esses dados
facilmente acessveis para todo cidado por meio de um "Explorador dos
Subsdios de Transporte", que est atualmente em desenvolvimento.

Imagem 25. O Explorador dos Subsdios de Transporte (La Nacin)

Comeamos calculando quanto as empresas de nibus recebem todos os meses


do governo. Para isso, analisamos os dados publicados no site do Departamento
de Transporte, onde foram publicados mais de 400 PDFs contendo relatrios
mensais de pagamento para mais de 1.300 empresas desde 2006.

Imagem 26. Ranking de empresas de transporte subsidiadas (La Nacin)

Trabalhamos com um programador snior para desenvolver um software de


extrao de dados que automatizaria o download e a converso dos arquivos
PDFs do governo em arquivos de Excel e de banco de dados. Estamos usando a
base de dados criada, com mais de 285 mil registros, para investigaes e
visualizaes, tanto no impresso quanto online. Alm disso, deixamos esses
dados disponveis em um formato interpretvel por mquinas para qualquer
argentino que quiser reus-los e compartilh-los.
O prximo passo foi identificar quanto custava em mdia a manuteno mensal
dos veculos de transporte pblico. Fomos a outro site governamental, o
da Comisin Nacional de Regulacin del Transporte (CNRT, ou Comisso
Nacional para Regulao do Transporte), responsvel por regular o transporte
na Argentina. Neste site, encontramos uma lista de empresas que detinham

juntas 9.000 veculos. Desenvolvemos um algoritmo que nos permitiu conciliar


os nomes das empresas de nibus e cruzar os dois conjuntos de dados.
Para avanar, precisvamos do nmero de registro de cada veculo. No site da
CNRT, encontramos uma lista de nibus por linha, por companhia, e com suas
respectivas placas. As placas na Argentina so compostas de letras e nmeros
que correspondem sua idade. Por exemplo, meu carro tem o nmero IDF234,
onde o "I" corresponde ao perodo Maro-Abril de 2011. Fizemos uma
engenharia reversa das placas pertencentes a todas as companhias para saber a
idade mdia da frota de cada uma. O objetivo foi mostrar quanto dinheiro vai
para cada empresa e comparar os montantes tendo como base a idade de seus
veculos.
No meio deste processo, o contedo dos PDFs divulgados pelo governo
contendo os dados que precisvamos misteriosamente mudou, apesar das URLs
e nomes dos arquivos continuarem os mesmos. Alguns PDFs agora estavam sem
a coluna "totais", o que torna impossvel cruzar os totais do perodo investigado
completo, 2002-2011.
Levamos este caso para uma hackatona organizada pelo Hack/Hackers em
Boston, onde o programador Matt Perry generosamente criou o que chamamos
de "PDF Spy" ("Espio de PDF"). Este aplicativo ganhou prmio da categoria
"Mais Intrigante" daquele evento. OPDF Spy aponta para uma pgina cheia de
PDFs e verifica se o contedo dentro dos PDFs foi alterado. "Nunca se deixe
enganar pela transparncia do governo novamente", escreve Matt Perry.

Imagem 27. Comparao da idade da frota ao montante de dinheiro que as empresas recebem do
governo (La Nacin)

Quem trabalhou no projeto?

Uma equipe de 7 jornalistas, programadores e um designer de interao


trabalhou nesta investigao por 13 meses.
As habilidades necessrias para este projeto foram:

Jornalistas com conhecimento sobre o funcionamento dos subsdios para o


sistema pblico de transporte e quais os riscos envolvidos; conhecimento
sobre o mercado de empresas de nibus.

Um programador com habilidade em extrao de dados (scraping), anlise e


normalizao de informaes, e capaz ainda de converter PDFs em planilhas
de Excel.

Um estatstico para conduzir a anlise de dados e os diferentes clculos.

Um designer para produzir visualizaes de dados interativas.

Quais ferramentas usamos?

Usamos VBasic for applications, macros de Excel, Tableau Public, e a Junar


Open Data Plataform, alm de Ruby on Rails, a API de grficos do Google, e
Mysql para o Explorador de Subsdios.
O projeto teve grande impacto. Tivemos dezenas de milhares de exibies no
site e a investigao ganhou destaque na primeira pgina da verso impressa do
La Nacin.
O sucesso desse primeiro projeto de jornalismo de dados nos ajudou
internamente a montar uma operao de dados para reportagens investigativas
e prestar servio ao pblico. Isto resultou no Data.lanacion.com.ar, uma
plataforma onde publicamos dados de vrios assuntos de interesse pblico em
formato interpretvel por mquina.
Anglica Peralta Ramos, La Nacin (Argentina)

Jornalistas de dados cidados


As grandes redaes no so as nicas que podem trabalhar em histrias
baseadas em dados. As mesmas habilidades que so teis para o jornalista de
dados tambm podem ajudar reprteres cidados a acessar informaes sobre a
regio onde vivem e transform-las em matrias.
Essa foi a principal motivao do projeto de mdia cidad Amigos de Januria,
apoiado pelaRising Voices, da Global Voices Online, e pela organizao Artigo
19. Entre setembro e outubro de 2011, um grupo de jovens moradores da cidade
de Januria, no norte de Minas Gerais, uma das regies mais pobres do Brasil,
teve aulas sobre tcnicas bsicas de jornalismo e monitoramento do oramento
pblico municipal. Eles tambm aprenderam como preencher formulrios de
pedidos de acesso informao e como acessar bases de dados oficiais na
internet.
Januria, uma cidade com cerca de 65 mil habitantes, conhecida tambm pelo
fracasso de seus polticos. Ao longo de trs mandatos municipais, teve sete
prefeitos diferentes. A maior parte foi removida do cargo devido a denncias
que apontavam m conduo da administrao municipal, incluindo
envolvimento em casos de corrupo.
Cidades pequenas como Januria no atraem a ateno da mdia, que tende a se
focar em capitais e outros municpios de maior porte. No entanto, existe espao
para que os moradores dessas localidades ajudem a monitorar a administrao
pblica, j que conhecem os problemas enfrentados pela sua comunidade
melhor do que ningum. Tendo a internet como uma importante aliada, eles
podem acessar de forma mais fcil e rpida informaes como oramento
municipal e outros dados locais.

Imagem 28. O projeto de jornalismo cidado "Amigos de Januria" ensina habilidades fundamentais
para transformar cidados em jornalistas de dados

Depois de participar de doze aulas, alguns dos reprteres cidados de Januria


comearam a acessar dados pblicos sobre a cidade e a produzir matrias.
Soraia Amorim, por exemplo, uma jornalista cidad de 22 anos, descobriu que o
nmero oficial de mdicos que constava na folha de pagamento do municpio
divergia da realidade na rea da sade que ela conhecia. Para escrever sua
matria, Soraia acessou dados de sade disponveis online no site do Sistema
nico de Sade (SUS), que mostravam que Januria deveria ter 71 mdicos, em
diversas especialidades.
No entanto, esse nmero no correspondia com o que Soraia sabia sobre a
disponibilidade desses profissionais na cidade. Os moradores estavam sempre
reclamando sobre a falta de mdicos na rede pblica e alguns precisavam viajar
para cidades vizinhas para serem atendidos. Soraia ento entrevistou uma
mulher que tinha sofrido um acidente de moto recentemente e no encontrou
assistncia no hospital de Januria, porque no havia nenhum mdico
disponvel. A reprter cidad tambm falou com a Secretaria Municipal de
Sade, que admitiu que havia menos mdicos na cidade do que o nmero da
base de dados do SUS.

Essas descobertas iniciais levantam muitas questes sobre as possveis razes


para a divergncia entre os dados e a realidade de Januria. Uma delas que os
dados do SUS esto errados, o que poderia indicar que h um problema na
qualidade das informaes de sade do Brasil. Outra que Januria estaria
informando dados errados para o SUS. Ambas as hipteses precisariam de uma
apurao mais aprofundada. No entanto, a matria de Soraia uma importante
parte dessa cadeia, j que ilumina uma inconsistncia e pode encorajar outras
pessoas na cidade a investigar mais o caso.
"Eu costumava viver na zona rural e terminei o Ensino Mdio com dificuldade",
diz Soraia. "Quando as pessoas me perguntavam o que eu queria ser, eu sempre
dizia que queria ser jornalista. Mas eu imaginava que era praticamente
impossvel devido ao mundo onde eu vivia". Depois de participar do projeto
Amigos de Januria, Soraia acredita que o acesso a dados pblicos uma
importante ferramenta para mudar a realidade da sua cidade. "Eu me sinto
capaz de ajudar a mudar minha cidade, meu pas, o mundo", conta, animada.
Alysson Montiriton, de 20 anos, outro jornalista cidado que participou do
projeto e usou dados pblicos para produzir uma matria. Na primeira aula do
projeto, quando os reprteres cidados foram para as ruas da cidade para
procurar por assuntos que poderiam se transformar em matrias, Alysson
decidiu escrever sobre um semforo quebrado. Localizado em um cruzamento
importante de Januria, ele estava quebrado desde o comeo daquele ano.
Depois de aprender como procurar dados na internet, o jovem reprter buscou o
nmero de veculos que existem em Januria e o valor pago em impostos por
quem tem carro. Na sua matria, escreveu:
"A situao em Januria fica pior por causa ao grande nmero de veculos na
cidade. De acordo com o IBGE, Januria tinha 13.771 veculos (entre os quais
7.979 eram motos) em 2010. () Os moradores da cidade acreditam que o
atraso em arrumar o semforo no resultado da falta de recursos. De acordo
com a Secretaria do Tesouro de Minas Gerais, a cidade recebeu R$ 470 mil em
taxas de veculos em 2010."
Ao ter acesso aos dados, Alysson pde mostrar que Januria tinha muitos
veculos (quase um para cada cinco habitantes) e que um semforo quebrado
em um cruzamento movimentado poderia colocar muitas pessoas em perigo.
Alm disso, ele pode revelar o volume de recursos recebidos pela cidade em
pagamento de impostos pelos proprietrios de automveis e, baseado nessa

informao, questionar se o dinheiro no seria suficiente para consertar o


semforo, oferecendo mais segurana para motoristas e pedestres.
Apesar das histrias escritas por Soraia e Alysson serem muito simples, elas
mostram que os dados tambm podem ser usados por reprteres cidados. No
preciso estar em uma grande redao e ser cercado de especialistas para usar
dados em matrias jornalsticas. Depois de apenas doze aulas, Soraia e Alysson,
nenhum deles com treinamento anterior em jornalismo, puderam trabalhar em
matrias baseadas em dados e escrever textos interessantes sobre a realidade
local de Januria. Alm disso, as duas matrias mostram que os dados podem
ser teis inclusive em pequena escala. Mostram que tambm existem
informaes valiosas em pequenas bases de dados, no apenas nas gigantescas.
Amanda Rossi, Amigos de Januria

O Grande Quadro com o Resultado das Eleies


Resultados de eleies so excelentes oportunidades, para qualquer veculo de
imprensa, de se contar histrias de forma visual. Por muitos anos deixamos
passar essa oportunidade, mas, em 2008, decidimos mudar isso junto com a
editoria de infografia.
Queramos mostrar os resultados de maneira a contar uma histria, mas sem
que parecesse apenas um amontoado de nmeros em uma tabela ou em um
mapa. Nas eleies anteriores, foi exatamente o que fizemos.
No que haja algo errado com um grande apanhado de nmeros, ou o que
chamo de "estilo CNN" de tabelas, tabelas e mais tabelas. Isso funciona porque
d ao leitor exatamente aquilo que ele quer saber: quem ganhou.
E o perigo de estragar algo que no est propriamente errado significativo. Ao
criarmos algo radicalmente diferente e nos afastarmos do que as pessoas
normalmente esperam, poderamos tornar as coisas mais confusas, ao invs de
simplificar.
No fim, Shan Carter, da editoria de infografia, trouxe a resposta exata, o que
acabamos por chamar de "o grande quadro''. Quando vi os primeiros esboos,
foi um desses momentos de literalmente se levar as mos cabea.
Era exatamente o que precisvamos.

Imagem 29. O grande quadro com os resultados das eleies (New York Times)

O que faz disso uma bela pea de jornalismo visual? Para comear, os olhos do
leitor so logo atrados para a grande barra que mostra no alto os votos do
colgio eleitoral, o que podemos chamar no contexto jornalstico de lide. Conta
exatamente o que o leitor quer saber, e o faz rapidamente, com simplicidade e
sem nenhum rudo visual.
Em seguida, o leitor conduzido ao agrupamento dos estados americanos em
cinco colunas diferentes, divididos de acordo com a avaliao do New York
Times de quo inclinado um estado estava por um ou por outro candidato. E
justamente na coluna central vem o que chamaramos no jargo jornalstico
de olho grfico, onde explicamos por que Obama ganhou. A pea interativa
torna o fato cristalino: Obama venceu em todos os estados onde sua vitria era
esperada e em quatro dos estados indecisos.
Para mim, essa arquitetura com cinco colunas um exemplo de como o
jornalismo visual difere de outras formas de design. Idealmente, uma pea
memorvel de jornalismo visual ser ao mesmo tempo bela e informativa. Mas
ao optar entre a notcia ou a esttica, o jornalismo deve pender para o lado da
histria. E enquanto esse layout pode no ser aquele que um designer purista
escolheria para apresentar esses dados, ele entrega a notcia muito, muito bem.
E, por fim, como qualquer ferramenta interativa na web, ela convida o leitor a
aprofundar a leitura. H detalhes como porcentagens de votao em cada estado
e o nmero de votos no colgio eleitoral, enquanto as porcentagens so
deliberadamente exibidas com menos destaque, para no competir com os
pontos principais da histria.
Tudo isso faz do "grande quadro'' um bela pea de jornalismo visual que
delineia com perfeio a velha e boa pirmide invertida.
Aron Pilhofer, New York Times

Apurando o preo da gua via crowdsourcing


Desde maro de 2011, informaes sobre a tarifa da gua em toda a Frana so
reunidas por meio de uma experincia de crowdsourcing. Em apenas 4 meses,
mais de 5 mil pessoas indignadas com o controle corporativo do mercado de
recursos hdricos tomaram o tempo de verificar sua conta de gua, digitaliz-la e
envi-la ao projeto Prix de lEau (Preo da gua). O resultado uma
investigao sem precedentes que congregou geeks, ONGs e a mdia tradicional
para ampliar a transparncia sobre o abastecimento de gua.

Imagem 21. O Preo da gua (Fondation France Libert)

O mercado de abastecimento de gua francs formado por 10 mil clientes


(cidades que compram gua para distribuir aos contribuintes) e um punhado de
companhias prestadoras do servio. O equilbrio de foras neste oligoplio
distorcido em favor das corporaes, que algumas vezes cobram preos
diferentes de cidades vizinhas!
A ONG francesa France Liberts tem lidado com questes relacionadas aos
recursos hdricos no mundo inteiro nos ltimos 25 anos. Agora, a entidade se
foca em aprimorar a transparncia do mercado francs e em colaborar com
cidados e prefeitos, que negociam os acordos de abastecimento. O governo
francs decidiu enfrentar o problema dois anos atrs, com um censo nacional do
preo e qualidade da gua. At agora, apenas 3% dos dados necessrios foram
coletados. Para acelerar o processo, France Liberts resolveu envolver
diretamente os cidados.

Em conjunto com a equipe OWNI, eu desenvolvi uma interface de


crowdsourcing na qual os usurios podem incluir cpias digitalizadas de suas
contas de gua e inserir o preo pago no website prixdeleau.fr. Nos ltimos
quatro meses, 8,5 mil pessoas se inscreveram e mais de 5 mil contas foram
enviadas e validadas.
Embora os resultados no permitam uma anlise perfeita da situao do
mercado, eles mostraram a partes interessadas, como as agncias de superviso
de recursos hdricos, que havia uma preocupao popular genuna com o preo
da gua. Num primeiro momento, eles estavam cticos quanto questo da
transparncia, mas, ao longo da operao, foram se juntando France Liberts
em sua luta contra a obscuridade e as ms prticas comerciais. O que a
imprensa pode aprender com isso?
Parcerias com ONGs

As ONGs demandam grandes volumes de dados para o desenvolvimento


de estudos que subsidiem suas polticas. Essas entidades muitas vezes
esto mais dispostas financiar uma coleta de dados do que um executivo
da rea de jornalismo.
Usurios podem oferecer dados brutos

O crowdsourcing funciona melhor quando os usurios realizam tarefas de


coleta ou limpeza de dados.
Pea a fonte

Ns refletimos sobre a necessidade de pedir aos usurios uma cpia da


conta original, pensando que isso poderia afastar alguns deles
(especialmente porque nossa audincia era mais idosa do que a mdia).
Ainda que pedir a conta original possa ter feito com que alguns
desistissem, os dados ganharam mais credibilidade.
Crie um mecanismo de validao

Ns criamos um sistema de pontuao e um mecanismo de reviso por


pares para verificar as contribuies. Isso se mostrou complicado demais
para os usurios, que tinham poucos incentivos para realizar visitas
frequentes ao website. O sistema, todavia, foi usado pela equipe da
France Liberts, da qual cerca de 10 funcionrios se motivaram a
trabalhar com o sistema de pontos.
Seja simples

Ns construmos um mecanismo de envio automtico de mensagens,


para que os usurios pudessem solicitar dados sobre o preo da gua pela
Lei de Acesso Informao com alguns poucos cliques. Apesar de
inovadora e bem planejada, essa funcionalidade no gerou um grande
retorno (apenas 100 requisies foram enviadas).
Mire na sua audincia

A France Liberts se associou revista especializada em direito do


consumidor 60 Millions de Consommateurs, que incentivou muito sua
comunidade a se envolver. Foi o par perfeito para uma operao como
essa.
Escolha com cuidado seus indicadores de sucesso

O projeto angariou apenas 45 mil visitantes em quatro meses, o


equivalente a 15 minutos de trfego no nytimes.com. O que realmente
importa que um em cada cinco se inscreveram e um em cada dez se
deram o trabalho de digitalizar e enviar sua conta de gua.
Nicolas Kayser-Bril, Journalism++

Coletando dados

Ento voc est pronto para comear o seu primeiro projeto de jornalismo de
dados. E agora? Primeiro voc precisa de alguns dados. Esta seo mostra onde
encontr-los na web, como solicit-los usando as leis de acesso informao,
como usar a tcnica de scraping para extrai-los de fontes no estruturadas e
como usar crowdsourcing para montar suas prprias bases de dados com a
ajuda dos leitores. Por fim, falaremos sobre o que a lei diz a respeito da
reproduo de bases de dados de terceiros e como usar ferramentas simples
para permitir que outros republiquem as informaes.

O que h neste captulo?

Guia rpido para o trabalho de campo

Seu Direito aos Dados

Lei de Acesso Informao no Brasil: Um longo caminho a percorrer

Pedidos de informao funcionam. Vamos us-los!

Ultrapassando Obstculos para obter Informao

A Web como uma Fonte de dados

O Crowdsourcing no Guardian Datablog

Como o Datablog usou crowdsourcing para cobrir a compra de ingressos na


Olimpada

Usando e compartilhando dados: a letra da lei, a letra mida e a realidade

Guia rpido para o trabalho de campo


Procurando dados sobre um assunto ou rea em particular? No tem certeza se
existem ou onde encontr-los? No sabe por onde comear? Nesta seo vamos
ver como iniciar a busca por dados pblicos em fontes da web.
Tornando sua busca mais eficiente

Apesar de nem sempre serem fceis de serem achadas, muitas bases de dados
na web so indexadas por mecanismos de busca, intencionalmente ou no.
Algumas dicas:

Quando estiver buscando dados, no esquea de incluir tanto termos de


busca relativos ao contedo quanto ao formato ou fonte onde espera
encontr-los. O Google e outros buscadores permitem pesquisar por formato
de arquivo. possvel buscar, por exemplo, apenas planilhas (inserindo
"filetype:XLS filetype:CSV"), dados geocodificados ("filetype:shp"), ou
bancos de dados ("filetype:MDB, filetype:SQL, filetype:DB"). Voc pode at
mesmo procurar por arquivos PDF ("filetype:pdf").

Tambm possvel pesquisar pela parte de uma URL. Ao inserir


"inurl:downloads filetype:xls", o Google tentar buscar todos os arquivos
Excel que tm "downloads'' em seu endereo (se encontrar um download,
vale a pena checar por outros resultados na mesma pasta daquele servidor).
Tambm possvel limitar a busca a resultados em apenas um domnio,
colocando "site:agency.gov", por exemplo.

Outra dica no buscar o contedo diretamente, mas sim os lugares em que


podem estar disponveis dados em massa. Por exemplo, "site:agency.gov
Directory Listing" pode retornar vrias listas geradas automaticamente pelo
servidor com acesso fcil aos dados brutos, enquanto "site:agency.gov
Database Download" buscar apenas aquelas listas criadas intencionalmente
para serem encontradas.

Indo direto fonte

A primeira dica ao buscar dados de instituies pblicas tentar ir direto a


quem detm os dados. Claro que se pode tambm fazer uma solicitao usando
a lei de acesso informao, mas o processo demora. provvel que voc
receba uma resposta de que os dados no esto no formato que voc pediu, ou

que o rgo pblico usa um software proprietrio que no permite a extrao


dos dados no formato solicitado. Mas, se consigo chegar pessoa que cuida dos
dados naquela instituio, posso question-la sobre as informaes que ela tm
e em que formato. Posso descobrir antes o que preciso fazer para solicitar as
informaes e ser bem sucedido. Os obstculos dessa abordagem?
Frequentemente, difcil chegar a essas pessoas, pois os assessores de imprensa
vo querer tomar a frente nesse contato. Nesses casos, o melhor tentar marcar
uma ligao em conferncia ou, at melhor, um encontro cara a cara entre o
assessor, o guru dos dados e voc. D pra fazer isso de forma que seja difcil
para eles dizer no. Diga que no quer dar mais trabalho a eles. Algo como "no
quero criar um transtorno ou enviar um pedido muito abrangente, e uma
reunio me ajudaria a entender qual a melhor forma de conseguir o que
preciso."
Se esse mtodo no funcionar, a alternativa perguntar primeiro que layout de
informaes (record layout) e dicionrio de dados (documento que mostra uma
espcie de ndice de dados) eles usam para, s ento, fazer o pedido. Algumas
vezes tambm pergunto como eles armazenam os dados e em qual sistema.
Dessa forma, posso pesquisar de que maneira as informaes podem ser
exportadas antes de fazer a solicitao.
Para encerrar, minha histria de maior sucesso aconteceu quanto trabalhava
para um pequeno jornal em Montana. Precisava de dados sobre o condado local
e fui informado que eles no poderiam ser exportados do servidor. Pesquisei um
pouco, e me ofereci para ir at l e ajudar. Trabalhei diretamente com o
responsvel pelos dados, escrevemos um pequeno script, e gravamos as
informaes em um disquete (isso foi h bastante tempo). Eu tinha meus dados
e o condado est agora apto a fornec-los a quem solicite. Eles tambm
precisavam extrair os dados de vez em quando para uso prprio mas no
entendiam completamente o sistema, ento foi bom para ambos.
Cheryl Philips, The Seattle Times
Navegando em sites e servios de dados

Nos ltimos anos, vrios portais, hubs e outros sites especificamente dedicados
a dados apareceram na web. So bons locais para se familiarizar com os
diferentes formatos que existem por a. Se voc principiante, deve dar uma
olhada em:

Imagem 1. datacatalogs.org (Open Knowledge Foundation)

Portais de dados pblicos oficiais

A disposio do governo em divulgar bases de dados varia de pas para


pas. Um volume crescente de pases est lanando portais de dados
(inspirados no norte-americano data.gov e no britnico data.gov.uk) para
promover o uso comercial e cvico das informaes. Um ndice global
atualizado desses portais pode ser encontrado emdatacatalogs.org.
The Data Hub

Site coletivo administrado pela Open Knowledge Foundation que torna


mais fcil procurar, compartilhar e reutilizar fontes abertas,
especialmente de maneiras automatizadas.
ScraperWiki

Ferramenta online para "facilitar a extrao de pedaos teis de dados,


de maneira que possam ser reutilizados por outros aplicativos, ou
vasculhados por jornalistas e pesquisadores". A maioria dos "scrapers"
(cdigos para extrair dados especficos de um site) e suas bases de dados
so pblicos e podem ser reutilizados.
Portais de dados do Banco Mundial e das Naes Unidas

Fornecem indicadores confiveis de todos os pases, frequentemente com


histrico de vrios anos.
Infochimps e DataMarket

Startups com comunidades em torno do compartilhamento e venda de


dados.
Freebase

Iniciativa ligada ao Google que fornece "uma base de dados com


curadoria coletiva de pessoas, lugares e coisas."
Dados de pesquisas

Existem vrios agregadores nacionais e temticos de dados de pesquisas,


como o UK Data Archive. Muitas bases tm acesso gratuito, mas outras
exigem assinatura, ou no podem ser reutilizadas ou redistribudas sem
permisso.
Acessando dados de arquivos impressos

Logo aps a divulgao pelo Wikileaks dos documentos das foras


armadas dos Estados Unidos sobre as guerras do Afeganisto e Iraque,
decidimos usar esse conceito para celebrar o 50 aniversrio da Guerra
da Arglia publicando o Algerian War Diaries. Digitalizamos os
documentos do exrcito francs na Arglia, que esto disponveis no
arquivo do Ministrio da Guerra em Paris, mas em papel. Enviamos
jornalistas e estudantes para fotografar os papeis. Tentamos escanear
usando um scanner porttil Canon P-150, mas no funcionou porque
os arquivos estavam grampeados.
No fim das contas, reunimos cerca de 10.000 pginas em poucas
semanas. Rodamos um software de reconhecimento de texto (ABBYY
FineReader), mas o resultado foi ruim. Alm disso, o ministro negou
arbitrariamente acesso aos documentos mais interessantes e proibiu a
republicao de arquivos que podiam ser fotografados livremente no
local, ento decidimos que no valia o risco e suspendemos o projeto.
Nicolas Kayser-Bril, Journalism++
Pergunte a um frum

Pesquise respostas j publicadas ou faa uma pergunta em Get The


Data ou Quora. GetTheData um forum de perguntas e respostas em
que voc pode levantar questes como onde encontrar dados sobre um
determinado tema, como consultar e obter uma fonte especfica, que
ferramentas de visualizao usar, como limpar os dados, ou como
consegui-los em um formato que d para trabalhar.

Pergunte a uma lista de e-mail

Listas de e-mail combinam a sabedoria de toda uma comunidade sobre


um determinado tpico. Para jornalistas de dados, as listas DataDriven Journalism e NICAR-L so excelentes pontos de partida. Ambas
esto cheias de geeks envolvidos em Reportagens com Auxlio de
Computador (RAC). provvel que algum j tenha trabalhado em
uma reportagem como a sua, e tenha uma ideia de por onde comear,
ou at mesmo os dados que est procurando. Voc tambm pode tentar
o Projeto Wombat, "uma lista de discusso para perguntas de
referncia difceis'', pesquisar as vrias listas da Open Knowledge
Foundation, no theInfo, ou fazer buscas pelo tpico que est
interessado.
Entre para o Hacks/Hackers

Hacks/Hackers uma organizao internacional de cunho popular em


franca expanso com dezenas de ramificaes e milhares de membros.
Sua misso criar uma rede de jornalistas ("hacks") e aficionados por
tecnologia ("hackers") que repensam o futuro da mdia e da
informao. Com uma rede to ampla, voc tem grandes chances de
encontrar algum que saiba onde procurar a informao que voc est
correndo atrs.
Pergunte a um especialista

Professores, funcionrios pblicos, e pessoal da indstria normalmente


sabem onde procurar. Ligue para eles. Mande um e-mail. Aborde-os
em eventos. Aparea em seus escritrios. Pea com jeito. "Estou
fazendo uma reportagem sobre X. Onde posso encontr-lo? Sabe quem
pode ter essa informao?''
Estude a Tecnologia da Informao usada pelo governo

bom entender o contexto tecnolgico e administrativo em que so


mantidas as informaes governamentais quando se est buscando
alguma base de dados. Seja CORDIS, COINS ou THOMAS, os sistemas
se tornam mais teis na medida em que voc entende um pouco o
propsito para o qual foram criados.
Encontre os fluxogramas das organizaes e procure por
orgos/unidades que tenham funo interdepartamental (por exemplo:

Servios de TI, comunicao), e explore seus sites. Muitos dados so


armazenados ao mesmo tempo por vrios departamentos e, enquanto
uns os tratam como jias da coroa, outros podem liber-los
tranquilamente.
Procure por infogrficos dinmicos nos sites governamentais.
Frequentemente, funcionam a partir de bases de dados
estruturadas/APIs que podem ser usadas de outras maneiras (por
exemplo, tabelas de vo, aplicativos de Java com a previso do tempo).
Varrendo dados telefnicos

H alguns meses, quis analisar os dados de ligaes telefnicas do


governador do Texas Rick Perry, ento candidato presidncia. Era o
resultado de uma longa espera aps um pedido pelos registros. Os
dados chegaram em 120 pginas impressas com a qualidade de um fax.
Era uma empreitada que exigia a tabulao e a limpeza dos dados,
seguida do cruzamento com o API das White Pages (equivalente norteamericano das Pginas Amarelas) para fazer uma busca a partir dos
nmeros de telefone.
Combinando os nomes com os dados eleitorais federais e estaduais,
descobrimos que Perry ligou para doadores de campanha
usando telefones do governo, uma prtica mal vista que levantou
dvidas sobre suas ligaes com um comit de arrecadao
independente.
Jack Gillum, Associated Press
Procure de novo

Quando estiver mais informado sobre o assunto, procure novamente


usando frases e combinaes improvveis de palavras que voc tenha
encontrado desde a ltima busca. Voc pode ter um pouco mais de
sorte com os mecanismos de busca!
Faa um pedido pela Lei de Acesso Informao

Se voc acredita que um rgo governamental tem as informaes que


precisa, um pedido usando a Lei de Acesso Informao pode ser a
melhor ferramenta. Na prxima seo, voc saber como fazer para dar
entrada em uma solicitao.

Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich


Lindenberg (Open Knowledge Foundation), Jane Park (Creative
Commons), Chrys Wu (Hacks/Hackers)
Quando falha a lei

Depois de ler um artigo acadmico explicando que a a publicao dos


resultados de inspees sanitrias em restaurantes reduziu o nmero
de doenas relacionadas comida em Los Angeles, pedi vigilncia
sanitria parisiense a lista de inspees. Seguindo o procedimento da
Lei de Acesso informao francesa, aguardei 30 dias por uma
resposta negativa, e ento recorri comisso de acesso aos dados
pblicos (CADA, em francs), que legisla sobre a legitimidade dos
pedidos feitos por meio da lei. A CADA aceitou meu pedido e ordenou
que liberassem os dados. Responderam pedindo mais dois meses de
prazo e a CADA aceitou. Dois meses depois, nada foi feito.
Tentei conseguir o apoio de conhecidos (e ricos) defensores da abertura
de dados pblicos para recorrer Justia (o que custaria 5.000 euros e
era vitria certa com o apoio da CADA), mas eles ficaram com medo de
comprometer suas relaes com os programas oficiais de open data.
Esse apenas um exemplo, entre vrios, de descaso do governo francs
pela lei e em que programas oficiais no fazem nada para ajudar
iniciativas populares de acesso aos dados.
Nicolas Kayser-Bril, Journalism++

Seu Direito aos Dados


Antes de fazer uma solicitao por Lei de Acesso informao, voc deve checar
para ver se os dados que est procurando j esto disponveisou se j foram
solicitados por outras pessoas. O captulo anterior traz algumas sugestes sobre
onde voc pode procurar. Se isso no adiantou, veja algumas dicas que podem
ser teis para fazer a solicitao de maneira mais eficiente:
Planeje com antecedncia para economizar tempo

Considere fazer uma solicitao formal sempre que precisar procurar


informaes. melhor no esperar esgotar todas as outras
possibilidades. Voc vai economizar tempo se fizer a solicitao no incio
de sua pesquisa e se mantiver outras maneiras de investigao em
paralelo. Conte com atrasos: s vezes, rgos pblicos demoram para
processar as solicitaes.
Verifique as regras sobre taxas

Antes de dar incio ao pedido formal, verifique as se h tarifas cobradas


para pedir ou receber informaes. Dessa forma, se um funcionrio
pblico solicitar dinheiro, voc saber quais so os seus direitos. Lembrese de dizer em sua solicitao que voc prefere que a informao seja
enviada em arquivos eletrnicos para evitar custos de cpia e envio.
Saiba os seus direitos

Descubra quais so os seus direitos antes de comear, assim voc saber


o que as autoridades pblicas esto ou no obrigadas a fazer. Por
exemplo, grande parte das leis de acesso informao delimita um tempo
para que as autoridades respondam a pedidos. Ao redor do mundo, a
mdia estabelecida pela maioria das leis de alguns dias a at um ms.
Tenha certeza qual o caso antes de realizar a solicitao e anote a data
quando voc realiz-la.
Os governos no so obrigados a processar dados para voc, mas deveriam
prover todas as informaes que possuem. Se forem dados que eles
precisam ter para realizar suas competncias legais, certamente deveriam
fornec-las a voc.
Diga que voc conhece os seus direitos

Geralmente, a legislao no requisita que voc mencione a lei de acesso


informao ou a lei de liberdade de informao, mas mencionar

recomendado porque demonstra que voc tem conhecimento dos seus


direitos legais e provavelmente vai incentivar que seu requerimento seja
atendido conforme a lei. Para solicitaes Unio Europeia, o melhor
mencionar especificamente a Regulamentao 1049/2001.
Seja simples

Em todos os pases, melhor comear com uma simples solicitao de


informao e, assim que voc conseguir o dado inicial, adicionar mais
perguntas. Dessa maneira, voc no corre o risco da instituio pblica
solicitar mais prazo alegando ser um "pedido complexo".
Mantenha o foco

Um pedido a um departamento da autoridade pblica provavelmente


ser respondido mais rapidamente do que um que necessite de uma
pesquisa por toda a instituio. Uma solicitao que envolva a consulta
da instituio a terceiros (por exemplo, uma empresa privada que possa
saber a resposta, ou outro governo que seja, de certa forma, afetado pela
informao) pode demorar muito tempo. Seja persistente.
Pense dentro dos arquivos

Tente descobrir quais dados esto organizados. Por exemplo, se voc


conseguir uma cpia em branco do formulrio que a polcia preenche
aps acidentes de trnsito, saber quais informaes eles mantm ou no
sobre acidentes de carro.
Seja especfico

Antes de enviar a sua solicitao, reflita: ela est de alguma forma


ambgua? Isso particularmente importante se voc est pensando em
comparar dados de diferentes rgos pblicos. Por exemplo, se voc
pedir informaes sobre "os trs ltimos anos", alguns rgos vo enviar
informaes dos trs ltimos anos do calendrio e, outros, dados dos trs
ltimos anos fiscais, o que vai tornar impossvel uma comparao direta.
Se voc decidir ocultar a sua solicitao real em uma mais genrica, deve
fazer seu pedido de maneira mais ampla, para que inclua a informao
que voc quer, mas no to vasta que a torne obscura ou que desencoraje
a resposta. Pedidos claros e especficos tendem a conseguir respostas
mais rpidas e melhores.
Envie vrios pedidos

Se voc no tem certeza para qual rgo direcionar seu pedido, no h


nada que o impea de fazer solicitaes a dois, trs ou mais rgos ao
mesmo tempo. Em alguns casos, cada um deles dar uma resposta
diferente, o que pode, na verdade, ser til ao fornecer uma ideia mais
completa das informaes disponveis do assunto que voc est
apurando.
Faa solicitaes internacionais

Cada vez mais, as solicitaes podem ser feitas de maneira eletrnica,


no importa onde voc mora. Se voc no vive no pas onde quer fazer a
solicitao, uma alternativa enviar o pedido para a embaixada, que vai
encaminh-lo ao rgo pblico competente para respond-lo. Primeiro,
voc precisar verificar com a embaixada se ela realiza esse tipo de
aotalvez a equipe no ter sido treinada sobre as questes de direito
informao e, se for o caso, mais seguro enviar o pedido diretamente
para o rgo pblico.
Faa um teste

Se voc est pensando em enviar o mesmo pedido para vrias


autoridades pblicas, comece enviando um rascunho do pedido para
algumas delas como um exerccio piloto. Isso vai demonstrar se voc est
utilizando a terminologia correta para obter o material que deseja e se
obter respostas para as suas perguntas algo possvel. Ento, caso seja
necessrio, voc pode revisar o pedido antes de envi-lo a outros rgos.
Antecipe as excees

Se voc acha que podem haver excees para o pedido que est fazendo,
quando estiver preparando as perguntas, separe a questo possivelmente
problemtica das demais e envie dois pedidos separadamente. Assim,
voc evita que as outras questes no deixem de ser respondidas por
conta de uma exceo.
Solicite acesso aos arquivos

Se voc vive prximo de onde a informao est guardada (por exemplo,


na capital onde os documentos so armazenados), tambm pode solicitar
checar os documentos originais. Isso pode ser til quando estiver
pesquisando informaes contidas em um grande nmero de
documentos que voc gostaria de dar uma olhada. Esse tipo de consulta

deve ser gratuita e deve ser agendada em um horrio razovel e


conveniente a voc.
Mantenha uma cpia!

Faa a sua solicitao por escrito e mantenha uma cpia para que voc
possa, no futuro, comprovar que seu pedido foi enviado, caso precise
apelar devido a uma ausncia de resposta. Isso tambm fornecer provas
de que voc fez a solicitao, caso voc pretenda escrever uma
reportagem a respeito do processo.
Torne pblico

Acelere o recebimento de respostas tornando pblico que voc realizou


uma solicitao: escrever ou divulgar uma reportagem contando que a
solicitao foi enviada pode colocar alguma presso na instituio pblica
para processar e responder o pedido. Voc pode atualizar as informaes
assim que conseguir respostasou, se o seu deadline expirar e no
houver respostas, voc tambm pode fazer do descaso uma matroa. Agir
dessa maneira tem o benefcio extra de ensinar aos funcionrios pblicos
sobre o direito de acesso informao e como funciona na prtica.
H tambm diversos excelentes servios que voc pode
utilizar para realizar a sua solicitao e qualquer pedido
posterior, disponveis para consulta pblica na internet, tais
como What Do They Know? para rgos do Reino
Unido, Frag den Staat para rgos alemes, e Ask the
EU para instituies da Unio Europeia. O
projeto Alaveteli est ajudando a prover servios
semelhantes para dezenas de pases ao redor do mundo.

Imagem 2. What Do They Know? (My Society)

Envolva colegas

Se os seus colegas so cticos em relao a pedidos de acesso


informao, uma das melhores maneiras de convenc-los escrever uma
reportagem baseada em dados que voc conseguiu utilizando a lei.
Mencionar que fez uso da lei numa transmisso de rdio ou TV tambm
recomendado para a conscincia do pblico em relao aos seus direitos.
Solicite por dados brutos

Se voc quer analisar, explorar ou mexer nos dados usando um


computador, deve pedir claramente por dados em um formato eletrnico
e que possam ser tabulados. Voc deve deixar especificar, por exemplo,
que est pedindo informaes oramentrias em um formato "compatvel
para anlise por um programa de contabilidade". Voc tambm deve, de
maneira clara, solicitar por informao em formato desagregado ou
granular. Voc pode ler mais a respeito neste relatrio.
Organizaes isentas das leis de acesso informao

Voc deve se informar sobre ONGs, empresas privadas, organizaes


religiosas e/ou outras instituies no obrigadas a divulgar documentos
sob as leis de acesso informao. No entanto, possvel encontrar
dados sobre elas pedindo a rgos pblicos cobertos pelas leis. Por
exemplo, voc pode solicitar a um ministrio se eles financiaram ou
lidaram com uma empresa privada ou ONG especficas e pedir
documentos. Se precisar de ajuda extra para solicitaes baseadas nas
leis de acesso, voc pode tambm consultar o Kit de ferramentas de
vazamentos legais para jornalistas.
Helen Darbishire (Access Info Europe), Djordje
Padejski (Knight Journalism Fellow, Stanford
University), Martin Rosenbaum (BBC), e Fabrizio
Scrollini (London School of Economics and Political
Science)
Usando a Lei de Acesso Informao para Entender Gastos

J usei a lei de maneiras diferentes para ajudar a cobrir a


COINS, a maior base de dados do Governo do Reino
Unido para gastos, oramentos e informaes
financeiras. No incio de 2010, George Osborne afirmava
que, caso ele se tornasse um chanceler, iria divulgar a
base de dados COINS para promover maior
transparncia no Tesouro. Na poca, me pareceu uma
boa ideia investigar os dados e a estrutura da COINS,
ento enviei alguns pedidos baseados na Lei de Acesso
informao; um requisitando o esquema do banco de
dados, um pedindo as instrues que os funcionrios do
Tesouro recebem quando vo trabalhar no COINS, e um
pelo contrato do Tesouro com o provedor da base de
dados. Todos eles resultaram na publicao de
informaes teis. Tambm solicitei todos os cdigos de
despesas presentes na base de dados, que tambm foram
publicados. Tudo isso ajudou a entender a COINS
quando George Osborne efetivamente se tornou
chanceler em maio de 2010, e publicou a base de dados
em junho. Os dados da COINS foram usados em diversos
sites incentivando o pblico a investig-los

incluindo OpenSpending.org e o site do The


Guardian Coins Data Explorer.
Aps a realizao de mais investigaes, parecia que uma
grande parte do banco de dados no estava sendo
divulgada: a Whole of Government Accounts (WGA, ou
Contabilidade Total do Governo), que inclua 1.500 tipos
de contas relacionadas a rgos financiados com verba
pblica. Utilizei a lei de acesso para solicitar os dados do
WGA de 2008 e 2009, mas sem sucesso. Solicitei o
relatrio feito pelo escritrio de auditoria do WGA - que
eu esperava que fosse explicar os motivos pelos quais o
WGA no estava em condies de ser divulgado. Isso
tambm foi recusado.
Em dezembro de 2011, a WGA foi divulgada nos dados
COINS. No entanto, eu queria ter certeza que havia
elementos suficientes para ver todo o conjunto de contas
para cada um dos 1.500 rgos includos no WGA. O que
me levou segunda maneira de utilizar a lei: garantir que
os dados divulgados sob a agenda de transparncia do
Reino Unido estavam bem explicados e informavam o
que deveriam. Enviei uma solicitao baseada na lei
pedindo o grupo inteiro de contas para todos os rgos
pblicos includos no WGA.
Lisa Evans, the Guardian

Lei de Acesso Informao no Brasil: Um longo caminho a


percorrer
Como se sabe, a Constituio brasileira garante o direito de se requisitar
informao do Estado no artigo 5, inciso XXXIII e, tambm, o dever de os
agentes pblicos darem publicidade a seus atos (art. 37, caput). Nunca foi
unnime a opinio de que se precisaria regulamentar esses dispositivos por
meio de uma legislao especfica. Com efeito, uma vez que a Constituio
garante deveres e direitos, no deveria haver necessidade de elaborar
ulteriormente a questo alm de criar outros problemas. Foi a constatao da
ineficcia dos preceitos constitucionais na vida prtica das relaes entre o
Estado e a sociedade que levou alguns dos cticos iniciais a mudarem de lado.
O principal problema trazido pela regulamentao efetuada pela lei n
12.527/2011 foi ter levado a figura da informao sigilosa s trs esferas e trs
poderes. Antes da lei, a noo jurdica do sigilo s existia para informaes
detidas pela administrao pblica federal. Depois da lei, qualquer estado,
municpio, Tribunal de Contas, ente legislativo e assim por diante passou a
gozar da prerrogativa de definir sempre arbitrariamente que tais ou quais
tipos de informaes seriam sigilosas. Por exemplo, o Tribunal de Contas da
Unio estabeleceu que informaes sobre gastos incorridos pelos gabinetes de
seus ministros so sigilosas.
Esse gnero de oportunismo da opacidade est sendo praticado em todos os
cantos do pas. Como a nova legislao define que cada poder, em cada esfera,
define seu prprio mecanismo de recurso contra negativas de prestao de
informao, o que acaba por ocorrer que o mesmo indivduo que definiu que
determinado tipo de dado deve permanecer secreto aquele que d a palavra
final a qualquer recurso.
Mesmo entes que constituem poderes autnomos, como o caso dos Tribunais
de Contas e do Ministrio Pblico (o primeiro, parte do Legislativo, e o segundo,
do Executivo), meramente definem que isto ou aquilo sigiloso e fica tudo por
isso mesmo.
Nos municpios brasileiros e em boa parte dos estados, em que no h
contraditrio poltico relevante, a situao idntica. Sem sofrer contestao de
ningum, e como agora a lei lhes faculta o direito de definir arbitrariamente o
que sigiloso e o que no , os respectivos chefes de Executivo praticam, agora

escudados na lei, exatamente o que antes praticavam em contradio com a


Constituio.
Como o Ministrio Pblico tem lavado as mos em relao ao assunto, nessas
reas como se a lei de acesso a informao no existisse. Isso assim
permanecer por muito tempo, essencialmente porque o motivo no jurdico
ou legal, mas econmico.
A regulamentao promovida pela lei satisfaz a uma condio necessria para a
melhor circulao de informao. Tal condio, contudo, est longe de ser
suficiente para atingir esse objetivo.
A lei estabelece o que pode, ou seja, condies sobre a oferta de informaes:
famlias de dados que devem ser tornados pblicos por todos os rgos do
Estado, prazos para a prestao de informaes que sejam solicitadas e a criao
de organismos que recebam recursos de solicitantes caso informaes
requisitadas sejam recusadas ou no sejam fornecidas.
Ocorre que a regulamentao da oferta de qualquer coisa no cria demanda.
Exceto no que tange a obrigatoriedade de publicao de certos dados relativos
execuo oramentria (mas mesmo assim o enforcement depende bastante da
presena de quem vigie o assunto e reclame do eventual descumprimento),
bvio que a consequncia pretendida pela lei s ocorrer se houver procura por
informao.
S isso poderia suprir a condio suficiente: a presena de uma demanda
contnua e crescente por informao de qualidade e profundidade cada vez
maiores. No o que acontece na maior parte do Brasil.
Em qualquer pas, os demandantes por informao do Estado so, pela ordem:
o setor privado; a imprensa; organizaes no governamentais; acadmicos;
cidados. Evidentemente, cada um desses grupos procura informao porque
tem algum interesse ou motivao. Quando as condies so desfavorveis para
o desenvolvimento de interesses, no h por que buscar informao.
possvel ver isso claramente nas diferenas entre as cobranas que se fazem a
rgos das trs esferas administrativas. Os rgos federais dos trs poderes so
os mais procurados. Os estados recebem demandas em grau varivel conforme a
regio. E os municpios basicamente no recebem demandas.

A disparidade tem evidente origem no grau de desenvolvimento de cada lugar.


Os estados mais pobres recebem menos demandas do que os mais ricos e os
municpios, cuja imensa maioria muito pobre, passam ao largo da questo.
fcil entender por que as coisas se do desse modo. Fechando a ateno sobre
os municpios, dados da Secretaria do Tesouro do Ministrio da Fazenda do
conta de que, em mais de 80% deles, os oramentos dependem em alguma
medida de repasses da Unio e dos estados. Desses, metade, ou cerca de 40% da
totalidade das 5.653 municipalidades do pas, dependem desses repasses em
mais de 90% de seus oramentos. Eles praticamente no arrecadam impostos
locais (ISS, IPTU e outros).
A virtual ausncia de arrecadao decorre da inexistncia de atividade
econmica robusta. Se no h criao de riqueza, no h competio entre
empresas (no h empresas), entre capital e trabalho (no h capital nem
trabalho) e, portanto, o contraditrio poltico, quando existe, d-se em torno das
convenincias das micro-oligarquias locais. A totalidade da populao depende
da Prefeitura para sobreviver. Nessas condies, no h por que esperar que
algum formule demandas dirigidas municipalidade.
A eventual imprensa que exista nesses lugares, quando no pertence aos
oligarcas municipais, no pode sobreviver de anncios (pois no h empresas
que anunciem), subsistindo de favores da Prefeitura e dos governos estaduais,
que assim adquirem apoio poltico. Ou seja, no se pode esperar dessa imprensa
que aja criticamente em relao aos governantes.
Quanto s ONGs locais, quando existem (e existem s centenas de milhares,
conforme o IBGE) servem para executar polticas pblicas, sendo ingnuo
esperar que nelas se desenvolva qualquer espcie de atitude crtica em relao
Prefeitura ao governo estadual ou aos demais poderes.
(O poder Legislativo seria um demandante importante de informao, no fosse
o fato de ser ele comensal do poder, cooptado que pelo mecanismo deletrio
do loteamento da administrao pblica entre os partidos polticos que formam
a base do prefeito, do governador, do presidente da Repblica.)
No final das contas, portanto, no h ningum nesses lugares quem se anime a
provocar a municipalidade na busca de informao.

A mesma situao de carncia de demanda afeta boa parte dos estados do pas, e
pelo mesmo motivo: o subdesenvolvimento incompatvel com a formulao de
demandas por informao.
Observe-se que a constatao da pobreza da demanda antecede a promulgao
da lei de acesso a informao. Embora de modo desigual, a esfera federal
brasileira, bem como diversos estados, produzem h muitos anos uma grande
quantidade de dados sobre assuntos variados. O aproveitamento dessa
informao pelos atores esperados (ONGs, jornais etc.) tem sido muito
pequeno.
H mltiplas razes para isso. A imprensa nacional que de fato demanda
informao constituda basicamente de trs jornais dirios e duas revistas
semanais (deixando de lado os meios eletrnicos, cuja pauta no normalmente
investigativa). Entre as ONGs, das muitssimas que h no pas resta um
punhado, contado nos dedos de uma mo, que se dedica a buscar e processar
dados pblicos para atingir seus objetivos institucionais.
A academia, por sua vez, opera com maturao lenta e sua produo tem
repercusso pblica limitada. Por fim, cidados privados no fazem demandas
estruturadas.
Dado esse quadro de carncia generalizada, no se deve esperar que a
regulamentao do acesso a informao resulte em um salto significativo na
qualidade do monitoramento do Estado. Os progressos que se possam esperar
sero lentos, dar-se-o primordialmente na esfera federal e secundariamente
nos estados e municpios mais ricos. Os mais pobres permanecero com os
mesmos fluxos de informao deficientes que os afetavam antes da promulgao
da lei.
Claudio Weber Abramo, Transparncia Brasil

Pedidos de informao funcionam. Vamos us-los!


Usar a legislao de acesso informao - ou fazer wobbing, como alguns
chamam - uma excelente opo. Mas exige mtodo e, muitas vezes,
persistncia. Abaixo mostro trs exemplos sobre os pontos fortes e os desafios
do wobbing retirados do meu trabalho como jornalista investigativo.
Nota da traduo: wobbing um neologismo, uma gria surgida entre jornalistas
holandeses para usar a lei de acesso a informao.
Estudo de caso 1: Subsdios agrcolas

Todos os anos, a Unio Europeia paga quase 60 bilhes de euros aos fazendeiros
e ao setor agrcola. Todos os anos. Isso acontece desde o final dos anos 1950 e o
argumento poltico que os subsdios ajudam os agricultores mais pobres. No
entanto, uma descoberta com base na lei de acesso informao na Dinamarca
em 2004 indicou que esta era apenas uma desculpa. Os pequenos agricultores
estavam com dificuldades, como tantas vezes reclamaram, e, na realidade, a
maior parte do dinheiro foi para um pequeno nmero de grandes proprietrios
de terra e para a agroindstria. Obviamente, eu queria descobrir se isso era um
padro na Europa.
No vero de 2004, pedi os dados Comisso Europeia. Todos os anos, em
fevereiro, a Comisso recebe os dados dos pases membros. Na informaes,
esto quem se candidata para receber o financiamento da Unio Europeia,
quanto os beneficirios conseguem, e se pegam os recursos para cultivar a terra,
desenvolver a regio deles ou para exportar leite em p. A Comisso recebia as
estatsticas como arquivos CSV em um CD. Uma grande quantidade de dados,
mas, em princpio, fcil de trabalhar. Isto , se voc conseguisse por as mos
neles.
A Comisso recusou-se a divulgar os dados. O principal argumento era de que
eles estavam dentro de um banco de dados e no poderiam ser recuperados sem
um extenso trabalho. Uma explicao que o Ombudsman Europeu considerou
como m administrao. Voc pode encontrar todos os documentos sobre este
caso no site wobbing.eu. Mas no tnhamos tempo a perder com questes legais.
Queramos os dados.

Imagem 3. O site sobre subsdios agrcolas (Farmsubsidy.org)

Assim, nos juntamos com parceiros em toda a Europa para obter os dados pas
por pas. Colegas ingleses, suecos e holandeses conseguiram as informaes em
2005. Finlndia, Polnia, Portugal, regies da Espanha, Eslovnia e outros
pases abriram os dados tambm. Mesmo na Alemanha, onde difcil usar a lei
de acesso, obtive informaes na provncia da Rennia do Norte-Westfalia em
2007. Tive de ir at o Tribunal de Justia para obter os dados, mas isso resultou
em alguns artigos legais na revista Stern.
Coincidncia a Dinamarca e o Reino Unido terem sido os primeiros a abrir os
dados? No necessariamente. Naquela poca, os subsdios agrcolas estavam
sendo contestados na Organizao Mundial do Comrcio (OMC). Dinamarca e
Reino Unido esto entre os pases mais liberais da Europa, portanto, pode ser
que ventos polticos tenham soprado na direo da transparncia naqueles
pases.
A histria no parou por a; para mais episdios e para obter os dados,
vejafarmsubsidy.org.
Lio: use e abuse das leis de informao. H uma fabulosa diversidade de leis
do tipo na Europa e diferentes pases podem ter diferentes interesses polticos
em pocas diferentes. Pode-se tirar vantagem da.
Conhea seus direitos

Voc deve se preocupar sobre diretos autorais e e outras licenas ao publicar


dados? Embora seja sempre bom checar com a equipe jurdica da sua
publicao, vale regra geral: se os dados so publicados pelo governo, no se
deve pedir nem perdo nem permisso; se forem publicados por uma
organizao que no faz dinheiro vendendo os dados, no h muito com o que
se preocupar; se forem publicados por uma organizao que faz dinheiro com a
venda dos dados, ento voc definitivamente deve pedir permisso.
Simon Rogers, the Guardian
Estudo de caso 2: Efeitos colaterais

Todos somos cobaias quando se trata de tomar remdio. As drogas podem ter
efeitos colaterais. Ns sabemos: pesamos os benefcios e riscos potenciais e
tomamos uma deciso. Infelizmente, nem sempre estamos bem informados
para tomar essa deciso.
Quando adolescentes tomam uma plula contra espinhas, eles esperam uma pele
macia e no um sbito mau humor. Mas foi exatamente isso que aconteceu
com um medicamento: os jovens se tornaram depressivos e at mesmo suicidas
depois de tom-lo. A informao sobre o perigo deste efeito colateraluma
histria bvia para jornalistasno estava facilmente disponvel.
H dados sobre efeitos colaterais. Os fabricantes tm de entregar regularmente
para as autoridades de sade informaes sobre efeitos colaterais observados.
Esses dados so mantidos por autoridades nacionais ou europeias depois que a
droga permitida no mercado.
O primeiro furo novamente veio da Dinamarca, da esfera federal. Durante uma
investigao sobre o tema envolvendo uma equipe de dinamarqueses,
holandeses e belgas, a Holanda tambm liberou seus dados. Outro exemplo de
uso de leis de acesso informao: ajudou bastante no caso chamar a ateno
das autoridades holandesas para o fato de que os dados estavam acessveis na
Dinamarca.
Mas a histria era verdadeira: na Europa, havia jovens suicidas e, infelizmente,
tambm suicdios em vrios pases como resultado do medicamento.
Jornalistas, pesquisadores e a famlia de uma jovem vtima estavam fazendo de
tudo para ter acesso a essa informao. O Ombudsman europeu ajudou a
pressionar por transparncia na Agncia Europeia de Medicamentos, e ao que
parece, ele foi bem-sucedido. Ento, os jornalistas puderam se debruar sobre

os dados. Somos todos cobaias, como um pesquisador colocou, ou os


mecanismos de controle so slidos?
Lies: No aceite um no como resposta quando se trata de transparncia.
Seja persistente e siga a histria todo o tempo. As coisas bem podem mudar com
melhor acesso s informaes mais adiante.
Estudo de caso 3: Mortes por causa do contrabando

Fatos da histria recente podem ser extremamente dolorosos para populaes


inteiras, especialmente aps de guerras e em tempos de transio. Dessa forma,
como os jornalistas podem conseguir dados concretos para uma investigao
sobre isso, quandopor exemploos beneficirios da guerra ocorrida na
dcada passada esto agora no poder? Esta foi a tarefa de uma equipe de
jornalistas da Eslovnia, Crocia e Bsnia .
A equipe comeou a investigar o comrcio de armas na ex-Iugoslvia durante
um embargo da ONU no incio de 1990. A base do trabalho foram documentos
de inquritos parlamentares sobre o assunto. Para documentar as rotas dos
embarques e compreender a estrutura do comrcio, o transporte teve de ser
rastreado pela numerao dos navios nos portos e por placas de caminhes.
Comisses parlamentares eslovenas tinham realizado investigaes sobre quem
havia lucrado ilegalmente com a Guerra dos Balcs, mas nunca chegou a uma
concluso. Mesmo assim, havia uma trilha extremamente valiosa de
documentos revelados, incluindo 6 mil pginas que a equipe eslovena obteve
por meio de um pedido de acesso informao.
Neste caso, os dados tinham de ser extrados dos documentos e classificados em
bancos de dados. Aprimorando os dados com informaes adicionais, anlises e
pesquisas, eles foram capazes de mapear numerosas rotas de comrcio ilegal de
armas.
A equipe foi bem-sucedida e os resultados so nicos e j garantiram ao time o
primeiro prmio deles. O mais importante que a histria importa para toda a
regio e pode bem ser melhorada por jornalistas de outros pases pelos quais as
cargas mortferas passaram.
Lies: D visibilidade para matria-prima que considerar boa, mesmo se voc
encontr-la em lugares inesperados, e combine esse material com dados
pblicos existentes e acessveis.
Brigitte Alfter, Journalismfund.eu

Lei de acesso informao com amigos

Muitos pases dos Balcs tm problemas com corrupo no governo,


especialmente quando se trata de prestao de contas. Durante vrios meses,
em 2009, um grupo de jornalistas srvios do Centre for Investigative Reporting,
de Belgrado, vinham pedindo por leis de acesso diferentes tipos de documentos
de mais de 30 municpios. Antes disso, quase nada estava acessvel ao pblico. A
ideia era obter os registros pblicos originais e colocar os dados em planilhas,
possibilitando executar verificaes bsicas e comparaes entre os municpios
e tambm obter uma noo de gastos mximos e mnimos.
Eram indicadores bsicos como oramento, despesas regulares e especiais,
salrios de autoridades, despesas de viagem, nmero de funcionrios, despesas
de telefone celular, gastos com ajuda de custo, valores de contratos pblicos, etc.
Foi a primeira vez que reprteres pediram esses tipo de informao.
O resultado foi uma base de dados abrangente que revela vrios dados
maquiados, malfeitos e casos de corrupo. Uma lista dos prefeitos mais bem
pagos indicou que alguns deles estavam recebendo mais dinheiro do que o
presidente srvio. Muitos outros funcionrios estavam recebendo rendimentos
excessivos, com gigantescos reembolsos de viagens e de ajudas de custo. Nossos
dados sobre contratos pblicos, obtidos com dificuldade, ajudaram a revelar
uma baguna oficial.
Mais de 150 reportagens foram produzidas usando a base de dados e muitas
delas foram aproveitadas pela mdia srvia local e nacional. Ns aprendemos
que comparar os registros com os dados de governos semelhantes pode mostrar
desvios e lanar luz sobre provveis casos de corrupo. Despesas exageradas e
incomuns podem ser detectadas somente pela comparao.
Djordje Padejski, Knight Journalism Fellow, Stanford University

Ultrapassando Obstculos para obter Informao


Voc tentou de tudo e ainda no conseguiu obter os dados. Encontrou eles na
web, mas no h nenhuma opo para baix-los e no foi possvel copiar e collos. No se preocupe, talvez ainda haja uma maneira de obter esses dados. Por
exemplo, voc pode:

Obter os dados atravs de APIs web, interfaces providas por bases de dados
e por vrias aplicaes web modernas (incluindo Twitter, Facebook, dentre
outras). Essa uma maneira fantstica de acessar tanto dados do governo ou
dados privados quanto dados de sites de mdias sociais.

Extrair as informaes de arquivos PDF. Isso muito difcil, pois o PDF


uma linguagem para impressoras e no possui muita informao sobre a
estrutura dos dados exibidos. Mostrar como retirar informaes de PDFs
est alm do escopo deste livro, mas existem algumas ferramentas e tutoriais
que podem ajud-lo.

Extrair informaes de telas dos sites (scraping). Consiste em extrair


automaticamente contedo estruturado de uma pgina com o auxlio de um
utilitrio de captura ou programando um cdigo. Embora esse mtodo seja
muito poderoso e possa ser usado em diferentes ocasies, ele requer um
certo nvel de conhecimento sobre como a web funciona.

Diante de todas essas opes, no esquea das mais simples: vale investir tempo
buscando arquivos com dados j em formatos interpretveis por mquinas ou
at mesmo entrar em contato com a instituio que cuida dos dados que voc
deseja. Neste captulo mostraremos um exemplo bsico de como extrair dados
(scraping) de uma pginas feita em HTML.
O que so Dados Legveis por Mquinas?

O objetivo da maioria desses mtodos obter acesso a dados legveis por


mquinas. So dados criados para serem processados por computadores, em vez
de serem apresentados a um ser humano. A estrutura desses dados est
relacionada informao que eles representam e no na maneira como so
eventualmente exibidos. Exemplos incluem arquivos CSV, XML, JSON e outros
arquivos do Excel, enquanto formatos como documentos do Word, pginas
HTML, e arquivos PDF esto mais relacionados apresentao visual da
informao. O PDF, por exemplo, em uma linguagem que conversa

diretamente com impressoras; ela se preocupa com o posicionamento de pontos


e linhas numa pgina em vez de se focar na distino entre as letras.
Captura de sites web: para qu?

Voc visita um site, v uma tabela interessante e tenta copi-la para o Excel para
acrescentar dados ou simplesmente guard-la. S que isso muitas vezes no
funciona, ou a tabela que voc quer est espalhada por vrias pginas. Como
copiar manualmente pode se tornar um trabalho tedioso, pode fazer sentido
automatizar o trabalho escrevendo um pouco de cdigo.
A vantagem deste tipo de captura que voc pode faz-la em praticamente
qualquer site, de previses do tempo a gastos do governo, mesmo que o site no
oferea nenhuma API de acesso aos dados brutos.
O que possvel capturar

Existem limites para o que voc consegue capturar por cdigo. Alguns fatores
podem dificultar o processo:

Cdigo HTML mal formado ou informao no estruturada (por exemplo,


sites governamentais antigos).

Sistemas de autenticao feitos para barrar acessos automatizados (por


exemplo cdigos CAPTCHA e paywalls).

Sistemas baseados em sesso que usam cookies para rastrear a navegao do


usurio.

Ausncia de listagens completas ou de possibilidade de realizar buscas


usando caracteres curingas.

Bloqueio, por parte dos administradores dos sites, de acessos em massa aos
dados.

Pode haver tambm limitaes legais: alguns pases reconhecem direitos


autorais sobre as bases de dados, podendo limitar o reuso da informao online.
s vezes voc at pode ignorar essa licenadependendo de onde voc more,
pode ter direitos especiais como jornalista. Capturar dados governamentais
disponveis na internet normalmente legal, mas talvez seja o caso de confirmar
antes de public-los. Organizaes privadas e certas ONGs costumam ser menos
tolerantes e talvez possam alegar que voc est "sabotando" os sistemas deles.
Outras informaes podem infringir a privacidade de indivduos e, dessa forma,
violar as leis de privacidade de dados ou a tica profissional.

Correo, Captura, Compilao, Limpeza

O desafio relacionado a maioria dos dados do Reino Unido no t-los


publicados, mas sim t-los em um formato til. Um monte de dados sobre
gastos de viagens, bens dos membros do parlamento e de ocorrncias de lobby
so publicados em formatos difceis de serem analisados.
Para algumas informaes, s resta um rduo trabalho: combinar dzias de
arquivos curtos de Excel, por exemplo, a nica maneira de criar listas
detalhadas sobre reunies ministeriais no Reino Unido. Mas para outras
informaes, fazer a captura de telas de sites pode ser incrivelmente til.
Usar servios como o do site ScraperWiki para obter ajuda de programadores na
produo programas que capturem registros como os dos bens dos membros do
parlamento pode poupar metade do nosso trabalho: ao fim, conseguimos todos
esse dados em uma nica planilha, prontos para iniciar o trabalho de anlise e
limpeza.
Servios como esse (ou ferramentas como o Outwit Hub) so de grande ajuda a
jornalistas que precisam compilar dados desorganizados mas no conseguem
programar sozinhos.
James Ball, the Guardian
Ferramentas que ajudam na captura

H vrios programas que podem ser usados para extrair informaes em massa
de um site. Dependendo do seu browser, ferramentas como Readability (que
ajudam a extrair texto de uma pgina) ou DownThemAll (que permite que voc
baixe vrios arquivos de uma nica vez) ajudaro a automatizar tarefas tediosas.
J o Scraper extension do Chrome foi criado especificamente para extrair
tabelas de sites. Extenses como o FireBug permitem acompanhar exatamente
como um site construdo e quais comunicaes acontecem entre o navegador e
o servidor.
ScraperWiki uma pgina que permite que voc codifique programas de
captura em vrias linguagens de programao diferentes, incluindo Python,
Ruby e PHP. Se quiser comear a criar programas de captura sem armar um
ambiente de programao no seu computador, esse o caminho. Outros
servios, como o Google Spreadsheets e o Yahoo! Pipes tambm ajudam a fazer
capturas de alguns sites.

Como um programa de captura (scraper) funciona?

Web scrapers geralmente so pequenos pedaos de cdigo escritos em uma


linguagem de programao como Python, Ruby ou PHP. A linguagem certa
uma questo de qual comunidade voc tem acesso: se existe algum na sua
redao j trabalhando numa dessas linguagens, ento faz sentido adotar a
mesma linguagem.
Embora algumas das ferramentas mencionadas anteriormente sejam teis para
comear, a real complexidade envolvida em fazer capturas est em mirar as
pginas certas e os elementos certos dentro dessas pginas para extrair a
informao desejada. Essas tarefas no esto relacionadas a programao, mas
ao entendimento das estruturas do site e do seu banco de dados.
Quando voc abre um site, seu navegador ir quase sempre recorrer a duas
tecnologias: HTTP, para se comunicar com o servidor e requisitar um recurso
especfico, como documentos, imagens ou vdeos; e HTML, a linguagem na qual
os sites so criados.
A anatomia de uma webpage

Qualquer pgina HTML est estruturada como uma hierarquia de caixas


(definidas pelas "tags" HTML). Uma caixa maior ir conter vrias caixas
menorespor exemplo, uma tabela possui vrias divises menores: linhas e
clulas. H vrios tags realizando diferentes funesalgumas produzem
caixasoutras tabelas, imagens ou links. Tags tambm podem ter propriedades
adicionais (ex: podem ser identificadores nicos) e pertencer a grupos
chamados "classes", que fazem com que seja possvel mirar e capturar
elementos individuais dentro de um documento. Assim, selecionar os elementos
apropriados e extrair seu contedo um ponto chave ao escrever um programa
de captura.
Visualizando elementos em uma pgina web, tudo pode ser quebrado em caixas
dentro de caixas.
Para fazer a captura, voc precisar aprender um pouco sobre diferentes
elementos que podem estar em um documento HTML. Por exemplo, o
elemento <table> abrange uma tabela inteira, que tem uma <tr> (linha de
tabela) que por sua vez contm

<td>

(dados da tabela) para cada clula. O

elemento mais comum que voc ir encontrar o

<div> ,

que basicamente

significa qualquer bloco de contedo. A maneira mais fcil de se habituar com

esses elementos usando uma developer toolbar no seu navegador: ela permite
que, ao deixar o cursor do mouse sobre qualquer parte da pgina web, voc veja
o cdigo por trs daquele elemento.
Tags trabalham marcando o incio e o trmino de uma unidade. Por
exemplo <em> signifca o incio de pedao de texto que foi enfatizado com o
estilo itlico e

</em>

significa o final dessa seo. Fcil.

Um exemplo: Capturando Incidentes Nucelares com Python

NEWS o portal da Agncia de Energia Atmica Internacional (AIEA) para


incidentes radioativos (e um forte candidato a membro do clube dos ttulos
estranhos!). A pgina lista incidentes em um site simples de estilo parecido ao
de um blog que pode ser facilmente capturado.

Imagem 4. O portal da Agncia de Energia Atmica Internacional (AIEA) (news.iaea.org)

Para comear, crie um novo programa de captura (scraper) em linguagem


Python noScraperWiki e voc ser apresentado a uma rea de texto vazia, com
excesso de alguns cdigos prontos de suporte. Em uma outra janela do
navegador, abra o site da AIEA e abra a developer bar do seu navegador. No
view "Elements'' tente localizar o elemento HTML para um dos itens de notcias.
A barra developer bar ajuda voc a conectar elementos na pgina web com seu
cdigo HTML relacionado.

Uma investigao nessa pgina ir revelar que os ttulos so


elementos <h4> dentro de uma <table> . Cada evento uma linha

<tr> ,

que

tambm contm uma descrio e uma data. Se quisermos extrair os ttulos de


todos os eventos, devemos encontrar uma maneira de selecionar cada linha na
tabela sequencialmente, enquanto copiamos o texto.
Para transformar esse processo em cdigo, precisamos tomar conhecimento ns
mesmos de todos os passos envolvidos. Para se ter uma ideia dos passos
requeridos, vamos jogar um jogo: na janela do seu ScraperWiki, tente voc
mesmo escrever instrues individuais para cada coisa que voc far ao escrever
o programa de captura, como passos de uma receita (ponha antes cada linha
com um sinal de # para dizer ao Python que ela no se trata de um cdigo) Por
exemplo:
# Procure por todas as linhas na tabela
# No deve ultrapassar o lado esquerdo.

Tente ser o mais preciso que puder e no assuma que o programa sabe alguma
coisa sobre a pgina que voc est tentando capturar.
Tendo escrito algum pseudo cdigo, vamos compar-lo a esse cdigo essencial
para o seu primeiro capturador:
import scraperwiki
from lxml import html

Nessa primeira frase, ns estamos importando funcionalidades existentes de


bibliotecastrechos de cdigo previamente escritos. scraperwiki nos dar a
habilidade para baixar sites web, enquanto

lxml

uma ferramenta para a

anlise estrutural de documentos HTML. Boa notcia: Se voc est escrevendo


um programa de captura em Python com o ScraperWiki, essas duas linhas de
cdigo sempre sero as mesmas.
url = "http://www-news.iaea.org/EventList.aspx"
doc_text = scraperwiki.scrape(url)
doc = html.fromstring(doc_text)

Em seguida, o cdigo cria uma varivel:

url ,

que indicar sempre o endereo da

pgina da AIEA. Isso diz ao programa de captura que queremos prestar ateno
a esse fator. Observe que a URL est entre aspas pois no faz parte do cdigo do
programa mas se trata apenas de uma string, uma sequncia de caracteres.

Em seguida ns usamos a varivel

url

como entrada para uma

funo, scraperwiki.scrape . Uma funo ir fornecer algum trabalho definido


nesse caso, ela ir baixar a pgina web. Quando terminada, ela ir associar a sua
sada a alguma outra varivel, doc_text . doc_text ir agora armazenar o texto
do site web; no na forma visual que voc v no navegador, mas o cdigo fonte,
incluindo as tags. Como esse formulrio no muito fcil de analisar, usaremos
uma outra funo, html.fromstring , para gerar um representao especial onde
podemos facilmente atingir os elementos que queremos, o chamado modelo de
objetos de documento (DOM).
for row in doc.cssselect("#tblEvents tr"):
link_in_header = row.cssselect("h4 a").pop()
event_title = link_in_header.text
print event_title

Neste passo final, usamos o DOM para encontrar cada linha na tabela e extrair o
ttulo dos eventos de seu cabealho. Dois novos conceitos so usados: o "for
loop" (para cada vez que um evento ocorra disparar outro) e o elemento de
seleo ( .cssselect ). O cdigo for loop ir atravessar uma lista de itens,
associar a cada um pseudnimo temporrio ( row nesse caso) e depois executar
qualquer instruo para cada item.
O outro novo conceito, elemento de seleo, faz uso de uma linguagem especial
para encontrar elementos dentro do documento. Seletores CSS so
normalmente usados para adicionar informao de leiaute aos elementos HTML
e podem ser usados para precisamente selecionar um elemento de uma pgina.
Nesse caso (linha 6), estamos selecionando #tblEvents tr , no qual ir
corresponder cada

<tr>

dentro de um elemento tabela com o ID

tblEvents

sinal # significa ID). Observe que isso ir retornar uma lista de elementos

(o

<tr> .

Isso pode ser visto na linha seguinte (linha 7) onde ns estamos aplicando ourto
seletor para encontrar qualquer <a> (que um hyperlink) dentro de
um

<h4>

(um ttulo). Aqui desejamos apenas olhar um nico elemento (existe

apenas um ttulo por linha), ento ns temos que coloc-lo para fora do topo da
lista retornada pelo seletor com a funo .pop() .
Observe que alguns elementos no DOM contm texto (isto , texto que no
parte de nenhuma linguagem de marcao), que podemos acessar usando a
sintaxe [elemento].text conforme vemos na linha 8. Finalmente, na linha 9,
estamos imprimindo o texto no console do ScraperWiki. Se voc executar o seu

programa de captura, a janela menor dever iniciar a listagem dos nomes dos
eventos do site web da IAEA.

Imagem 5. Uma captura em ao (ScraperWiki)

Agora voc pode ver um programa bsico de captura operando: ele baixa a
pgina web, a transforma em DOM, e em seguida permite que voc possa
selecionar e extrair certos contedos. Aps ter essa noo bsica, voc pode
tentar e resolver alguns dos problemas restantes usando o ScraperWiki e a
documentao do Python:

Voc consegue encontrar o endereo do link em cada ttulo de evento?

Voc consegue selecionar a pequena caixa que contm a data e o local


usando o nome da classe CSS e extrair o texto do elemento?

O ScraperWiki disponibiliza um pequeno banco de dados para cada


programa de captura para que voc possa armazenar os resultados; copie o
exemplo relevante da documentao do ScraperWiki e adapte-o para que ele
grave os ttulos, links e datas dos eventos.

A lista de eventos possui vrias pginas; voc consegue capturar mltiplas


pginas para pegar o histrico de eventos tambm?

Conforme voc for tentando resolver esses desafios, d uma olhada em torno do
ScraperWiki: existem vrios exemplos teis nos programas de captura j feitos;
frequentemente os dados tambm so bastantes interessantes. Dessa forma,

voc no precisa comear o seu programa de captura do zero: escolha um que


seja similar, crie uma cpia e adapte ao seu problema.
Friedrich Lindenberg, Open Knowledge Foundation
Capturando uma base de dados pblica

Alguns mdicos franceses so livres para escolher suas prprias taxas, de forma
que uma pessoa pode pagar entre 70 e 500 Euros por uma consulta de 30
minutos a um oncologista, por exemplo. Esses dados das taxas so legalmente
pblicos, mas a administrao somente disponibiliza uma base de dados online
de difcil navegao. Para mostrar uma boa viso das taxas dos mdicos para o
Le Monde, decidi capturar a base de dados inteira.
A onde a diverso comea. O formulrio de busca uma aplicao Flash que
redireciona para uma pgina HTML de resultados atravs de uma requisio
POST. Com a ajuda de Nicolas Kayser-Bril, demorou um pouco para descobrir
como a aplicao poderia usar uma terceira pgina como um passo "escondido''
entre o formulrio de busca e a pgina de resultado. Essa pgina foi de fato
usada para armazenar um cookie com valores do formulrio de busca que
depois foram acessados pela pgina de resultados. Teria sido difcil pensar em
um processo mais complicado, mas as opes da biblioteca cURL no PHP
tornam fcil contornar os obstculos, uma vez que voc saiba onde eles esto!
No final, domar a base de dados foi uma tarefa de 10 horas, mas valeu a pena.
Alexandre Lchenet, Le Monde

A Web como uma Fonte de dados


Como voc pode descobrir mais sobre algo que s existe na Internet? Se voc
est querendo saber mais sobre um endereo de email, site, imagem ou artigo
da Wikipedia, neste captulo eu o levarei atravs das ferramentas que iro dizer
mais sobre o que est por trs deles.
Ferramentas Web

Primeiro, alguns servios que voc pode usar para descobrir mais sobre um site
inteiro, em vez de sobre uma pgina em particular:
Whois

Se voc for em whois.domaintools.com pode obter informaes bsicas


de registro de qualquer site. Recentemente, alguns donos de sites
optaram por registros privados, no qual escondem seus detalhes, mas em
vrios casos voc poder ver o endereo, email e nmero de telefone da
pessoa que registrou o site. Voc tambm pode entrar com um endereo
IP e obter dados da organizao ou do indivduo dono do servidor. Isso
especialmente til quando voc est tentando investigar o uso abusivo ou
malicioso de um servio, j que a maioria dos sites gravam o endereo IP
de todos que os acessam.
Blekko

O buscador Blekko oferece uma quantidade incomum de insights sobre


estatsticas internas que coleta de sites conforme rastreia a Web. Se voc
digitar o nome do domnio seguido de "/seo", voc receber uma pgina
com informaes sobre aquela URL. (Nota da Traduo: quando esta
dica foi escrita, o site oferecia esse servio gratuitamente. Agora,
preciso pagar para obter esse tipo de anlise). A primeira aba mostra que
outros sites possuem links para o domnio em ordem de popularidade.
Isso pode ser extremamente til quando voc est tentando entender que
cobertura um site est recebendo, e se voc quiser entender por que ele
est com uma classificao alta nos resultados de busca do Google, j que
ela se baseia em links de entrada. Na segunda, abaixo, nos diz quais
outros websites esto rodando da mesma mquina. comum golpistas e
spammers construrem uma legitimidade falsa criando muitos sites que
comentam e se ligam uns aos outros. Eles parecem domnios diferentes, e
talvez at tenham registros diferentes, mas frequentemente vivem num

mesmo servidor por ser muito mais barato. Essas estatsticas do a voc
uma viso sobre a estrutura de negcio escondida dos sites que voc
estiver pesquisando.

Imagem 6. O buscador Blekko (Blekko.com)

Imagem 7. Entendendo a popularidade na web: quem se liga a quem? Outra aba til a "Crawl
stats", especialmente a seo "Cohosted with" ("Co-patrocinado por"). (Blekko.com)

Imagem 8. Encontrando web spammers e scammers (Blekko.com)

Compete.com

Ao pesquisar um conjunto de consumidores americanos, o


site compete.com obteve estatsticas de uso detalhadas da maioria dos
sites, e tornou alguns detalhes bsicos disponveis de graa. Escolha a aba
Site Profile e informe um domnio. Voc ir em seguida ver um grfico do
trfego do site no ltimo ano, junto com nmeros de quantas pessoas e
quantas vezes o visitaram (como na segunda imagem abaixo). Como eles
se baseiam em pesquisas, os nmeros so apenas aproximados, mas eles
se mostraram razoavelmente precisos quando pude compar-los com
mtricas internas. Parecem ser uma boa fonte para comparar dois sites.
Embora os nmeros absolutos possam ser imprecisos, ainda sim uma
boa representao da diferena relativa da popularidade. Como eles
apenas pesquisam consumidores dos Estados Unidos, os dados podem
ser ruins para sites de outros lugares.

Imagem 9. Servio de perfil do site Compete.com (Compete.com)

Imagem 10. O que est em voga? Qual a demanda?: Hotspots na web (Compete.com)

Google

Uma funo do Google que pode ser extremamente til a palavra-chave


"site:". Se voc adicionar "site:nomedapagina.com.br" sua busca, o
Google retornar apenas resultados dentro daquele site. Voc pode ainda
filtrar mais incluindo o prefixo das pginas que voc est interessado,
como por exemplo, "site:nomedapagina.com.br/secaox/", e voc ver
apenas resultados que correspondem quele padro. Isso
extremamente til quando voc estiver procurando por informaes que
os proprietrios de um domnio tornaram pblicas mas no tiveram
interesse em divulgar.
Webpages, imagens e vdeos

Algumas vezes voc est interessado nas atividades em torno de uma


histria em particular, e no no site inteiro. As ferramentas abaixo
mostram a voc diferentes ngulos de como as pessoas esto lendo,
respondendo, copiando e compartilhando contedo na web.
Bit.ly

Sempre recorro ao bit.ly quando desejo saber como as pessoas esto


compartilhando um determinado link. Para us-lo, entre com a URL que
voc est interessado, clique em shorten. Vai aparecer o resultado e,
abaixo dele, o nmero de "cliques", "saves" e "shares". Clicando na linha
com essas informaes, voc cair na pgina com as estatsticas
completas. Essa combinao de dados de trfego e conversaes muito
til quando estou tentando entender o porqu de um site ser to popular,
e quais so exatamente seus fs.
Twitter

Quanto mais gente usa o servio de micro-blogging, mais ele se torna til
como um indicador de como as pessoas esto compartilhando e falando
sobre pedaos individuais de contedo. extremamente simples
descobrir conversas pblicas sobre um link. Voc apenas informa na
caixa de busca a URL em que est interessado e clica em "more tweets"
para visualizar o conjunto completo de resultados.
Cache do Google

Quando uma pgina se torna controversa, os publicadores podem


despublic-la ou alter-la sem aviso. Se voc suspeitar desse problema,
recorra ao cache da pgina no Google. Ele mostra o site quando do ltimo
acesso feito pelo Google para indexao. Como a frequncia com que o

Google faz esses acessos aumenta constantemente, suas chances so


maiores se voc tentar poucas horas aps as suspeitas de mudana. Faa
normalmente uma busca no Google com a URL desejada e, se voc tiver
sorte, haver um link com o texto "cache" ao lado do ttulo. Se ocorrer
algum problema no carregamento quando voc clicar, voc pode alternar
para uma verso somente com o texto da pgina. Copie e cole ou capture
uma imagem da pgina rapidamente para guardar o estado anterior
antes que o Google o atualize.
O Internet Archive da Wayback Machine

Se precisar saber como uma pgina foi alterada h meses ou anos, o


Internet Archive possui um servio chamado The Wayback Machine que
periodicamente tira "fotos" de pginas da web mais populares. Se houver
qualquer cpia da URL no site, ele mostrar um calendrio para que voc
possa escolher a data a examinar. Em seguida apresentar uma verso da
pgina mais ou menos como ela estava naquela data. Algumas vezes a
pgina poder estar sem estilos ou imagens, mas no geral d para
entender o foco do contedo da pgina na ocasio.
Visualizar o cdigo fonte

No so grandes as chances, mas geralmente desenvolvedores deixam


comentrios e outras dicas no cdigo HTML de uma pgina. Para ver
isso, voc deve acionar a opo "Visualizar o cdigo fonte" que exibir o
cdigo HTML da pgina. Voc no precisa entender o significado do
cdigo em si, apenas mantenha os olhos nos pedaos de texto espalhados.
Mesmo que haja apenas notas de direito de cpia ou menes ao nome
do autor, geralmente isso pode dar dicas importantes sobre a criao ou
propsito da pgina.
TinEye

s vezes voc precisa saber a origem de uma imagem, mas sem uma
legenda clara no existe uma maneira bvia de se fazer isso com os
mecanismos de busca tradicionais, como o Google. TinEye oferece um
processo de "busca reversa", onde voc fornece a imagem e ele encontra
outras na web que parecem similares. Como ele usa reconhecimento de
imagens para fazer a correspondncia, isso funciona mesmo quando a
imagem foi cortada, distorcida ou comprimida. Isso pode ser

extremamente efetivo quando voc suspeitar que a imagem que est


sendo passada como original ou nova estiver sendo mal representada.
YouTube

Se voc clicar no cone Estatsticas no lado direito inferior de qualquer


vdeo, voc pode obter um conjunto rico de informaes sobre a
audincia ao longo do tempo. Apesar de no mostrar tudo, til para
entender em linhas gerais quem a audincia daquele vdeo, de onde ela
vem e quando.
Emails

Se voc est pesquisando emails, vai querer saber mais detalhes


sobre a identidade do remetente e sua localizao. No existe uma
ferramenta pronta para ajud-lo com isso, mas pode ser muito til
conhecer os campos escondidos no cabealho de toda mensagem.
Eles funcionam como carimbos e podem revelar uma certa
quantidade de informaes sobre o remetente. Em particular,
geralmente eles incluem o endereo IP da mquina da qual a
mensagem foi enviada. Voc pode em seguida usar o whois
naquele endereo IP e descobrir que organizao dona daquela
mquina. Se for alguma organizao como a Comcast ou AT&T
que fornecem conexes a consumidores, ento voc poder visitar
o MaxMind e obter sua localizao aproximada.
Para ver esses cabealhos no Gmail, abra a mensagem e abra o
menu prximo a "responder" no topo direito e escolha a opo
"Mostrar original".
Voc ver ento uma nova pgina revelando o contedo
escondido. Haver algumas dezenas de linhas no incio que so
palavras seguidas por dois pontos. O endereo IP que voc
procura estar em um delas, mas o seu nome depender de como
a mensagem foi enviada. Se for atravs do Hotmail, ela se
chamar X-Originating-IP: , mas se for atravs do Outlook ou
Yahoo ser a primeira linha comeando com

Received: .

Buscando o endereo pelo Whois, por exemplo, ele me diz estar


associado Virgin Media, um Provedor de Acesso Internet no
Reino Unido, ento eu uso o servio de geolocalizao do
MaxMind para descobrir que ele est vindo da minha cidade natal

de Cambridge. Isso diz que estou razoavelmente confiante que de


fato foram os meus pais que enviaram um email e no impostores.
Tendncias

Se voc estiver vasculhando um tpico mais abrangente, aqui


esto algumas ferramentas que podem ajud-lo com insights:
Wikipedia Article Traffic

Para saber como o interesse pblico em um tpico ou pessoa variou ao


longo do tempo, voc pode visualizar diariamente os nmeros em
qualquer pgina no Wikipedia em stats.grok.se. O site um pouco
grosseiro, mas objetivo em mostrar a informao que precisa. Entre o
nome que voc est interessado para obter uma viso de trfego mensal
sobre a pgina. Isso exibir um grfico que mostra quantas pginas
foram visualizadas cada dia do ms que voc especificar. Infelizmente
voc apenas poder ver um ms por vez, ento ter que selecionar um
novo ms e pesquisar de novo para ver mudanas de longo prazo.

Google Insights

Voc pode ter uma viso clara dos hbitos de busca do pblico usando
o Insights do Google. Escreva um conjunto de frases comuns de busca,
como "Justin Bieber vs Lady Gaga", e voc ver um grfico do nmero
relativo de buscas ao longo do tempo. H vrias opes para refinar a
visualizao de dados, desde restringir por reas geogrficas at obter
mais detalhes sobre o tempo de acesso. A nica desvantagem a falta de
valores absolutosvoc obtm apenas porcentagens relativas, que
podem ser difceis de interpretar.

Imagem 11. Google Insights (Google)

O Crowdsourcing no Guardian Datablog


Crowdsourcing, de acordo com a Wipedia, "um modelo de produo que
utiliza a inteligncia e os conhecimentos coletivos e voluntrios espalhados pela
internet para resolver problemas, criar contedo e solues ou desenvolver
novas tecnologias, assim como tambm para gerar fluxo de informao". O texto
abaixo foi retirado de uma entrevista de Simon Rogers, onde ele conta como o
Datablog usou o crowdsourcing na cobertura de escndalos com gastos de
parlamentares, uso de drogas, e no caso dos documentos de Sarah Palin:

Imagem 12. Cpia j editada das despesas extras de Stephen Pound (the Guardian)

Algumas vezes, o reprter coleta um volume gigantesco de arquivos, estatsticas


ou relatrios, tornando impossvel que apenas uma pessoa processe tudo. Alm
disso, voc pode encontrar material inacessvel ou em formatos ruins que
impossibilitem fazer muito com eles. nestes casos que a colaborao em massa
do crowdsourcing pode ajudar.
Uma coisa que o Guardian tem muitos leitores, um monte de olhos atentos. Se
h um projeto interessante no qual precisamos de muita leitura, ento podemos
cham-los para nos ajudar. Foi o que fizemos com os Escndalo dos Gastos dos
Membros do Parlamento. Ns tnhamos 450 mil documentos e pouqussimo
tempo para fazer qualquer coisa. Ento, o que poderia ser melhor do que abrir a
tarefa para nossos leitores?

O projeto dos Gastos Parlamentares gerou muitas delaes de parlamentares.


Mais at do que as histrias relacionadas aos dados originais. A ideia foi um
sucesso incrvel em termos de audincia. As pessoas realmente gostaram.
Ns estamos trabalhando com a revista de msica MixMag sobre o uso de
drogas, o que tambm tem sido fenomenal. Parece que ser melhor do que a
Pesquisa sobre Crime no Reino Unido em termos de quantas pessoas voltam, e
isso timo.
O que esses dois projetos possuem em comum a ligao a questes com as
quais as pessoas realmente se importam. Por isso, querem dedicar tempo a eles.
Muitos dos nossos crowdsourcings dependem do trabalho de gente obcecada
pelos temas. Com o caso dos Gastos dos parlamentares, tivemos um trfego
gigantesco no comeo, mas a audincia foi morrendo. Mas ainda temos gente
obssessiva repassando cada pgina disponibilizada e procurando por coisas
erradas e notcias. Um nico colaborador analisou 30 mil pginas. Eles sabem
muita coisa.
Ns tambm usamos o recurso do crowdsourcing com os Documentos de Sarah
Palin. Novamente, a colaborao em massa foi de grande ajuda para limpeza
dos dados e para garimpar histrias.
Em termos de gerao de contedo, o crowdsourcing funcionou realmente bem
para ns. As pessoas gostaram e isso fez bem imagem do Guardian. No
entanto, para a extrao de dados, ns no usamos tanto o recurso colaborativo.
Alguns dos projetos de crowdsourcing que fizemos e tiveram mais sucesso eram
muito parecidos com enquetes tradicionais. Quando voc pergunta para as
pessoas sobre a experincia delas, sobre a vida delas, ou sobre o que esto
fazendo, a colaborao maior porque o pblico provavelmente no vai
inventar nada disso. Eles vo falar o que sentem. Quando, porm, vamos pedir
s pessoas praticamente para que faam nosso trabalho, precisamos achar uma
estrutura de produo que permita confiar no que elas informaram.
Com relao confiabilidade dos dados, acho que a frmula do Old Weather
muito boa. Eles tm dez pessoas para cada entrada. uma boa forma de
garantir a preciso. No caso dos Gastos dos Deputados, tentamos minimizar o
risco dos prprios parlamentares entrarem e editarem os contedos deles, para
que parecessem melhor. Mas no possvel proteger-se continuamente contra
esse tipo de ataque. S podamos conferir certas urls e verificar de onde vinham.
Ento, um pouco mais complicado. Os dados que fomos extraindo no eram

sempre confiveis. As matrias eram timas, mas no se produziam nmeros


brutos que podamos usar com confiana.
Se tivesse que dar um conselho para os aspirantes ao jornalismo de dados que
querem usar o crowdsourcing, encorajaria a fazer isso apenas nos casos em que
os leitores realmente se importam e continuaro se importando, mesmo quando
os dados pararem de render chamadas na capa. Alm disso, se voc torna a
coisa parecida com um jogo, pode encorajar as pessoas a colaborar. Quando
fizemos uma segunda vez o crowdsourcing sobre as despesas dos parlamentares,
era como uma competio, com tarefas individuais para as pessoas cumprirem.
Dar misses especficas a cada um realmente ajudou. E fez uma diferena
enorme porque acho que, se voc apenas apresenta para as pessoas uma
montanha de informaes e diz "cavoque isso", elas vo achar uma tarefa difcil
e ingrata. Ento, acho que tornar isso divertido realmente importante.
Marianne Bouchart, do Data Journalism Blog, entrevistando Simon Rogers,
do the Guardian

Como o Datablog usou crowdsourcing para cobrir a compra de


ingressos na Olimpada
Creio que o projeto de crowdsourcing com a maior resposta foi um trabalho
sobre a venda de ingressos na Olimpada. Milhares de pessoas no Reino Unido
tentaram comprar entradas para os Jogos de 2012 e houve muita indignao
quando elas no os receberam. Teve gente que encomendou centenas de libras
em ingressos e foi informada que no conseguiu nenhuma entrada. Mas
ningum sabia realmente se eram apenas alguns fazendo muito barulho
quando, na verdade, uma maioria estaria satisfeita. Tentamos, ento, encontrar
uma maneira de descobrir isso.
Decidimos que, devido ausncia de dados de qualidade sobre o assunto, o
melhor a fazer era perguntar. E achamos que no deveramos tratar o assunto
como algo muito srio, porque no teramos uma amostragem representativa.
Criamos um formulrio no Google e fizemos perguntas bem especficas. Era um
longo formulrio: perguntava o valor total da compra, quanto tinha sido
debitado em seus cartes de crdito, para quais eventos eles pediram entradas,
esse tipo de coisa.

Imagem 13. Quantos ingressos olmpicos voc conseguiu?: os resultados dos leitores (The
Guardian)

Colocamos uma pequena figura na pgina inicial do site e o formulrio foi


difundido rapidamente. Essa uma das questes-chave: voc no pode
simplesmente pensar "O que eu quero saber para a minha reportagem?", voc
deve pensar "O que as pessoas querem me contar?". S quando voc acerta o
que as pessoas querem falar naquele momento que o crowdsourcing ter
sucesso. O volume de respostas para este projeto, uma de nossas primeiras
tentativas em crowdsourcing, foi imenso. Tivemos mil respostas em menos de
uma hora e sete mil ao final do dia.
Portanto, obviamente, a esta altura levamos um pouco mais a srio a
apresentao dos resultados. Inicialmente, no tnhamos ideia de quo
satisfatrio ele seria. Ento, acrescentamos algumas consideraes: os leitores
do Guardian podem ser mais ricos que as outras pessoas, quem conseguiu

menos ingressos do que esperava pode estar mais disposto a falar com a gente, e
coisas do tipo.
No sabamos qual seria o resultado. Descobrimos que cerca de metade das 7
mil pessoas que encomendaram ingressos e entraram em contato conosco no
receberam nenhum. Apresentamos todas essas informaes, e, porque muita
gente havia participado na vspera, houve muito interesse nos resultados.
Semanas depois, o relatrio oficial foi divulgado, e nossos nmeros eram
impressionantemente prximos. Eram quase exatos. Imagino que em parte por
uma questo de sorte, mas tambm porque ns conseguimos que tanta gente
nos respondesse.
Se voc pergunta aos leitores sobre algo deste tipo no espao de comentrios do
texto, estar limitado sobre o que poder fazer com as respostas. Ento, deve-se
comear a pensar: "Qual a melhor ferramenta para o que eu quero saber?".
um espao para comentrios? Ou construir um aplicativo? E se for construir
um aplicativo, deve-se pensar: "Valer a demora? E valer investir os recursos
necessrios para faz-lo?"
Neste caso lembramos dos formulrios do Google, o Google Forms. Se algum
preenche o formulrio, o resultado pode ser visto como uma linha em uma
tabela. Mesmo se os dados ainda estiverem chegando, possvel abrir uma
tabela e ver todos os resultados imediatamente.
Eu poderia ter tentado fazer o trabalho no Google, mas eu o baixei no Microsoft
Excel e ento fiz coisas como organizar do menor valor para o maior; tambm
descobri espaos onde as pessoas escreveram os nmeros (ao invs de pr
apenas os dgitos) do quanto eles gastaram e consertei tudo isso. Algumas
pessoas usaram outras moedas, e as converti em libras. Tentei levar em conta
todos os resultados e, em vez de excluir os invlidos, eu os arrumeio que deu
bastante trabalho.
Mas toda a anlise ficou pronta em algumas horas, e eu descartei as respostas
claramente tolas. Muitas pessoas decidiram mostrar que no tinham gasto nada
com ingressos. O que pode parecer um pouco engraado, mas tudo bem. Foram
menos de cem respostas deste tipo em um total de mais de sete mil.
Tambm houve algumas dezenas que cadastraram cifras elevadas claramente
falsas para tentar distorcer os resultados. Coisas como dez milhes de libras.
Ento, essa limpeza me deixou com um conjunto de dados com os quais eu

poderia trabalhar usando os princpios normais que usamos todos os dias. Eu fiz
uma tabela dinmica e calculei algumas mdias. Este tipo de coisa.
Ns no tnhamos nenhuma ideia das possibilidades do projeto, ento ramos
apenas eu e o editor do blog de Esportes trabalhando nisso. Juntamos nossas
ideias e imaginamos que poderia ser divertido. Ns o fizemos, do comeo ao
fim, em 24 horas. Tivemos a ideia, bolamos alguma coisa na hora do almoo,
colocamos no site, vimos que estava se tornando bem popular, o mantivemos na
pgina de abertura do site o resto do dia, e apresentamos os resultados online
na manh seguinte.
Decidimos usar Google Docs porque ele te d controle completo sobre os
resultados. Eu no tive que usar as ferramentas de anlise de mais ningum.
Posso coloc-los facilmente em um software de banco de dados ou em planilhas.
Quando voc usa programas especiais para pesquisas, geralmente fica restrito s
ferramentas deles. Se fssemos perguntar algo mais delicado, talvez tivssemos
pensado em programar. Mas geralmente muito fcil pr um formulrio do
Google no site do Guardian, e para o usurio praticamente invisvel o fato de
estarmos usando tal formulrio.
Nosso conselho sobre crowdsourcing que voc precisa querer perguntar coisas
bem especficas. Faa questes de "mltipla escolha" tanto quanto possvel.
Tente obter alguns dados demogrficos bsicos daqueles a quem so dirigidas as
questes, para checar se sua amostra no estar enviesada. Se voc est
perguntando sobre quantidades, tente especificar que o preenchimento deve ser
feito com dgitos, em uma moeda especfica, e detalhes como esse. Muitos no o
faro, mas quanto mais voc os guiar, melhor. E sempre, sempre, acrescente um
espao para comentrios, porque muitas pessoas vo preencher os campos mas
o que elas realmente querem dar sua opinio sobre o caso. Principalmente
numa reportagem que afetam consumidores ou sobre pessoas que esto
injuriadas.
Marianne Bouchart, Data Journalism Blog, entrevistando James Ball, The
Guardian

Entendendo os Dados

O que fazer com os dados depois de consegui-los? Quais ferramentas usar? Esta
seo pretende aprimorar seu conhecimento no tema, com dicas para trabalhar
com nmeros e estatsticas, e ideias para trabalhar com conjuntos de dados
desorganizados, imperfeitos e em situao irregular. Vamos aprender como
extrair histrias a partir de dados, ver quais so as melhores ferramentas, e
como usar a visualizao para conseguir insights sobre o tpico que voc est
analisando.

O que h neste captulo?

Familiarizando-se com os dados em trs passos

Dicas para Trabalhar com Nmeros

Primeiros passos para trabalhar com dados

O po de 32 libras

Comece com os dados e termine com uma reportagem

Contando histrias com dados

Jornalistas de dados comentam suas ferramentas preferidas

Usando a visualizao de dados para encontrar ideias

Usando e compartilhando dados: a letra da lei, a letra mida e a


realidade
Nesta seo, vamos falar brevemente sobre a lei em relao a bancos de dados,
alm de explicar como voc pode abrir seus dados usando licenas pblicas j
disponveis e mecanismos legais. No deixe nada do que vem a seguir diminuir
seu entusiasmo pelo jornalismo guiado por dados. Restries legais sobre dados
na maior parte das vezes no vo atrapalhar e fcil garantir que elas no sejam
um obstculo para que outros usem as informaes que voc publicou.
Obter dados nunca foi to fcil. Antes da publicao generalizada de
informaes na web, mesmo que voc houvesse identificado uma srie de dados
da qual precisasse, seria necessrio pedir a quem quer que tivesse uma cpia
para torn-la acessvel a voc, possivelmente usando papel, correios, ou uma
visita pessoal. Agora, voc faz seu computador pedir ao computador deles para
lhe enviar uma cpia. Conceitualmente similar, mas agora o criador e quem
divulgou os dados provavelmente no fazem ideia de que voc fez o download de
uma cpia.
E quanto ao download de dados por meio de um programa de captura de
informaes do site ("scraping"), os termos de servio probem isso? Pense bem:
seu navegador s um programa. Ser que os termos de servio iriam permitir
acesso aos dados apenas por determinados tipos de programas? Se voc tem
tempo livre e dinheiro o suficiente para ler documentao sobre isso no site e
talvez pedir conselhos a um advogado, por favor, faa. Mas, no geral, apenas
evite ser um babaca: se o seu programa sobrecarrega um site, sua rede pode
muito bem ser impedida de acess-loe voc talvez merea isso. Existe hoje
um grande volume de boas prticas quanto a acessar e retirar dados por
scraping da Web. Se planeja fazer isso, examinar exemplos em sites como o
ScraperWiki vai ajud-lo no incio.
Uma vez que voc tenha obtido os dados, voc pode indagar, examinar,
classificar, visualizar, correlacionar e realizar qualquer tipo de anlise com sua
cpia. Voc pode publicar sua anlise, citando a fonte. Voc pode recorrer
palavra-de-ordem "fatos so livres" , mas talvez essa ideia s pegue de verdade
entre aqueles que valorizam demais os direitos relacionados aos bancos de
dados.
Mas e se voc, sendo um bom ou candidato a bom jornalista de dados, pretende
publicar no apenas a sua anlise mas tambm as bases de dados que voc

usoue, quem sabe, complementoudurante a realizao de sua anlise? Ou


talvez voc esteja apenas fazendo curadoria dos dados e no tenha feito anlise
alguma (muito bom: o mundo precisa de curadores de dados). Se voc est
usando dados coletados por alguma outra entidade, pode haver um obstculo.
(Se o seu banco de dados foi totalmente montado por voc, leia o prximo
pargrafo de qualquer forma, como motivao para adotar prticas de
compartilhamento.)
Se o detentor dos direitos autorais no tiver dado permisso para usar uma obra
(ou caso a obra esteja em domnio pblico, mas com limitaes ao uso que voc
quer fazer dela) e mesmo assim voc continuar, o proprietrio do copyright
pode for-lo a parar. Embora os "fatos sejam livres", possvel que colees de
fatos sejam restringidas por direitos autorais. Em muitos lugares, simplesmente
reunir uma base de dados, mesmo sem originalidade alguma, torna o banco de
dados suscetvel s leis de direitos autorais. Nos Estados Unidos, em particular,
a tendncia exigir um nvel mnimo de criatividade para que o copyright seja
aplicvel (Feist vs. Rural, uma disputa judicial sobre uma agenda de telefones,
o clssico americano se voc quiser entender melhor). Entretanto, em outros
locais tambm h "direitos sobre dados" separados dos direitos autorais (ainda
assim, h muita sobreposio entre as leis). A mais conhecida dessas leis so os
direitos sobre dadossui generis da Unio Europia. Se voc estiver na Europa,
pode ser uma boa ideia se certificar da permisso antes de publicar uma base de
dados de outra entidade.
Obviamente, esse tipo de restrio no a melhor maneira de desenvolver um
ecossistema de jornalismo de dados. Elas no so boas para a sociedade em
geralantes mesmo dessas regras sui generis vigorarem, cientistas sociais e
intelectuais j alertavam Unio Europeia sobre o malefcio dessas restries.
Pesquisas desde ento mostram que eles estavam certos. Felizmente, como
proprietrio de um banco de dados, voc pode remover dos seus dados esse tipo
de restrio (desde que no contenha elementos que voc no tem permisso
para licenciar), bastando para isso conceder uma permisso prvia. Voc pode
fazer isso atravs de uma licena pblica ou atribuindo o banco de dados ao
domnio pblico. Assim como programadores liberam seu cdigo sob licenas
de open source para que outros possam criar a partir deles, voc, como
jornalista de dados, deve permitir a reproduo de sua coleo de dados e da sua
anlise. H muitas razes para isso. Por exemplo, a sua audincia pode criar
novas visualizaes ou aplicativos para os quais voc pode linkarcomo o The

Guardian faz com seu grupo de visualizao de dados no Flickr. Suas bases de
dados podem ser combinadas a outras para dar a voc e a seus leitores uma
compreenso maior sobre um tema. Coisas que os outros fazem com seus dados
podem dar pistas para novas reportagens, ou ideias de pauta, ou ideias para
outros projetos guiados por dados. E certamente vo lhe trazer aplausos.

Imagem 14. Insgnias Open Data (Open Knowledge Foundation)

Quando algum se d conta de que liberar obras sob licenas pblicas uma
necessidade, a questo se torna "qual licena"? Esse dilema em geral
respondido pelo projeto ou comunidade sobre cujo material voc est
trabalhando, ou para a qual voc espera contribuiruse a mesma licena que
eles. Se voc precisar se aprofundar, comece pelas licenas livres e abertasisto
, nas quais qualquer um tem permisso para qualquer tipo de uso (atribuio
de crdito e compartilhamento pela mesma licena podem ser colocados como
condies). O que as definies de Software Livre e Software Open Source fazem
pelos programas, a Open Knowledge Definition faz para todo o conhecimento,
inclusive bancos de dados: define o que torna uma obra aberta e quais
permisses as licenas do aos usurios.

Voc pode acessar o site da Open Knowledge Definition para verificar


o conjunto de licenas que pode ser usado. Em resumo, h trs categorias de
licenas abertas:
Domnio pblico

Servem como o mximo de permisso; no h condies impostas


reutilizao da obra.
Permisso apenas com atribuio

Atribuir crdito ao autor a nica condio substancial imposta por estas


licenas.
Licenas recprocas, copyleft ou de igual compartilhamento

Exigem que as obras modificadas, se publicadas, devem ser


compartilhadas pela mesma licena.
Se voc est usando uma base de dados publicada por outra pessoa sob uma
licena aberta, considere o pargrafo acima um guia rpido sobre como
atender s condies de licenciamento. As licenas mais comuns, de
Creative Commons, Open Data Commons e de vrios governos, em geral
oferecem um resumo que lhe permitir identificar facilmente quais so as
condies principais. Tipicamente, a licena estar numa pgina de onde a
base de dados pode ser baixada (ou capturada por scraping, porque, claro,
pginas da Web podem conter conjuntos de dados) ou em algum lugar
dentro da prpria planilha, dependendo do formato. So estas marcaes
que voc deve fazer tambm, quando abrir seus bancos de dados.
Voltando ao incio, e se o banco de dados que voc busca ainda no estiver
online, ou estiver protegido por algum tipo de controle de acesso? Ao
solicitar acesso para si mesmo, pense em pedir que os dados sejam abertos
para o mundo inteiro reutilizar. Voc pode at mesmo citar alguns exemplos
de coisas incrveis que podem acontecer com os dados se eles forem

liberados.
bom lembrar que privacidade e outras consideraes podem ser
necessrias no caso de alguns bancos de dados. S porque ter o "open data"
elimina barreiras tcnicas e outras relacionadas ao copyright, no significa
que voc no precise seguir outras leis que se aplicam quele contedo. Mas,
como sempre, h muitos recursos e algumas protees para jornalistas, caso
seu bom senso o leve a investigar bancos de dados mais controversos.
Boa sorte! Mas o mais provvel que voc precise dessa sorte em outras
reas do seu projeto, no no gerenciamento dos (baixos) riscos jurdicos.
Mike Linksvayer, Creative Commons

Familiarizando-se com os dados em trs passos


Da mesma forma como alfabetizao refere-se "habilidade de ler para obter
conhecimento, escrever coerentemente, e pensar criticamente", ser alfabetizado
em dados ter a habilidade de consumir dados para o conhecimento, produzilos de forma coerente, e pens-los de forma crtica. No s entender de
estatstica, mas tambm sobre como trabalhar com grandes conjuntos de dados,
como produzi-los, como conectar vrias bases de dados e como interpret-los.

Imagem 1. Aprofundando-se nos dados (foto: JDHancock)

A Poynters News University oferece aulas de matemtica on line para


jornalistas, nas quais os reprteres recebem ajuda com conceitos como
variaes percentuais e mdias. Curiosamente, esses conceitos so ensinados
tambm perto das salas da Poynter, nas escolas da Flrida a alunos entre 10 e 11
anos, como mostra o currculo.
O fato de jornalistas precisarem de ajuda em questes relacionadas a um
contedo ensinado antes do ensino mdio mostra como as redaes esto longe
de serem alfabetizadas em dados. Isso um problema. Como um jornalista de
dados pode usar uma grande quantidade de dados sobre a mudana climtica se
no sabe o que significa "intervalo de confiana"? Como um reprter de dados

pode escrever um artigo sobre distribuio de renda se no consegue


diferenciar mdia de mediana?
Um reprter no precisa ser graduado em estatstica para se tornar mais
eficiente com dados. Alguns poucos truques podem ajudar a conseguir um
artigo muito melhor. Como diz o professor do Instituto Max Planck Gerd
Gigerenzer, melhores ferramentas no vo levar um melhor jornalismo se
usadas sem conhecimento do assunto.
Mesmo se voc no tem conhecimentos de matemtica ou estatstica, voc pode
se transformar facilmente em um jornalista de dados ocasional ao fazer 3
simples perguntas.
1. Como os dados foram coletados?
Crescimento do PIB espetacular

O jeito mais fcil de mostrar dados espetaculares fabric-los. Soa bvio, mas
dados sobre o Produto Interno Bruto (PIB) podem ser bem enganadores. O exembaixador do Reuino Unido no Uzbequisto Craig Murray diz em seu
livro Murder in Samarkand que as taxas de crescimento no pas asitico so
objeto de intensas negociaes entre o governo local e grupos internacionais. Ou
seja, nada tm a ver com a economia.
O PIB usado como o indicador nmero um porque os governos precisam dele
para supervisionar sua principal fonte de rendaos impostos sobre o consumo.
Quando um governo no financiado por essas taxas, ou quando seu oramento
no pblico, no h razo para coletar dados de PIB e pode se dar melhor
perante aos eleitores fabricando esses dados.
Criminalidade sempre est em ascenso

"O crime na Espanha cresceu 3%", escreve o El Pais. Bruxelas v o aumento de


crimes de imigrantes ilegais e viciados em drogas, diz o RTL. Esse tipo de
relatrio baseado em estatsticas policiais comum, mas no revela muito sobre
violncia.
Podemos confiar que, dentro da Unio Europeia, os dados no costumam ser
adulterados. Mas policiais respondem a incentivos. Quando a performance est
vinculada a uma mtrica baseada em crimes solucionados, por exemplo, os
policiais so incentivados a reportar ao mximo incidentes que no exigem
investigao, como fumar maconha, por exemplo. Com mais crimes como esse,
"fceis de solucionar", a performance dos oficiais fica parecendo melhor. Isso

explica porque crimes ligados a dependentes de drogas na Frana


quadruplicaram nos ltimos 15 anos, enquanto o consumo continua constante.
O que voc pode fazer

Em caso de dvida sobre a credibilidade de um nmero, sempre faa a


checagem, assim como voc costuma fazer com uma citao de um poltico. No
caso do Uzbequisto, um telefonema para algum que viveu no pas por um
tempo suficiente ("Ser que o pas triplicou o PIB desde 1995, como os dados
oficiais indicam?").
Para os dados policiais, os socilogos muitas vezes fazem estudos de
vitimizao, nos quais perguntam s pessoas se elas foram vtimas de crime.
Estes estudos so muito menos volteis do que os dados da polcia.
Provavelmente por isso eles no viram manchete.
Outros testes permitem avaliar com preciso a credibilidade dos dados, tais
como a Lei de Benford (conceito estatstico sobre a probabilidade de apario de
um nmero), mas nenhum ir substituir o seu senso crtico.
2. O que se pode aprender com os dados?
Risco de esclerose mltipla duplica quando se trabalha noite

Certamente qualquer alemo em seu perfeito juzo iria parar de trabalhar em


turnos noturnos depois de ler esta manchete. Mas o artigo no nos diz qual o
risco no fim das contas.
Considere um grupo de mil alemes. Apenas um deles vai desenvolver esclerose
mltipla ao longo de sua vida. Agora, se cada um desses 1.000 alemes
trabalhassem durante a noite, o nmero de doentes de esclerose mltipla iria
saltar para 2. O risco adicional de desenvolver esclerose mltipla quando se
trabalha de noite de 1 em 1.000, no 100%. Certamente esta informao
mais til quando se pondera a possibilidade de assumir um trabalho nesse
horrio.
Em mdia, 1 de cada 15 europeus totalmente analfabeto

O ttulo acima parece assustador. Tambm absolutamente verdadeiro. Entre


os 500 milhes de europeus, 36 milhes provavelmente no sabem ler. Vale
notar que 36 milhes de europeus tambm tm menos de 7 anos (dados do
Eurostat).

Ao escrever sobre uma mdia, sempre pense "mdia de qu?'' A populao de


referncia homognea? Padres de distribuio desigual explicam por que a
maioria das pessoas dirige melhor que a mdia, por exemplo. Muitas pessoas
tm zero ou apenas um acidente durante a sua vida. Alguns motoristas
imprudentes tem um grande nmero, empurrando a mdia do nmero de
acidentes para cima em comparao com o que a maioria das pessoas
experimenta. O mesmo verdade para a distribuio de renda: a maioria das
pessoas ganha menos que a mdia.
O que voc pode fazer

Sempre leve em considerao a distribuio e a taxa bsica. Verificar a mdia e a


mediana (nmero que separa a metade inferior e superior da amostra), assim
como a moda (o valor mais frequente na distribuio), ajuda voc a obter
insights. Saber a ordem de grandeza torna a contextualizao mais fcil, como
no exemplo a esclerose mltipla. Finalmente, falar em frequncias naturais (1
em cada 100) a maneira mais fcil para os leitores entenderem do que
percentuais (1%).
3. Quo confivel a informao?
O problema do tamanho da amostra

"80% esto insatisfeitos com o sistema judicial'', diz uma pesquisa que saiu no
jornal Dirio de Navarra. Como possvel saltar de 800 entrevistados para 46
milhes de espanhis? Certamente os dados esto inflados, no? No.
Ao pesquisar uma grande populao (mais de alguns milhares), voc raramente
precisa de mais de mil participantes para alcanar uma margem de erro inferior
a 3%. Isso significa que, para cada 20 vezes que voc refizesse a pesquisa, 19
apontariam um resultado 3 pontos percentuais acima ou abaixo da distribuio
real daquilo na populao.
Beber muito ch reduz o risco de Acidente Vascular Cerebral (AVC)

Artigos sobre os benefcios de beber ch so comuns. Este do dirio alemo Die


Welt, que diz que o ch reduz o risco de infarto do miocrdio, no exceo.
Embora os efeitos do ch so seriamente estudados por alguns, muitos estudos
deixam de levar em conta fatores de estilo de vida, como dieta, profisso ou
esportes.
Na maioria dos pases, o ch uma bebida para as classes mais ricas,
normalmente mais conscientes sobre a sade. Se os pesquisadores no

controlarem para fatores de estilo de vida nos estudos sobre chs, eles no
permitem dizer nada mais do que "pessoas ricas so mais saudveis -- e
provavelmente bebem ch."
O que voc pode fazer

A matemtica por trs de correlaes e margens de erro nesses estudos est


correta, pelo menos na maior parte do tempo. Mas se os pesquisadores no
procurarem correlaes (por exemplo, beber ch correlaciona-se com a prtica
de esportes), seus resultados so de pouco valor.
Como um jornalista, faz pouco sentido desafiar os resultados numricos de um
estudo, como o tamanho da amostra, ao menos que haja srias dvidas sobre
isso. Entretanto, fcil ver se pesquisadores no levaram em conta pequenos
fatores relevantes.
Nicolas Kayser-Bril, Jornalismo++

Dicas para Trabalhar com Nmeros

A melhor dica para lidar com dados divertir-se. Eles podem parecer
assustadores. Mas deixar-se intimidar no leva a lugar nenhum. Trate-os
como algo a descobrir e explorar e veja como eles vo revelar segredos e
histrias com uma facilidade surpreendente. Pense nisso como um exerccio
de imaginao. Seja criativo e imagine histrias que poderiam ser explicadas
por aqueles dados, e coloque-as a prova. Perguntar "que outra histria
poderia explicar esse fenmeno?" um modo prtico de descobrir como
nmeros grandes ou ruins podem ter uma outra explicao que no esteja
relacionada com o que voc procurava.

No confunda ceticismo com relao aos dados com o cinismo. O ceticismo


bom; o cinismo simplesmente lava as mos e abandona a situao. Se voc
acredita no jornalismo de dados (e claro que acredita, seno no estaria
lendo este livro), precisa acreditar que os dados tm algo melhor para
oferecer que mentiras ou fatos distorcidos para as manchetes. Quando
usados de forma cuidadosa, os dados sempre nos do um profundo
conhecimento. No precisamos ser cnicos nem ingnuos, mas precisamos
estar alertas.

Se eu disser que, durante a recesso, aumentou o consumo de lcool, voc


poderia me responder que porque todo mundo est em depresso. Se eu
disser que diminuiu, porque todos esto quebrados. Em outras palavras, o
que os nmeros dizem no faz diferena para a interpretao que voc est
determinado a fazernormalmente que as coisas so terrveis. O fato aqui
que, se voc acreditar nos dados, tente deix-los falar antes de submet-los
ao seu estado de esprito, crenas ou expectativas. H tantos dados sobre
tudo que, com frequncia, voc vai ser capaz de encontrar algo que confirme
sua crena, seja ela qual for. Em outras palavras, o jornalismo de dados, pelo
menos para mim, acrescenta pouco se voc no tiver a mente aberta. Ele s
ser objetivo se voc se esforar para isso, e no simplesmente porque voc
est se baseando em nmeros.

Incerteza OK. Ns damos aos nmeros uma carga de autoridade e certeza.


Mas, muitas vezes, a resposta que no h resposta, ou que o resultado que
temos muito inexato. Penso que deveramos assumir isso. Se soa como
uma boa maneira de matar reportagens, eu diria que uma tima maneira
de levantar novas questes. Com frequncia h mais de uma forma legtima

de se interpretar os dados. Os nmeros no tm que ser nem verdadeiros


nem falsos.

A investigao uma matria. O relato sobre como voc tentou fazer a sua
descoberta pode ser uma tima pea jornalsitica, mostrando como voc foi
de uma prova outrae isso se aplica s evidncias dos dados, nas quais
raro um nmero ser suficiente. Fontes diferentes oferecem novos ngulos,
novas ideias e uma compreenso mais completa. Me pergunto se no
estamos muito presos a uma vontade de nos mostrar como autoridades e
apresentar uma resposta ao pblicoe, assim, deixamos passar a
oportunidade de nos mostrar como detetives.

As melhores perguntas so as mais antigas: este nmero mesmo


importante? De onde vem? So formas de refletir sobre os dados: o que fica
de lado quando olhamos apenas um nico nmero, as complicaes da vida
real, outras comparaes, agrupamentos ou divises geogrficas que podem
ser feitos. Em resumo, o contexto.

Michael Blastland, jornalista freelance

Primeiros passos para trabalhar com dados


Pelo menos trs conceitos fundamentais devem ser levados em conta na hora de
iniciar um projetos de dados:

A coleta dos dados deve comear com uma lista de perguntas que voc quer
responder.

Dados muitas vezes esto bagunados e precisam ser limpos.

Bases de dados podem ter elementos no documentados.

Imagem 2. Dados bagunados

Saiba quais perguntas voc quer responder

De certa forma, trabalhar com dados como entrevistar uma pessoa. Voc faz
perguntas e faz com que eles revelem as respostas. Assim como uma fonte s
pode informar sobre o que conhece, bases de dados s podem responder
perguntas para as quais tm os registros certos e as variveis adequadas. Isso
significa que voc deve avaliar com cuidado as perguntas para as quais busca
resposta antes mesmo de coletar os dados. Basicamente, o trabalho feito de
trs para frente. Primeiro, liste o que voc pretende demostrar em sua
reportagem usando dados. Depois, decida quais variveis voc deve coletar e
analisar para chegar a esse resultado.
Digamos que voc queira fazer uma reportagem sobre o padres de
criminalidade em sua cidade abordando as horas e os dias em que so mais
frequentes, assim como os locais onde cada tipo de delito acontece mais.

Voc vai se dar conta que sua coleta de dados deve incluir o dia e horrio que
cada crime foi cometido, o tipo de delito (homicdio, furto, roubo, etc.), assim
como o local em que ocorreu. Ento, data, hora, tipo de delito e endereo so as
variveis mnimas que voc precisa para responder suas perguntas.
Veja, porm, que h diversas questes potencialmente interessantes que essas
quatro variveis no podero responder, como a cor e o gnero das vtimas, o
valor roubado, ou quais policiais prendem o maior nmero de criminosos. Alm
disso, s ser possvel conseguir registros abrangendo um determinado perodo,
como os ltimos trs anos. Isso significa que no ser possvel afirmar se os
padres de criminalidade mudaram ao longo da dcada, por exemplo. Essas
perguntas podem estar fora do foco da matria, e tudo bem. O que no d certo
, durante a anlise dos dados, decidir de repente que necessrio saber qual a
porcentagem de crimes que resulta em prises em cada parte da cidade.
Uma lio aqui que normalmente uma boa ideia pedir todos os registros e
variveis de um conjunto de dados, em vez de um recorte que permita apenas
responder s perguntas imediatas da reportagem. (Na verdade, conseguir todos
os dados pode ser mais barato do que um subconjunto, caso seja necessrio
pagar pelo trabalho de programao para selecionar uma parte especfica.) Alm
disso, sempre possvel fazer o recorte por conta prpria e ter o contedo
completo permite responder novas questes que possam surgir e pode render
novas ideias ou sutes para as matrias. Pode acontecer de a divulgao de
algumas variveis ser proibida por leis de confidencialidade, como nome de
vtimas ou informantes. Ainda assim, uma base de dados parcial melhor que
nenhuma, desde que se saiba quais perguntas ela pode ou no responder.
Limpando Dados

Um dos maiores problemas do trabalho com bases de dados que,


frequentemente, as informaes foram coletadas com propsitos burocrticos.
O problema que os padres de exatido e preciso adotados para cada
finalidade so bastante diferentes.
Por exemplo, uma das principais funes da base de dados da justia criminal
garantir que o ru Joo seja levado da cadeia ao juiz Silva na hora da audincia.
Para alcanar esse objetivo, no importa muito se a data de nascimento do Joo
est trocada ou se o endereo est escrito errado. De maneira geral, o sistema
ainda pode usar esse registro imperfeito para levar o Joo para a corte do juiz
Silva na hora marcada.

Mas erros assim podem atrapalhar tentativas de descobrir os padres daquela


base de dados. Por esse motivo, o primeiro grande esforo a ser feito aps
conseguir um conjunto de dados examinar o quo bagunado est e organizlo. Uma forma rpida e boa de fazer isso criar tabelas de frequncia das
categorias, variveis das quais se espera que haja um nmero pequeno de
valores diferentes. (No Excel, por exemplo, isso pode ser feito usando filtros ou
tabelas dinmicas para cada categoria.)
Um exemplo simples a categoria "gnero''. Nesse campo pode haver uma
mistura de valores como esses: Masculino, Feminino, M, F, 1, 0, MASC, FEM,
etc., incluindo erros ortogrficos, como "Femenino". Para fazer uma anlise
correta, necessrio adotar um padrocomo M ou F, talveze ento mudar
todas as variaes para se adequar a essa norma. Outra base de dados que
apresenta esse problema a de financiamento de campanha dos Estados
Unidos, que no campo Ocupao pode listar "Lawyer", "Attorney", "Atty",
"Counsel", "Trial Lawyer", e uma srie de variaes do vocabulrio norteamericano para definir advogados, alm de erros de ortografia; mais uma vez, a
sada padronizar as ocupaes, adotando uma lista menor de possibilidades.
A organizao dos dados se torna ainda mais problemtica quando se trabalha
com nomes. Seriam "Joo Carlos Silva', "Joo Silva" "J.C. Silva" e "J. Carlos
Silva' a mesma pessoa? Talvez seja necessrio verificar outras variveis, como
endereo e data de nascimento ou mesmo uma pesquisa mais aprofundada em
outros registros. Ferramentas como o Google Refine, porm, podem tornar a
arrumao dos dados mais rpida e menos tediosa.
Dados com sujeira

Graas a uma forte legislao para garantir o acesso a informaes pblicas nos
Estados Unidos, conseguir dados aqui no um problema to grande como em
outros pases. Mas ainda precisamos enfrentar dados coletados com propsitos
burocrticos e no analticos. Frequentemente esto "sujos", ou seja, com
valores no padronizados. Vrias vezes recebi dados que no correspondiam ao
suposto formato de arquivo e ao dicionrio de dados que os acompanhavam.
Algumas agncias insistem em enviar dados em formatos inadequados como
.pdf, que precisam ser convertidos. Problemas como esses fazem com que voc
fique grato quando recebe um conjunto de dados sem complicaes.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Bases de dados podem ter elementos no documentados

A Pedra de Rosetta de qualquer base de dados o chamado dicionrio de dados.


Tipicamente, esse arquivo (pode ser texto ou PDF ou mesmo uma planilha) dir
como os dados esto formatados, a ordem das variveis, os nomes de cada
varivel e os tipos de dados de cada varivel. Essa informao ser usada para
importar o arquivo de dados para o software de anlise pretendido (Excel,
Access, SPSS, Fusion Tables, qualquer das diversas variaes de SQL, etc.)
Outro elemento fundamental do dicionrio de dados a explicao dos cdigos
usados pelas variveis. Por exemplo, gnero pode ser codificado de forma que
"1=Masculino" e "0=Feminino." Crimes podem ser codificados de acordo com os
nmeros oficiais de identificao de cada tipo de delito. Registros de
tratamentos hospitalares podem usar qualquer uma das centenas de
combinaes padronizadas de 5 dgitos que identificam os diagnsticos do
paciente. Sem o dicionrio de dados, pode ser difcil ou at impossvel analisar
propriamente essas bases.
No entanto, mesmo com o dicionrio de dados mo, pode haver problemas.
Foi o que aconteceu com reprteres do Miami Herald, na Flrida, quando
faziam uma anlise dos diferentes graus de punio aplicados por juzes a
motoristas embriagados. Os jornalistas conseguiram os registros de
condenaes do sistema judicial e analisaram os nmeros segundo trs
diferentes variveis de sentena constantes do dicionrio de dados: quantidade
de tempo na priso estadual ou federal, quantidade de tempo na cadeia local e
valor da multa. Os nmeros variavam bastante de acordo com o juiz, dando aos
reprteres evidncias para uma matria sobre como alguns magistrados eram
mais duros e outros lenientes.
Para cada juiz, porm, entre 1% e 2% dos casos no mostravam tempo de priso,
de cadeia ou valor de multa. Ento, os grficos mostrando os padres de
sentena mostravam uma pequena parcela de casos identificados como "sem
punio". Quando a matria e os grficos foram publicados houve grita dos
juzes que diziam que o jornal os estava acusando de desrespeitar a lei estadual
que estabelecia como obrigatria a punio de motoristas embriagados.
Os reprteres voltaram ento para o rgo do tribunal que havia produzido o
arquivo com os dados e perguntaram o que havia causado o erro. Eles foram
informados que os casos em questo envolvem rus primrios indigentes.
Normalmente, seriam multados, mas eles no tinham dinheiro. Por isso, os

juzes os sentenciavam a servios comunitrios, como limpar lixo nas ruas. No


fim, souberam que a lei que obrigava os juzes a punir motoristas bbados foi
promulgada depois que a estrutura das bases de dados foi criada. Dessa forma,
todos os funcionrios do tribunal sabiam que, naqueles dados, os zeros nas
variveis priso-cadeia-multa significavam servios comunitrios. No entanto,
isso no foi apontado no dicionrio de dados, e portanto obrigou o Herald a
fazer uma correo.
A lio aprendida nesse caso sempre perguntar a quem forneceu os dados se
h algum elemento no documentado, sejam novos cdigos ainda no includos
no dicionrios de dados, mudanas no formato, ou qualquer outra coisa. Alm
disso, sempre examine os resultados de sua anlise e pergunte "Isso faz
sentido?'' Os reprteres do jornal The Herald tinham um prazo para fazer os
grficos e estavam to concentrados na mdia de punies de cada juiz que no
prestaram ateno nos poucos casos em que no havia punio. Eles deveriam
ter se perguntado se fazia sentido todos os juzes violarem a lei estadual, ainda
que em poucos casos.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University
Dados Misturados, Escondidos e Ausentes

Lembro de uma situao engraada em que tentamos acesso os dados de


subsdios agrcolas concedidos pela Unio Europeia Hungria: estava tudo l
mas em um PDF extremamente pesado e misturado com dados de subsdios
nacionais. Nossos programadores precisaram trabalhar por horas at que os
dados se tornassem teis.
Tambm tivemos uma histria interessante sobre os subsdios europeus pesca,
que todas as agncias de pagamento dos 27 estados-membro so obrigadas a
declarar. Aqui est um trecho retirado de uma reportagem que escrevemos
sobre o assunto: "No Reino Unido, por exemplo, o formato dos dados varia da
muito amigvel busca em pginas HTML a resumos em PDF ou at listas de
recebedores em vrios formatos escondidas no fim de press releases. Tudo isso
em apenas um estado-membro. Na Alemanha e na Bulgria, enquanto isso, se
publicavam listas vazias. Os ttulos apropriados esto l mas sem nenhum
dado.''
Brigitte Alfter, Journalismfund.eu

O po de 32 libras
Uma matria do jornal Wales sobre quanto o governo gals est gastando em
produtos sem glten trouxe na manchete uma informao de que estavam
sendo pagos 32 libras (cerca de R$ 100) por um po. No entanto, eram 11 pes
que custaram 2,82 libras cada.
Os nmeros, obtidos de uma resposta redigida pela Assembleia Galesa e num
release de estatsticas do Servio Nacional de Sade (National Health Service,
NHS) gals, foram listados como custo por item. Entretanto, no foi dada
nenhuma definio adicional no dicionrio de dados para explicar a que se
refere um item ou qual seria sua unidade de medida.
O jornal assumiu que o dado tratava de uma unidade de po, e no de um
pacote com vrios peso que era realmente. Ningum, nem os parlamentares
responsveis pela resposta nem a assessoria de imprensa, levantou a questo
sobre a quantidade at a segunda-feira depois que a histria foi publicada.
Portanto, no assuma que as notas explicativas para os dados do governo vo
ajudar a esclarecer as informaes apresentadas ou que as pessoas responsveis
pelos dados vo perceber que eles no so claros, mesmo quando voc lhes
disser qual sua suposio equivocada.
Geralmente os jornais querem boas manchetes, ento, a menos que algo
obviamente contradiga uma interpretao, mais fcil ficar com o que traz um
bom ttulo em vez de verificar em detalhes e arriscar que a matria caia,
especialmente sob prazos apertados.

Imagem 3. Po sem glten custa aos contribuintes galeses 32 (WalesOnline).

No entanto, jornalistas tm a responsabilidade de checar afirmaes ridculas


mesmo que isso signifique que a matria deixe de ser manchete.
Claire Miller, WalesOnline

Comece com os dados e termine com uma reportagem


Para atrair leitores com jornalismo de dados, voc tem de conseguir mostrar
algum nmero na manchete que os faa sentar e prestar ateno. O texto deve
ser fluido o suficiente para que no se note sua origem: um conjunto de dados.
Pense sobre qual o seu pblico enquanto o desenvolve e tente escrev-lo de
maneira empolgante.
Um exemplo disso pode ser encontrado em um projeto desenvolvido pelo
Bureau of Investigative Journalism utilizando o Sistema de Transparncia
Financeira da Comisso Europeia. A reportagem foi construda aproximando-se
o conjunto de dados de perguntas especficas.
Procuramos nos dados por palavras-chave como "coquetel", "golfe" e "dias
ausentes". Isso nos permitiu determinar quanto a Comisso havia gasto nesses
itens e nos trouxe diversas questes e caminhos a seguir.
No entanto, palavras-chave nem sempre trazem a resposta para o que voc
procuras vezes, preciso fazer uma pausa e pensar sobre o que realmente se
est buscando. Durante esse projeto, tambm queramos descobrir quanto os
membros da comisso gastaram em viagens de jatinhos, mas como o conjunto
de dados no continha os termos "jato particular", tivemos de conseguir o nome
da prestadora de servios de viagem. Assim que soubemos o nome da empresa,
"Abelag", pudemos investigar os dados e descobrir quanto estava sendo gasto
em servios oferecidos pela companhia.
Com essa abordagem, tnhamos um objetivo claro na anlise dos dados
encontrar um nmero para colocar na manchete. Os detalhes viriam em
seguida.
Uma outra abordagem procurar pelo que no deveria estar ali naqueles dados.
Exemplo de como isso funciona mostrado pelo projeto colaborativo EU
Structural Funds (Fundos Estruturais da Unio Europeia), organizado pelo
Financial Times em parceria com o Bureau of Investigative Journalism.
Analisamos os dados com base nas regras da prpria Comisso em relao a
empresas e associaes que deveriam ser proibidas de receber fundos
estruturais. Gastos com tabaco e produtores de tabaco esto proibidos, por
exemplo.

Buscando por nomes de empresas, processadores e produtores de tabaco,


encontramos informaes que revelavam que a British American Tobacco havia
recebido 1,5 milho de euros para uma fbrica na Alemanha.
Como o financiamento no seguia as regras de despesas da Comisso, foi uma
maneira rpida de encontrar uma boa histria nos dados.
Voc nunca sabe o que encontrar num conjunto de dados, ento basta
procurar. Voc deve ser bastante ousado e essa abordagem geralmente funciona
melhor quando tentamos identificar caractersticas bvias por meio de filtragem
(os maiores, os extremos, os mais comuns, etc.).
Caelainn Barr, Citywire

Contando histrias com dados


s vezes, o jornalismo de dados d a impresso de que se limita apresentao
dos dadoscomo visualizaes que transmitem de forma rpida as
informaes, ou bancos de dados interativos que permitem s pessoas pesquisar
locais como ruas ou hospitais. Tudo isso muito valioso, mas o jornalismo de
dados tambm deve contar histrias. Mas quais so os tipos de histrias que
voc encontra em bases de dados? Com base em minha experincia na BBC,
elaborei uma lista, ou "tipologia", de diferentes tipos de histrias vindas de
dados.
Acho que ajuda ter esta lista sempre em mente. No s quando voc est
analisando os dados, mas tambm no momento anterior, de coleta (seja
pesquisando bancos de dados pblicos ou fazendo pedido pela lei de acesso
informao).
Medio

A histria mais simples contar ou totalizar algo: "Prefeituras de todo o


pas gastaram tantos bilhes em clipes de papel no ltimo ano."
Frequentemente, difcil saber se isso muito ou pouco. Para isso,
necessrio contexto, que pode ser obtido por meio de:
Proporo

"No ltimo ano, as prefeituras gastaram dois teros de seu oramento de


papelaria em clipes de papel."
Comparao interna

"As prefeituras gastaram mais em clipes de papel do que enviando


refeies a domiclio para idosos."
Comparao externa

"O gasto das prefeituras em clipes de papel ao longo do ltimo ano foi o
dobro do oramento nacional de ajuda externa."
Tambm h outras formas de explorar os dados de maneira contextualizada ou
comparativa:
Mudana ao longo do tempo

"Os gastos das prefeituras em clipes de papel triplicou ao longo dos


ltimos quatro anos."
"Tabelas de classificao"

So normalmente geogrficas ou por instituio, e voc precisa se


certificar de que a base de comparao seja razovel (por exemplo,
levando em considerao o tamanho da populao local). "A prefeitura de
Borsetshire gasta mais em clipes para cada funcionrio do que qualquer
outra autoridade local, cerca de quatro vezes a mdia nacional."
Ou voc pode dividir os temas dos dados em grupos:
Anlise por categorias

"Prefeituras administradas pelo Partido Roxo gastam 50% mais em clipes


de papel do que as administradas pelo Partido Amarelo."
Ou voc pode relacionar fatores numericamente:
Associao

"Prefeituras administradas por polticos que receberam doaes de


empresas de papelaria gastam mais em clipes de papel, com gastos
mdios de 100 libras para cada libra doada."
Mas, claro, sempre lembre que correlao e nexo de causalidade no so a
mesma coisa.
Ao investigar gastos com clipes de papel, certifique-se de que se preocupou
com a coleta das seguintes informaes:

Gastos totais para dar um contexto

Relaes geogrficas/histricas/outras para fornecer dados comparativos

Os dados adicionais que voc precisa para dar credibilidade s


comparaes so justos, levando em conta o tamanho da populao?

Outros dados que proporcionem anlises interessantes ao compar-los


ou relacion-los com os gastos

Martin Rosenbaum, BBC

Jornalistas de dados comentam suas ferramentas preferidas


Psssss. Esse o som da descompresso dos dados. E agora? O que voc procura?
E que ferramentas so necessrias para sair do lugar? Pedimos a alguns
jornalistas de dados que comentassem como trabalham com as informaes
encontradas. Veja o que dizem:
No Guardian Datablog, fazemos questo de interagir com nossos leitores. Como
eles tm a chance de ver e replicar nosso contedo com rapidez, acabam
notando detalhes que nos escapam. Nesse contexto, quanto mais intuitivas
forem as ferramentas de dados, melhor. Tentamos selecionar ferramentas
acessveis a qualquer um, sem que seja preciso pagar, aprender uma linguagem
de programao ou fazer algum treinamento especial.
Por isso usamos bastante os produtos do Google. Todos os conjuntos de dados
que organizamos e divulgamos so oferecidos ao pblico na forma de planilhas
do Google. Qualquer pessoa que tenha uma conta no servio pode baixar essas
informaes, elaborar seus prprios grficos, organiz-las e criar tabelas
dinmicas.
Usamos o Google Fusion Tables para mapear os dados. Quando criamos mapas
de calor, compartilhamos os arquivos em formato KML. Assim, os leitores
podem baix-los e construir seus prprios mapas de calortalvez adicionando
camadas extras ao original do Datablog. Outra caracterstica interessante das
ferramentas do Google que funcionam bem nos diferentes dispositivos usados
pelos leitores para acessar o blog, seja o computador, tablet ou smartphone.
Alm do Google Spreadsheets e do Fusion, utilizamos outras duas ferramentas
no nosso dia a dia. A primeira o Tableau, para visualizar conjuntos de dados
multidimensionais; e a segunda o ManyEyes, para rpidas anlises dos dados.
Nenhuma delas perfeita, por isso continuamos procurando outras ferramentas
de visualizao que agradem aos nossos leitores.
The Guardian Lisa Evans

Ser que algum dia vou ser programadora? Dificilmente! Certamente no acho
que todos os reprteres precisam aprender a programar. Mas acredito que
muito til ter uma noo geral do que possvel fazer, alm, claro, de saber
como conversar com programadores.
Se voc est comeando agora, v com calma. Primeiro, preciso convencer
seus colegas e editores de que o jornalismo de dados vale a pena. Isso porque

pode gerar reportagens nicas e impossveis de se obter de outras maneiras.


Uma vez notado o valor dessa abordagem, voc pode partir para matrias e
projetos mais complexos.
Meu conselho que, a princpio, voc aprenda a usar o Excel e faa reportagens
mais simples. Comece aos poucos e v aprimorando a anlise e o mapeamento
de bases de dados. possvel fazer tanta coisa no Exceluma ferramenta
poderosa pouco explorada pela maioria das pessoas. Se puder, faa um curso de
Excel para jornalistas, como o que oferecido pelo Centre for Investigative
Journalism.
Sobre a interpretao dos dados: leve com muita seriedade. Fique atento aos
detalhes e questione seus resultados. Mantenha anotaes sobre como voc est
processando os dados e faa uma cpia de documentos e arquivos originais.
fcil cometer erros. Sempre fao minhas anlises duas ou trs vezes
praticamente do zero. E ainda melhor se voc pedir ao seu editor ou a alguma
outra pessoa que analise os dados separadamente, de forma a comparar os
resultados.
Financial Times Cynthia O'Murchu

A habilidade de criar softwares complexos to rapidamente quanto um reprter


escreve uma reportagem um fenmeno recente. Isso costumava levar muito
mais tempo. As coisas mudaram graas ao surgimento de duas plataformas de
desenvolvimento grtis e de cdigo aberto: Django e Ruby on Rails, ambas
lanadas em meados do ano 2000.
O Django, construdo na linguagem de programao Python, foi desenvolvido
por Adrian Holovaty ao lado de uma equipe que trabalhava na redao do
Lawrence Journal-World em Lawrence, cidade do estado norte-americano do
Kansas. O Ruby on Rails foi criado em Chicago por David Heinemeier Hansson
e a 37Signals, empresa focada em aplicativos web.
As duas plataformas abordam o "padro MVC" de arquitetura de software de
formas diferentes, so excelentes e permitem construir rapidamente at mesmo
aplicativos mais complexos. Elas eliminam parte do trabalho rudimentar ligado
ao desenvolvimento de um programa. Coisas como criar e localizar itens da base
de dados e relacionar URLs com cdigos especficos do app j vm incorporadas
s plataformas, dispensando os programadores de escrever cdigos para essas
aes bsicas.

No h uma pesquisa sobre as equipes que desenvolvem aplicativos de notcias


nos Estados Unidos, mas acredita-se que a maioria delas utiliza uma dessas
plataformas para criar apps noticiosos que utilizam bases de dados. No
ProPublica, usamos o Ruby on Rails.
O desenvolvimento de servidores web rpidos, como o Amazon Web Services,
tambm derrubou parte das barreiras que tornavam lenta a criao de
aplicativos.
Independentemente disso, usamos ferramentas bem comuns para trabalhar
com dados: Google Refine e Excel para limpar os dados; SPSS e R para
estatsticas; ArcGIS e QGIS para sistemas de informao geogrfica (GIS); Git
para gerenciar cdigos-fonte; TextMate, Vim e Sublime Text para escrever
cdigos; e uma mistura de MySQL, PostgresSQL e SQL Server para bases de
dados. Tambm criamos nossa prpria plataforma JavaScript, chamada "Glass",
que permite desenvolver rapidamente aplicativos interativos em Java.
ProPublica Scott Klein

s vezes, a melhor ferramenta a mais simples fcil subestimar o poder de


uma planilha. Usar um planilha quando tudo ainda era em DOS me permitiu
entender uma complexa frmula para o acordo de parceria entre os donos do
clube de beisebol Texas Rangersna poca em que George W. Bush era um de
seus principais scios. Uma planilha me ajuda a perceber discrepncias e erros
nos clculos. E ainda posso escrever scripts para limpeza dos dados e muito
mais. um item bsico no pacote de ferramentas de um jornalista de dados.
Dito isso, minhas ferramentas favoritas so ainda mais poderosasSPSS para
anlises estatsticas e programas de mapeamento para identificar padres
geograficamente.
The Seattle Times Cheryl Phillips

Sou um grande f do Python. Trata-se de uma maravilhosa linguagem de


programao, de cdigo aberto, fcil de ler e de escrever (voc no precisa
colocar um ponto e vrgula depois de cada linha). Mais importante, o Python
tem uma grande base de usurios e conta com diversos plugins (chamados de
pacotes) para qualquer coisa que voc precise.
Considero o Django uma ferramenta pouco necessria para jornalistas de dados.
Trata-se de uma plataforma web para a linguagem Pythonuma ferramenta

para criar aplicativos grandes relacionados a bases de dados. O Django


definitivamente muito pesado para pequenos infogrficos interativos.
Tambm uso o QGis, uma ferramenta de cdigo aberto que oferece uma ampla
gama de funes para jornalistas de dados que trabalham com informaes
geogrficas. Se voc precisa converter dados geoespaciais de um formato a
outro, QGis a ferramenta ideal por ser compatvel com praticamente todos os
formatos existentes (Shapefiles, KML, GeoJSON, etc.). Se for preciso cortar
algumas regies, o QGis tambm faz isso. E tem a vantagem de contar com uma
grande comunidade de usurios que publicam tutoriais na internet.
O programa R foi criado essencialmente como uma ferramenta de visualizao
cientfica. difcil encontrar algum mtodo de visualizao ou tcnica de
manipulao de dados que ele j no tenha. Trata-se de um universo prprio, a
Meca da anlise visual de dados. A desvantagem que voc precisa aprender
(mais uma) linguagem de programao, pois o R tem uma linguagem prpria.
Mas depois de iniciada a escalada na curva de aprendizagem, no vai haver
ferramenta mais poderosa do que esse software. Jornalistas de dados podem
usar o R para analisar grandes conjuntos de dados que ultrapassem os limites
do Excel (por exemplo, uma tabela com um milho de linhas).
O que realmente muito legal no R a possibilidade de manter um "protocolo"
exato do que voc est fazendo com os dadosda leitura de um arquivo CSV
criao de grficos. Se os dados mudarem, voc recria o grfico com um clique.
Caso algum fique curioso quanto integridade do material, s mostrar a
fonte exata, que tambm permite que qualquer pessoa recrie o grfico por conta
prpria (ou talvez identifique os erros que voc cometeu).
A combinao NumPy + MatPlotLib um modo de fazer a mesma coisa na
linguagem Python. So dois exemplos de pacotes em Python usados para
anlises e visualizao de dados, ambos so limitados a visualizaes estticas.
Porm, no podem ser empregados na criao de grficos interativos mais
avanados.
No uso o MapBox, mas ouvi falar que uma boa ferramenta para criar mapas
mais sofisticados baseados no OpenStreetMap. Ele permite, por exemplo,
personalizar os estilos nos mapas (cores, textos, etc). E tambm tem um
companheiro, chamado Leaflet, que uma biblioteca JavaScript de alto nvel
para mapear que permite alternar rapidamente entre os fornecedores de mapas
(OSM, MapBox, Google Maps, Bing, etc.).

RaphaelJS uma biblioteca de visualizao mais simples para trabalhar com


formas bsicas (crculos, linhas, texto). possvel fazer animaes com os
elementos, adicionar interaes, entre outros recursos. Como no contm
qualquer modelo para ser usado como base de grficos, preciso desenhar um
conjunto de retngulos por conta prpria.
Apesar disso, o lado bom do Raphael que tudo o que voc fizer nele funciona
tambm no Internet Explorer. Esse no o caso de muitas outras
(maravilhosas) bibliotecas de visualizao, como o d3. Infelizmente, muitos
ainda usam o IE e nenhuma redao deveria ignorar esses 30% de seus
usurios.
Alm do RaphaelJS, h tambm a opo de criar alternativas em Flash para o
IE. basicamente o que o The New York Times est fazendo. Isso significa que
voc tem que desenvolver cada aplicativo duas vezes.
Ainda no estou convencido sobre o "melhor'' processo para conciliar a
visualizao no Internet Explorer e em outros navegadores modernos. Muitas
vezes, noto que os aplicativos em RaphaelJS so horrivelmente lentos no IE,
mais ou menos dez vezes mais devagar do que rodam em Flash nos browsers
modernos. Assim, alternativas em Flash podem ser a melhor opo se voc
quiser oferecer visualizaes animadas e de alta qualidade para todos.
Open Knowledge Foundation Gregor Aisch

Minha ferramenta mais til o Excel, que pode lidar com a maioria dos
problemas de Reportagem com Auxlio de Computador (RAC) e tem a vantagem
de ser fcil de aprender e estar disponvel para a maioria dos reprteres.
Quando preciso unir tabelas, costumo usar o Access, mas depois exporto o
contedo de volta ao Excel para continuar o trabalho. Utilizo o ArcMap da ESRI
para anlises geogrficas; uma ferramenta poderosa utilizada por agncias que
coletam dados geocodificados. O TextWrangler bom para examinar dados
textuais por meio de layouts peculiares e delimitados, e tem a opo de localizar
e substituir expresses regulares. Quando tcnicas estatsticas como a regresso
linear so necessrias, utilizo o SPSS, que tem um menu intuitivo. Para
trabalhos ainda mais pesados, por exemplo filtrar e programar conjuntos de
dados com milhes de registros, recorro ao SAS.
Walter Cronkite School of Journalism Steve Doig

Nossas ferramentas incluem Python e Django para hackear, capturar dados de


pginas (scraping) e brincar com eles; e o PostGIS, QGIS e MapBox para criar
mapas online mirabolantes. R e a dupla NumPy + MatPlotLib disputam nossa
preferncia para fazer a anlise exploratria dos dados, embora nossa
ferramenta predileta ainda est amadurecendo: CSVKit. De certa forma, tudo o
que fazemos desenvolvido na nuvem.
Chicago Tribune Brian Boyer

No La Nacin, costumamos utilizar:

Excel para limpar, organizar e analisar os dados;

Planilhas do Google para publicar os dados e conect-los com servios como


o Google Fusion Tables e o Junar Open Data Platform;

Junar para compartilhar dados ou incorpor-los a algum de nossos posts no


blog;

Tableau Public para visualizaes interativas de dados;

Qlikview, uma ferramenta de inteligncia de negcios muito rpida para


analisar e filtrar grandes conjuntos de dados;

NitroPDF para converter PDFs para texto e arquivos de Excel; e

Google Fusion Tables para visualizaes de mapa.


La Nacin (Argentina) Anglica Peralta Ramos

Como o Transparncia Hacker uma comunidade sem preconceito tcnico,


usamos diversas ferramentas e linguagens de programao. Cada membro tem
suas preferncias, e essa grande variedade ao mesmo tempo nossa fora e
nossa fraqueza. Alguns de ns esto produzindo uma distribuio de Linux da
Transparncia Hacker, que nos permitir trabalhar com os dados em qualquer
lugar. Esse kit tem algumas ferramentas e bibliotecas muito teis, como: Refine,
RStudio e o OpenOffice Calc (comumente subestimado pelos mais experientes,
mas muito til para trabalhos rpidos/pequenos). Tambm temos utilizado
muito o Scraperwiki para fazer prottipos e salvar os resultados online.

Para a visualizao de dados e grficos, gostamos de muitas ferramentas, como


Python e NumPy, que so muito poderosas. Algumas pessoas na comunidade
tm brincado com o R, mas ainda acho que bibliotecas JavaScript para plotagem
de grficos como d3, Flot e RaphaelJS acabam sendo empregadas na maioria
dos nossos projetos. Por fim, temos feito muitas experincias com mapas, e o
Tilemill tem se mostrado uma ferramenta de trabalho muito interessante.
Transparncia Hacker Pedro Markun

Como mostramos os dados no Verdens Gang


Jornalismo levar novas informaes ao leitor o mais rpido possvel. A forma
mais rpida pode ser um vdeo, uma fotografia, um texto, um grfico, uma
tabela ou uma combinao de tudo isso. A respeito de visualizaes, o objetivo
deve ser o mesmo: informao rpida. Novas ferramentas de dados permitem
aos jornalistas encontrar histrias com as quais eles no teriam contato de outra
forma, assim como apresent-las de novas maneiras. Aqui esto alguns
exemplos de como ns apresentamos dados no jornal mais lido na Noruega, o
Verdens Gang (VG).
Nmeros

Esta histria baseada em dados do Instituto de Estatsticas Noruegus, dados


de contribuintes e dados do monoplio nacional de loterias. No grfico
interativo abaixo, o leitor podia encontrar diferentes tipos de informao de
cada municipalidade ou condado noruegus. A tabela mostra a porcentagem da
renda gasta em jogos e foi construda usando-se o Access, Excel, MySql e Flash.

Imagem 23. Mapeando dados dos contribuintes e da Lotto (Verdens Gang)

Redes

Ns utilizamos anlises de redes sociais para estudar as relaes entre os 157


filhos e filhas das pessoas mais ricas da Noruega. Nossa investigao mostrou

que os herdeiros dos mais ricos da Noruega tambm herdaram as redes sociais
dos seus pais. Ao todo, foram mais de 26.000 conexes, e os grficos foram
todos finalizados manualmente com o Photoshop. Usamos Access, Excel, Bloco
de Notas e a ferramenta de anlise de redes sociais Ucinet.

Imagem 24. Aves ricas de mesma plumagem voam juntas (Verdens Gang)

Mapas

Neste mapa de calor animado combinado com um grfico simples de barras,


voc pode ver a incidncia de crimes no centro de Oslo, hora a hora, no fim de
semana, por vrios meses. No mesmo mapa, possvel conferir o nmero de
oficiais da polcia trabalhando ao mesmo tempo. Quando o crime est realmente
acontecendo, a quantidade de policiais est no nvel mais baixo. O mapa foi feito
usando ArcView com Spatial Analyst.

Imagem 25. Mapa de calor animado (Verdens Gang)

Minerao de texto

Para esta visualizao, fizemos minerao de dados (extrao de padres ocultos


em bases de dados) nos discursos feitos por sete lderes de partidos noruegueses
durante suas convenes partidrias. Todos os discursos foram analisados, e
esses estudos forneceram ngulos para algumas reportagens. Cada reportagem
foi relacionada a um grfico e os leitores puderam explorar e conhecer melhor a
linguagem dos polticos. Essa visualizao foi feita usando Excel, Access, Flash e
Illustrator. Se tivesse sido feito em 2012, teramos feito o grfico interativo em
JavaScript.

Imagem 26. Minerao de texto dos discursos de lderes partidrios (Verdens Gang)

Concluso

Quando precisamos visualizar uma reportagem? Na maioria das vezes no


precisamos, mas h momentos em que queremos fazer isso para ajudar nossos
leitores. Reportagens que contm uma grande quantidade de dados geralmente
precisam de visualizao. No entanto, temos de ser crticos ao escolher que tipo
de dados vamos apresentar. Conhecemos todos os detalhes quando informamos
sobre algo, mas o que o leitor realmente precisa saber na reportagem? Talvez
uma tabela seja suficiente, ou um grfico simples mostrando uma evoluo do
ano A para o ano C. Ao trabalhar com jornalismo de dados, a questo no
necessariamente apresentar grandes quantidades de dados. sobre jornalismo!

Tem havido uma tendncia clara nos ltimos trs anos para criar grficos
interativos e tabelas que permitem ao leitor se aprofundar em temas diferentes.
Uma boa visualizao como uma boa fotografia. Voc entende do que se trata
s de olhar para ela por um momento ou dois. Quanto mais voc olhar para a
visualizao, mais voc a v. A visualizao ruim quando o leitor no sabe por
onde comear ou terminar, e quando a visualizao est sobrecarregada de
detalhes. Neste cenrio, talvez um texto seja melhor, no?
John Bones, Verdens Gang

Dados pblicos viram sociais


Os dados tm valor inestimvel. O acesso a eles tem o potencial de jogar luz
sobre diversos assuntos de uma forma que impulsiona resultados. No entanto,
um mau tratamento dos dados pode colocar os fatos em uma estrutura que no
comunica nada. Se no promover discusso ou proporcionar um entendimento
contextualizado, os dados podem ter um valor limitado para o pblico.
A Nigria voltou para a democracia em 1999, depois de longos anos de ditadura
militar. Sondar os fatos por trs dos dados era uma afronta autoridade e visto
como uma tentativa de questionar a reputao da junta. A Lei de Segredos
Oficiais levou os funcionrios pblicos a no compartilhar informaes do
governo. Mesmo 13 anos depois da volta da democracia, acessar dados pblicos
pode ser uma tarefa difcil. Quando se trata de informaes sobre gastos
pblicos, por exemplo, difcil pass-las de uma maneira clara para a maioria
da audincia, que no conhece bem contabilidade financeira.
Com o aumento do nmero de celulares e de nigerianos online, vimos uma
imensa oportunidade de usar tecnologias de visualizao de dados para explicar
e engajar as pessoas em torno s despesas pblicas. Para isso, tnhamos que
envolver os usurios em todas as plataformas, assim como chegar aos cidados
por meio de ONGs. Lanamos o projeto BudgIT, que visa fazer dos dados
pblicos um objeto social, e construir um extensa rede que demande mudanas.

Imagem 27. Aplicativo The BudgIT (BudgIT Nigeria)

Para conseguir engajar os usurios, temos que entender o que eles querem. Com
o que o cidado nigeriano se preocupa? Onde eles veem uma lacuna de
informao? Como podemos tornar os dados relevantes para suas vidas? O alvo
imediato do BudgIT o nigeriano de educao mdia, conectado a fruns online
e mdias sociais. Para competir pela ateno de usurios, temos que apresentar
os dados de maneira breve e concisa. Aps transmitir uma prvia dos dados na
forma de um tweet ou infogrfico, h oportunidade para um envolvimento
sustentado. Isso pode ser feito por meio de uma experincia mais interativa, a
fim de entregar aos usurios um contexto mais amplo.
Na visualizao de dados, importante entender o nvel de compreenso que os
usurios tm desse tipo de informao. Por mais bonitos e sofisticados que
sejam, vimos que diagramas complexos e aplicativos interativos podem no ser
ideais para uma comunicao efetiva com os nossos leitores. Uma boa
visualizao vai falar com o usurio por meio de um uma linguagem que ele
entenda, assim como contar uma histria com a qual ele sinta uma conexo
imediata.
Conseguimos engajar mais de 10 mil nigerianos na questo do oramento, e os
dividimos em trs categorias para dar a eles informaes de maior valor. As
categorias esto explicadas resumidamente abaixo:

Usurios ocasionais

Querem informao de forma simples e rpida. Esto interessados em ter


uma ideia geral dos dados, no em anlises detalhadas. Podemos atrailos com tweets ou grficos interativos.
Usurios ativos

Estimulam a discusso e usam os dados para melhorar seus


conhecimentos sobre determinada rea ou desafiar as suposies ligadas
a eles. Para esses usurios, queremos oferecer mecanismos de feedback e
a possibilidade de que compartilhem ideias com seus pares pelas redes
sociais.
Consumidores massivos de dados

Querem dados brutos para visualizao ou anlise. Ns simplesmente


damos a eles as informaes que desejam.
Com o BudgIT, o engajamento do nosso usurio baseado em:
Estimular discusses sobre tendncias atuais

O BudgIT acompanha discusses online e offline e procura fornecer


dados sobre os assuntos atuais. Por exemplo, durante as greves do setor
de combustveis de janeiro de 2012, houve agitao constante entre os
manifestantes com relao necessidade de reinstituir os subsdios ao
combustvel e reduzir gastos pblicos exagerados e desnecessrios. O
BudgIT acompanhou o debate pelas mdias sociais e, em 36 trabalhosas
horas, construiu um aplicativo que permite aos cidados reorganizar o
oramento nigeriano.
Bons mecanismos de feedback

Tentamos engajar os usurios por meio de canais de discusso e das


redes sociais. Muitos querem conhecer as histrias ligadas aos dados,
enquanto outros perguntam nossa opinio. Garantimos que nossas
respostas expliquem apenas os fatos por trs dos dados, sem vnculos
com vises pessoais ou polticas. Precisamos manter abertos os canais de
feedback, responder ativamente a comentrios e envolver a audincia
criativamente para garantir que a comunidade construda ao redor dos
dados se mantenha.
Tornar local

Para uma base de dados voltada a um grupo especfico de usurios, o


BudgIT tenta localizar ou adaptar seu contedo e promover um canal de
discusso que se conecte s suas necessidades. Em particular, estamos
interessados em engajar o pblico por meio de mensagens SMS.
Depois de publicar dados de gastos no site yourbudgit.com, chegamos aos
cidados com a ajuda de vrias ONGs. Tambm planejamos desenvolver
uma rede participativa em que os cidados e instituies governamentais
se encontrem em prefeituras para definir itens fundamentais do oramento
a serem priorizados.
O projeto teve cobertura de mdia local e estrangeira, da CP-Africa BBC.
Fizemos uma anlise dos oramentos de 2002-2011 para o setor de
segurana para uma jornalista da AP, Yinka Ibukun. A maioria das
organizaes de mdia composta por "usurios pesados de dados" e nos
pede informaes para usar em reportagens. Estamos planejando mais
colaboraes com jornalistas e organizaes de notcias ao longo dos
prximos meses.
Oluseun Onigbinde, BudgIT Nigeria

Engajando pessoas nos seus dados


To importante quanto publicar dados obter uma reao da audincia. Voc
humano; vai cometer erros, perder coisas e ter ideias erradas de tempos em
tempos. A sua audincia um dos bens mais teis que voc tem. Ela pode
verificar fatos e apontar outras coisas que no foram consideradas.
Engajar o pblico, no entanto, complicado. Voc est lidando com um grupo
de pessoas condicionadas por anos de uso da internet, de navegao de site em
site, e que deixam apenas um comentrio sarcstico ao longo de suas
caminhadas. Construir uma relao de confiana com seus usurios crucial;
eles precisam saber o que vo obter, como reagir e dar feedback ao que ser
ouvido.
Mas primeiro preciso pensar no pblico que voc tem, ou que deseja ter. O
pblico que vai ser informado e informar por meio do tipo de dados com os
quais voc trabalha. Se a audincia est ligada a um setor particular, ser
necessrio explorar formas de comunicao personalizadas. Existem
organizaes que voc pode contatar para que ajudem na divulgao do material
a um pblico mais amplo? Existem sites comunitrios ou fruns com os quais
conversar? H publicaes comerciais especializadas que gostariam de ajudar
na confeco de sua reportagem?
As redes sociais tambm so uma ferramenta importante. No entanto, mais uma
vez, dependem do tipo de dados sobre a mesa. Se estiver trabalhando com
estatsticas globais de transportes, por exemplo, vai ser complicado encontrar
um grupo no Facebook ou no Twitter especialmente interessado nas suas
atividades. Por outro lado, se estiver peneirando ndices mundiais de corrupo
ou de crimes locais, ser mais fcil achar pessoas preocupadas com esses
assuntos.
Quando se trata do Twitter, a melhor abordagem entrar em contato com perfis
de personalidades pblicas, explicando brevemente a importncia de seu
trabalho e incluindo um link. Com sorte, eles retuitaro a mensagem aos seus
leitores. Esta uma tima forma de aumentar a exposio do seu trabalho com
um esforo mnimoe sem atormentar as pessoas!
Depois de obter leitores para a sua pgina, pense em como eles vo interagir
com seu trabalho. Claro, podem ler a histria que voc escreveu e ver mapas e
infogrficos. Mas imensamente valioso oferecer tambm canais de resposta.

Mais que tudo, eles podem contribuir com ideias sobre o tema tratado,
ajudando a definir as prximas tarefas do projeto de cobertura.
Primeiro, no precisa nem dizer que o ideal publicar os dados brutos em suas
reportagens. Voc pode apresentar os dados em uma planilha CSV ou hospedlos em outros servios, como o Google Docs. Assim, voc ter apenas uma
verso dos dados e poder atualiz-la a qualquer momento, por exemplo para
corrigir possveis erros. Se puder, a melhor alternativa fazer as duas coisas.
Permita que as pessoas acessem as informaes brutas da sua reportagem da
forma mais fcil possvel.
Ento, pense em outras formas de interagir com o pblico. Acompanhe as
mtricas que revelam quais partes de suas bases de dados esto conseguindo
mais ateno provvel que as reas de maior trfego digam algo sobre
detalhes que voc tenha perdido. Por exemplo, voc pode no ter dado destaque
para as estatsticas de pobreza da Islndia, mas se esses blocos recebem muitas
visitas, porque pode valer a pena estud-los melhor.
Pense alm da caixa de comentrios. Voc pode anexar comentrios a clulas
particulares de uma planilha? Ou a uma regio especfica de um infogrfico?
Enquanto a maioria dos sistemas de edio no permitem esse tipo de
incorporao de informaes, vale a pena avaliar essa possibilidade se estiver
criando um material mais elaborado. Os benefcios que esse recurso pode trazer
aos seus dados no podem ser subestimados.
Certifique-se de que os demais usurios tambm vejam esses comentriosem
muitos casos, eles tm quase tanta importncia quanto os dados originais, e se
voc mantiver essa informao somente para si, vai privar o pblico desse valor.
Finalmente, outras pessoas podem querer publicar seus prprios infogrficos e
histrias baseados nas mesmas fontes de dados. Por isso, pense em qual a
melhor forma de vincul-los e alinhar o trabalho deles. Voc tambm pode usar
uma hashtag especfica para o conjunto de dados. Ou, se ele for muito pictrico,
compartilhe em um grupo do Flickr.
Tambm pode ser til contar com uma via confidencial de compartilhamento de
informaes. Em alguns casos, algumas pessoas podem no se sentir seguras de
fazer suas contribuies publicamente, ou mesmo no se sentir confortveis
nesse contexto. Elas podem preferir submeter informaes por meio de um
endereo de e-mail, ou at mesmo usar uma caixa de comentrios annimos.

A coisa mais importante que voc pode fazer com seus dados divulg-los da
forma mais ampla e aberta possvel. Permitir que os leitores verifiquem seu
trabalho, encontrem erros e apontem detalhes perdidos que tornaro melhores
tanto o seu jornalismo como a experincia do pblico.
Duncan Geere, Wired.co.uk

Comunicando os dados

Depois de observar bem os dados e decidir que eles rendem uma boa matria,
como voc transmite tudo isso ao pblico? Esta seo comea com histrias
curtas sobre como os jornalistas tm mostrado dados aos leitoresindo de
infogrficos e plataformas de dados abertos a links de download. Vamos
examinar com mais detalhes como construir aplicativos de notcias e os prs e
contras da visualizao de dados. Finalmente, daremos uma olhada no que se
pode fazer para engajar o pblico no seu projeto.

O que h neste captulo?

Apresentando os dados ao pblico

Como construir um aplicativo jornalstico

Aplicativos jornalsticos no ProPublica

A visualizao como carro-chefe do jornalismo de dados

Usando visualizao para contar histrias

Grficos diferentes contam histrias diferentes

O faa-voc-mesmo da visualizao de dados: nossas ferramentas favoritas

Como mostramos os dados no Verdens Gang

Dados pblicos viram sociais

Engajando pessoas nos seus dados

Apresentando os dados ao pblico


H muitas maneiras de apresentar dados ao pblicoda publicao de bancos
de dados brutos em reportagens at a criao de belas visualizaes e aplicativos
interativos. Pedimos a alguns dos principais jornalistas de dados que dessem
dicas sobre como fazer essa apresentao das informaes.
Fazer ou no visualizaes?

H momentos em que os dados so a melhor opo para contar uma histria, e


no texto ou fotos. por isso que expresses como "aplicativo de notcias'' e
"visualizao de dados'' viraram chaves em muitas redaes. A atual safra de
novas ferramentas e tecnologias (muitas vezes gratuitas) tambm desperta
interesse na rea. Elas ajudam at o jornalista com menos conhecimentos
tcnicos a transformar dados em narrativa visual.
Ferramentas como o Google Fusion Tables, Many Eyes, Tableau e Dipity
facilitam muito a criao de mapas, tabelas, grficos e at mesmo aplicativos de
dadosalgo at ento limitado a especialistas. Com a facilidade de acesso s
ferramentas, a questo no mais se possvel transformar os dados numa
visualizao, mas quando se deve ou no faz-lo.Uma visualizao ruim de
dados pior do que nenhuma em muitos aspectos.
Aron Pilhofer, New York Times
Usando animaes grficas

Desde que tenham um roteiro preciso, animaes bem-cronometradas e


explicadas claramente podem dar vida a nmeros ou ideias complexas
orientando o pblico pela reportagem. As palestras em vdeo de Hans Rosling
so um bom exemplo de como os dados ganham vida na hora de contar uma
histria na tela. Concorde ou no com sua metodologia, tambm acho o trabalho
da Economist, ndice de vulnerabilidade revoluo dos pases rabes, um bom
exemplo do uso do vdeo para ilustrar uma reportagem baseada em nmeros.
Voc no iria, ou no deveria, apresentar o grfico da Economist como uma
imagem esttica. H muita coisa acontecendo. Mas vendo o passo a passo de
como foi desenvolvido, voc entende como e por que se chegou ao ndice.
Grficos em movimento reforam o que o pblico est ouvindo. Uma voz em off,
com efeitos visuais explicativos, um recurso muito poderoso e memorvel ao
contar uma histria.
Lulu Pinney, designer freelance de infogrficos

Mostrando ao mundo

Nosso fluxo de trabalho geralmente comea com o Excel. uma maneira fcil e
rpida de se trabalhar os dados. Se identificamos informaes valiosas, vamos
redaotemos a sorte de estar ao lado da redao principal do Guardian.
Ento, observamos como devemos visualizar ou exibir os dados na pgina, e
escrevemos o post que os acompanhar. Quando estou escrevendo, geralmente
tenho ao lado do editor de texto uma verso reduzida da planilha em questo.
Muitas vezes, tambm fao partes da anlise enquanto escrevo, com o fim de
destacar coisas interessantes. Por fim, publico o post e gasto um pouco de
tempo tuitando sobre o tema, garantindo que a histria esteja presente em
todos os canais necessrios e seja enviada aos lugares certos
Metade do trfego de alguns dos nossos posts vem do Twitter e do Facebook.
Estamos muito orgulhosos com o fato de que a mdia de tempo gasto pelo
usurio lendo um post do Datablog seja de 6 minutos. Em comparao com a
mdia de 1 minuto do resto do site do The Guardian, um tempo muito bom.
importante lembrar que o tempo gasto numa pgina uma das principais
mtricas para analisar audincia.
Esses nmeros ajudam a convencer nossos colegas sobre o valor do que estamos
fazendo. Isso e as grandes reportagens de dados com as quais trabalhamos:
COINS (banco de dados do Tesouro do Reino Unido), WikiLeaks e os protestos
violentos que atingiram o pas. Para os dados sobre gastos do sistema COINS,
tivemos 5 a 6 reprteres especializados ajudando quando as informaes foram
liberadas pelo governo do Reino Unido. Tambm tivemos outra equipe de 5 a 6
profissionais quando a administrao britnica liberou informaes de gastos
acima de 25 mil librasincluindo reprteres renomados, como Polly Curtis. O
projeto WikiLeaks tambm foi, obviamente, muito importante, cheio de
histrias sobre o Iraque e o Afeganisto. Os protestos violentos e saques no pas
tambm merecem destaque, com mais de 550 mil acessos em dois dias.
Mas no se trata apenas de sucessos no curto prazo: ser uma fonte confivel de
informaes teis tambm importante. Tentamos ser o lugar onde voc pode
obter informaes significativas sobre os temas que cobrimos.
Simon Rogers, The Guardian

Publicando os dados

Muitas vezes, inserimos os dados no site com uma visualizao e um formulrio


que permite o download das informaes. Nossos leitores podem explorar os
dados por trs das histrias, interagindo com a visualizao ou utilizando os
dados de outras maneiras. Por que isso importante? Porque aumenta a
transparncia do Seattle Times. Dessa forma, mostramos aos leitores os
mesmos dados usados para tirar concluses importantes. E quem os utiliza?
Nossos crticos, com certeza, bem como aqueles interessados na reportagem e
em todas as suas ramificaes. Ao tornar os dados disponveis, incentivamos a
colaborao destes mesmos crticos e dos leitores em geral para descobrir fatos
que possivelmente deixamos passar e que outros fatores poderamos ter
exploradoparticipao valiosa na busca do jornalismo relevante.
Cheryl Phillips, The Seattle Times
Tornando os dados acessveis

Facilitar o acesso do pblico aos dados que usamos em nosso trabalho a coisa
certa a fazer por vrias razes. Os leitores podem se certificar de que no
torturamos os dados para chegar a concluses injustas. Abrir nossos dados , na
tradio da cincia social, permitir que pesquisadores repliquem o nosso
trabalho. Incentivar os leitores a estudarem os dados pode gerar dicas que viram
outras reportagens com aqueles dados. Finalmente, os leitores interessados em
seus dados so mais suscetveis a sempre voltar ao site.
Steve Doig, Faculdade de Jornalismo Walter Cronkite, Universidade do
Estado do Arizona
Iniciando uma plataforma de dados abertos

No La Nacin, a publicao de dados abertos parte fundamental de nossas


atividades na rea de jornalismo de dados. Na Argentina, no h leis de
liberdade de informao nem portais nacionais de dados, de modo que nos
sentimos fortemente compelidos a oferecer aos leitores o acesso aos dados
usados em nossas reportagens.
Por isso, publicamos dados brutos estruturados em nossa plataforma
integrada Junar, bem como no Google Spreadsheets. Incentivamos
explicitamente que outras pessoas reutilizem nossos dados, e explicamos um
pouco sobre como fazer isso com documentos e tutoriais em vdeo.

Alm disso, apresentamos alguns desses conjuntos de dados e visualizaes em


nosso blogNacin Data. Fazemos isso para disseminar uma cultura de dados e
as ferramentas de publicao de dados na Argentina, bem como para mostrar
aos outros como os utilizamos e como eles podem reutiliz-los.
Desde que inauguramos a plataforma, em fevereiro de 2012, recebemos
sugestes e ideias ligadas a bancos de dados, a maior parte vinda de
pesquisadores acadmicos e estudantes universitrios que se sentem gratos
cada vez que respondemos com uma soluo ou uma base de dados especfica.
As pessoas tambm esto bastante engajadas em nossos dados no Tableau, e
vrias vezes conseguimos ser o item mais comentado e visto no servio. Em
2011, tivemos 7 das 100 visualizaes mais visitadas.
Anglica Peralta Ramos, La Nacin (Argentina)
Tornando os dados humanos

medida que a discusso sobre os limites do big data ganha maiores


propores, algo importante tem sido esquecidoo elemento humano. Muitos
de ns pensamos sobre dados como nmeros que flutuam livremente, mas eles
so medies de coisas tangveis (e muitas vezes relacionadas aos seres
humanos). Os dados esto amarrados s vidas de pessoas reais, e quando nos
envolvemos com nmeros, precisamos considerar os sistemas do mundo real de
onde vieram.
Tome-se, por exemplo, dados de localizao, que esto sendo coletados agora
por milhes de dispositivos mveis. fcil pensar sobre estes dados (nmeros
que representam latitude, longitude e tempo) como um "escape digital", mas
eles so retirados de momentos de nossas narrativas pessoais. Mesmo que
paream secos e clnicos quando vistos em uma planilha, ao permitirmos que as
pessoas coloquem seus prprios dados em um mapa para reproduzi-los, elas
experimentam uma espcie de lembrana, poderosa e humana.
No momento, os dados de localizao so usados por terceiros
desenvolvedores de aplicativos, grandes marcas e anunciantes. Embora as
empresas de telecomunicaes armazenem os dados, a parte principal nesta
equaovocno tem nem acesso nem controle sobre essa informao. No
grupo de Pesquisa e Desenvolvimento do New York Times, lanamos um projeto
piloto chamado OpenPaths para permitir que o pblico explorasse seus prprios
dados de localizao e experimentasse o conceito de propriedade dos dados.

Afinal, as pessoas devem ter o controle destes nmeros to estreitamente


ligados s suas prprias vidas e experincias.
Jornalistas prestam um servio muito importante ao trazer tona esta
humanidade inerente aos dados. Ao fazer isso, eles tm o poder de mudar a
compreenso do pblicotanto em relao aos dados quanto em relao aos
sistemas que geram essas informaes.
Jer Thorp, Artista residente de dados: The New York Times R&D Group
Dados abertos, cdigo aberto, notcias abertas

O ano de 2012 pode ser considerado o ano das notcias abertas para o Guardian.
Elas esto no corao de nossa ideologia editorial e emitem uma mensagemchave na nossa marca atual. No meio de tudo isso, claro que precisamos de um
processo aberto para o jornalismo de dados. Este processo no s deve ser
alimentado por dados abertos, mas tambm ser ativado por ferramentas
abertas. Esperamos ser capazes de oferecer, para cada visualizao que
publicamos, o acesso tanto aos dados por trs dela como ao cdigo que a
alimenta.
Muitas das ferramentas usadas hoje na visualizao so de cdigo fechado.
Outras vm com licenas que probem o uso de dados derivados. Muitas vezes,
as bibliotecas existentes de cdigo aberto resolvem bem um nico problema,
mas no oferecem uma metodologia mais abrangente. De modo geral, esses
fatores dificultam que certos trabalhos sejam usados como base para outros.
Esse cenrio fecha dilogos, em vez de iniciar. Para que isso acontea, estamos
desenvolvendo um grupo de ferramentas abertas para a produo de narrativas
interativasThe Miso Project (@themisoproject).
Estamos discutindo este trabalho com uma srie de outras organizaes de
mdia. O envolvimento da comunidade importante para que se possa atingir o
pleno potencial do software de cdigo aberto. Se formos bem-sucedidos, vai
prevalecer uma dinmica diferente entre nossos leitores. As contribuies
podem ir alm de comentriospor exemplo, promovendo a correo de bugs
ou a reutilizao de dados de formas inesperadas.
Alastair Dant, The Guardian
Adicione um link para download

Nos ltimos anos, tenho trabalhado com alguns gigabytes de dados para
projetos ou reportagens, de varreduras de tabelas datilografadas dos anos 1960

a pesquisas de informaes nos 1,5 gigabytes de telegramas diplomticos


divulgados pelo WikiLeaks. Sempre foi difcil convencer os editores a
publicarem sistematicamente os dados brutos em um formato aberto e
acessvel. Ignorando o problema, adicionei links do tipo "Faa o Download dos
Dados'' dentro das reportagens, direcionando os leitores diretamente para o
arquivo de referncia. O interesse de potenciais reutilizadores era muito, muito
baixo. No entanto, os poucos casos de reutilizao nos deram novas ideias ou
estimularam conversas que fazem valer cada minuto extra dedicado a cada
projeto!
Nicolas Kayser-Bril, Journalism++
Conhea seu campo de atuao

H uma grande diferena entre hackear por diverso e construir uma estrutura
para obter escala e desempenho. Certifique-se de que voc estabeleceu uma
parceria com pessoas que tm o conjunto de habilidades adequadas para o seu
projeto. No se esquea do design. Design de usabilidade, experincia de
usurio e apresentao podem influenciar muito o sucesso de seu projeto.
Chrys Wu, Hacks/Hackers

Como construir um aplicativo jornalstico


Aplicativos jornalsticos so janelas para os dados por trs das reportagens.
Devem permitir pesquisas em bancos de dados, visualizaes intuitivas ou ir
alm disso. Independentemente do formato, aplicativos encorajam os leitores a
interagir com os dados em um contexto que tem significado para eles: olhar
tendncias de crime na regio onde vivem, checar registros de recomendaes
do mdico local ou procurar contribuies a um candidato poltico.
Mais que infogrficos de alta tecnologia, os melhores aplicativos jornalsticos
so produtos durveis. Eles fogem do ciclo da notcia, frequentemente ajudando
leitores a resolver problemas do mundo real ou respondendo a perguntas de
uma maneira nova e original. Quando jornalistas do ProPublica queriam
explorar a segurana das clnicas norte-americanas de dilise renal, eles
desenvolveram um aplicativo que ajudou os usurios a checar essas informaes
em suas cidades. Oferecer um servio to importante e relevante cria um
relacionamento com os usurios que vai muito alm do que uma reportagem
pode fazer sozinha.
Est a o desafio e a promessa de desenvolver aplicativos jornalsticos de ltima
gerao: criar algo de valor durvel. Se voc um desenvolvedor, qualquer
discusso sobre como construir um bom aplicativo jornalstico deve comear
com uma mentalidade de criao de um produto: manter o foco no usurio e
trabalhar para potencializar seu investimento. Ento, antes de comear a
construir, interessante perguntar a si mesmo trs questes, discutidas nas
prximas pginas.

Imagem 1. Rastreador de instalaes de dilise (ProPublica)

Quem meu pblico e do que ele precisa?

Aplicativos jornalsticos no servem reportagem, mas, sim, ao usurio.


Dependendo do projeto, esse usurio deve ser um paciente de dilise que quer
saber sobre a segurana de sua clnica, ou at mesmo o dono de uma casa
desavisado sobre o risco de terremoto prximo sua residncia. No importa
quem seja, qualquer discusso sobre elaborar um aplicativo deve comear com
as pessoas que faro uso da ferramenta.
Um nico aplicativo deve servir a diversos usurios. Por exemplo, um projeto
chamadoCurbwise, do Omaha World-Herald, no Nebrasca, direcionado a
proprietrios de casas que desconfiam ser sobretaxados, a moradores curiosos
que tm interesse nos valores das propriedades vizinhas, e a corretores de
imveis que querem se informar sobre promoes recentes. Em cada um desses
casos, o aplicativo encontra uma necessidade especfica que faz com que os
usurios continuem trabalhando com a ferramenta.
Proprietrios, por exemplo, podem precisar de ajuda para juntar informaes
sobre os imveis prximos para argumentar que suas taxas so injustamente
altas perante as outras. Unir esses dados algo complicado e consome tempo,
problema que o Curbwise resolve ao compilar em um relatrio amigvel todas
as informaes necessrias para reclamar das taxas s autoridades locais.
Curbwise vende esse relatrio por US$ 20 e as pessoas pagam porque ele
resolve um problema real em suas vidas.

Se seu aplicativo resolve um problema real, como faz o Curbwise, ou completa


uma reportagem com uma visualizao interessante, tenha sempre em mente as
pessoas que faro uso dele. Concentre-se em desenh-lo e cri-lo com base nas
necessidades dos usurios.
Quando tempo devo gastar nisso?

Desenvolvedores na redao so como gua no deserto: altamente procurados e


em escassez. Criar aplicativos jornalsticos significa equilibrar as necessidades
dirias de uma redao com o compromisso de longo prazo de construir bons
produtos.
Digamos que seu editor venha com uma ideia: a Cmara Municipal vai ter uma
votao na prxima semana sobre a demolio de vrias propriedades histricas
na cidade. Ele sugere que se faa um aplicativo simples que permita aos
usurios ver os prdios em um mapa.
Como desenvolvedor, voc tem algumas opes. Pode construir um bonito mapa
com software personalizado ou usar ferramentas que j existem, como o Google
Fusion Tables para mapear bibliotecas e terminar o trabalho em algumas horas.
A primeira opo vai resultar em um aplicativo melhor, mas a segunda deve
economizar tempo para outro trabalho com maiores chances de ter um impacto
duradouro.
O fato de a reportagem permitir a elaborao de um lindo e complexo aplicativo
no significa que voc precise construi-lo. Equilibrar prioridades crucial. O
truque lembrar que cada aplicativo desenvolvido tem um custo: no caso, outro
importante aplicativo poderia ser produzido no lugar dele.
Como levar as coisas a um nvel superior?

Produzir aplicativos jornalsticos de alta qualidade pode ser caro e demandar


muito tempo. por isso que vale a pena perguntar sobre o retorno. Como voc
transforma um trabalho de sucesso temporrio em algo especial?
Criar um trabalho duradouro que transcenda o ciclo da notcia um caminho.
Mas tambm possvel criar uma ferramenta que economize o seu tempo (e
abrir o cdigo dela!), ou usar estatsticas avanadas de uso do aplicativo para
saber mais sobre o comportamento do seu pblico.
Muitas organizaes desenvolvem mapas com dados do Censo para mostrar
mudanas demogrficas em suas cidades. Mas quando a equipe do Chicago
Tribune lanou umaplicativo prprio sobre o tema, eles levaram essa tarefa a

um outro nvel. O time desenvolveu tcnicas e ferramentas para construir esse


tipo de mapa com mais rapidez. O material tambm foi liberado posteriormente
para que outras organizaes pudessem us-lo.
Onde eu trabalho, no Center for Investigative Reporting, juntamos um simples
banco de dados com possibilidade de pesquisa a um sofisticado quadro de
rastreamento que nos permitiu aprender, entre outras coisas, quanto, nos
nossos aplicativos jornalsticos, os usurios valorizavam a a explorao aleatria
e a pesquisa focada.
Com o risco de soar sovina, sempre pense no retorno do investimento. Resolva
um problema genrico; crie uma nova maneira de engajar usurios; abra os
cdigos de parte do trabalho; use mtodos de anlise para aprender mais sobre
seus usurios; ou, at mesmo, encontre casos como o Curbwise, no qual parte do
aplicativo desenvolvido pode gerar receita.
Embalando

O desenvolvimento de aplicativos jornalsticos percorreu um longo caminho em


um curto perodo de tempo. Aplicativos jornalsticos 1.0 eram muito parecidos
com infogrficos 2.0: visualizao interativa de dados misturada a banco de
dados com possibilidade de busca, feitos para otimizar a narrativa da
reportagem. Agora, muitos desses aplicativos podem ser feitos por reprteres
que precisam cumprir prazos com ferramentas de cdigo aberto, liberando os
desenvolvedores para pensar projetos maiores.
Aplicativos jornalsticos 2.0 so a arte de combinar a narrativa e o servio
pblico do jornalismo ao desenvolvimento de um produto e expertise da
tecnologia mundial. O resultado, sem dvida, ser uma exploso de inovao
sobre maneiras de tornar os dados relevantes, interessantes e especialmente
teis para o pblicoe, ao mesmo tempo, ajudar o jornalismo a fazer o mesmo.
Chase Davis, Center for Investigative Reporting

Aplicativos jornalsticos no ProPublica


Um aplicativo jornalstico um grande e interativo banco de dados que conta
uma histria. Encare o aplicativo como qualquer outra pea jornalstica. A
diferena que ele usa cdigo de programao em vez de palavras e fotos.
Ao mostrar dados importantes a cada um dos leitores, o aplicativo pode ajudar a
compreender a notcia de forma particular, relevante para cada contexto. Ele
capaz de ajudar o leitor a compreender sua ligao pessoal com um fenmeno
nacional amplo e associar o que o leitor conhece quilo que no conhece,
incentivando a compreenso de conceitos abstratos.
Tendemos a construir um aplicativo jornalstico quando temos um conjunto de
dados (ou acreditamos que possamos adquirir um conjunto de dados) de
abrangncia nacional mas com granularidade suficiente para revelar detalhes
importantes.
Um aplicativo jornalstico deve contar uma histria e, como em qualquer boa
histria, precisa ter uma manchete, um subttulo, um lide e um olho grfico.
Pode ser difcil distinguir esses conceitos numa ferramenta interativa, mas eles
esto l se voc procurar com cuidado.
Ao mesmo tempo, um aplicativo noticioso deve ser um dnamo, precisa gerar
mais pautas, mais investigao, mais reportagem. Os melhores aplicativos do
ProPublica foram usados como base para sries de reportagens em jornais
locais.
Veja, por exemplo, nosso aplicativo jornalstico Dlares para os Mdicos. A
ferramenta rastreou, pela primeira vez, os milhes de dlares que empresas
farmacuticas pagam a mdicos por consultorias, palestras e por a vai. A
ferramenta permite procurar os seus prprios mdicos e checar que pagamentos
receberam da indstria farmacutica. Jornalistas em outras redaes tambm
usaram a ferramenta. Mais de 125 redaes, incluindo o The Boston Globe, o
Chicago Tribune e o The St. Louis Post-Dispatch, publicaram reportagens
investigativas sobre mdicos nos seus estados a partir dos dados do Dlares
para os Mdicos.
Poucas dessas reportagens foram resultado de parceria formal. A maioria foi
produzida de maneira indenpendenteem alguns casos, no tnhamos muito
conhecimento de que a reportagem estava sendo preparada at a publicao.
Como somos uma pequena organizao mas temos abrangncia nacional, esse

tipo de repercusso crucial para ns. No temos conhecimento local em 125


cidades diferentes, mas se nossos dados ajudarem reprteres que tenham fontes
locais a contar histrias com impacto, estamos desempenhando nossa misso.
Um dos meus aplicativos jornalsticos preferidos o Mapeando Los Angeles, do
Los Angeles Times, que comeou a mapear os muitos bairros da cidade de forma
colaborativa. At o lanamento do Mapeando L.A., no havia consenso sobre as
fronteiras entre os bairros. Aps o projeto, o L.A. Times tem usado esses bairros
como esqueleto e base para belos exemplos de jornalismo de dadoscomo
mostrar taxas de criminalidade em cada bairro, qualidade do ensino escolar,
etc., algo que eles no conseguiriam fazer antes. Ou seja, alm de ser amplo e
especfico ao mesmo tempo, o Mapeando L.A. tambm um gerador de
histrias: conta histrias pessoais de cada leitor.
Os recursos necessrios para construir um aplicativo jornalstico podem variar
bastante. O The New York Times tem dzias de pessoas trabalhando em
aplicativos e infogrficos interativos. Mas o site Talking Points Memo fez um
aplicativo de ponta para rastrear pesquisas eleitorais com apenas dois
funcionriose nenhum tinha diploma de cincias da computao.
Como a maior parte do desenvolvedores que trabalham em redaes, usamos
uma adaptao da metodologia Agile para construir nossos aplicativos.
Esboamos rapidamente diferentes verses e mostramos o material para o
pessoal da redao. O mais importante que trabalhamos muito prximos aos
reprteres e tambm acompanhamos os rascunhos de seus textosmesmo os
mais crus. Trabalhamos muito mais como reprteres do que como
desenvolvedores tradicionais. Alm de escrever cdigo, conversamos com
fontes, levantamos informaes, nos tornamos especialistas no tema. Seria bem
difcil criar um bom aplicativo jornalstico a partir de material que no
compreendemos.
Por que uma redao deve se interessar por desenvolver aplicativos jornalsticos
baseados em dados? Por trs razes: jornalismo de qualidade, muito
popularos produtos do ProPublica que fizeram mais sucesso so
aplicativose, se no fizermos, o concorrente far. Pense em todos os furos de
reportagem que perderamos! Mais importante, as redaes precisam entender
que podem criar tudo isso tambm. mais fcil do que parece.
Scott Klein, ProPublica

A visualizao como carro-chefe do jornalismo de dados


Antes de traar ou mapear seus dados, reserve um minuto para pensar sobre os
muitos papis que elementos grficos, estticos ou interativos, tm no
jornalismo.
Durante a apurao, visualizaes podem:

Ajudar a identificar temas e perguntas para o resto da reportagem

Identificar valores atpicos: boas histrias, ou talvez erros, nos seus dados

Ajudar a encontrar exemplos

Mostrar falhas em sua reportagem

Visualizaes tambm exercem mltiplos papis na hora da publicao. Elas


podem:

Ilustrar um ponto levantado no texto de forma mais atraente

Excluir do texto dados tcnicos desnecessrios

Quando so interativas e permitem um certo grau de explorao, deixam


mais transparente o processo de apurao

Esses papis sugerem que voc deve comear cedo a incluir visualizaes na sua
reportagem, mesmo que no inicie ao mesmo tempo o trabalho eletrnico com
os dados. No considere a visualizao uma etapa separada, aps a redao de
grande parte da matria. Deixe-a ajudar a guiar suas reportagens.
s vezes, comear significa apenas colocar uma forma visual nas anotaes que
voc j fez. Considere este grfico abaixo, publicado pelo Washington Post em
2006.

Imagem 2. Subsdios agrcolas ao longo do tempo (Washington Post)

Ele mostra a renda agrcola dos ltimos 45 anos associada a subsdios e eventos
importantes. Esta visualizao levou meses para ficar pronta. Foi um desafio
encontrar dados com definies e significados semelhantes que podiam ser
comparados ao longo do tempo. Investigar todos os altos e baixos do processo
nos ajudou a manter sempre em mente o contexto geral da reportagem at o fim
da apurao. Tambm significou que uma parte importante da investigao foi
concluda mesmo antes de as histrias comearem a ser escritas.
Aqui vo algumas dicas de uso da visualizao para comear a explorar sries de
dados.
Dica 1: Utilize mltiplos pequenos para se orientar rapidamente em meio a um
grande conjunto de dados

Usei essa tcnica no Washington Post quando analisamos uma sugesto de


pauta ligada administrao de George W. Bush. Recebemos uma informao
que dizia que o governo norte-americano estava concedendo subsdios por
motivos polticos, e no de mrito. A maioria desses programas de ajuda so
calculados por frmula, e outros tm sido financiados por anos. Portanto,
ficamos curiosos se poderamos encontrar um padro nesse processo, olhando
para cerca de 1.500 diferentes fluxos de informaes.
Criei um grfico para cada programa, com os pontos vermelhos indicando um
ano de eleio presidencial e os verdes, um ano de eleio legislativa. O
problema: sim, houve um aumento em de financiamento em vrios desses
programas nos seis meses anteriores eleio presidencial (os pontos
vermelhos, com os nmeros de pico ao lado deles). Mas isso aconteceu no ano
que no procurvamos. Em vez de encontrarmos os picos durante a tentativa de
reeleio de George W. Bush em 2004, os picos apareciam nas eleies de 2000,
quando Bill Clinton estava na Casa Branca e seu vice, Al Gore, concorria.

Imagem 3. Grficos ajudam a focalizar a histria (Washington Post)

Neste caso, foi realmente mais fcil ver isso em uma srie de grficos, e no em
uma tabela de nmeros. Um formulrio interativo nos permitiu checar vrios
tipos de subsdios, regies e agncias. Mapas divididos em mltiplos pequenos

podem ser o caminho para mostrar o tempo e o local em um grfico esttico.


Este tipo de visualizao bem fcil de comparars vezes, at mais fcil do
que uma que seja interativa.
Este exemplo foi criado com um pequeno programa escrito em PHP, mas agora
muito mais fcil fazer algo do tipo por meio dos grficos das verses 2007 ou
2010 do Excel. Edward Tufte, especialista em visualizao, inventou estes
"grficos intensos e simples, que lembram o uso da palavra'', para transmitir
rapidamente informaes de uma grande base de dados. Voc agora pode v-los
em todos os lugares, dando forma a informaes to variadas como resultados
esportivos e cotaes do mercado de aes.
Dica 2: Olhe para os dados de cima para baixo e de um lado para o outro

Ao tentar entender uma histria ou um conjunto de dados, no h formas


erradas de olhar para eles. Busque os mais diversos pontos de vista para obter
uma perspectiva diferente. Se estiver escrevendo sobre crime, por exemplo, voc
pode analisar um grupo de grficos sobre a evoluo dos crimes violentos em
um ano; a variao percentual; a comparao entre as taxas de crimes de vrias
cidades; e o comportamento do crime ao longo do tempo. Use nmeros brutos,
percentuais e ndices.
Olhe para eles em diferentes escalas. Tente seguir a regra de que o eixo X deve
ser zero. Em seguida, quebre essa regra e veja se voc aprende mais com isso.
Experimente logaritmos e razes quadradas para dados com distribuies
mpares.
Tenha em mente as pesquisas realizadas na rea de percepo visual.
Experimentos de William Cleveland mostraram que os olhos veem mudanas
em uma imagem quando a inclinao mdia de cerca de 45 graus. Isso sugere
que preciso ignorar as recomendaes de que sempre devemos comear do
zero, indicando a necessidade de trabalhar grficos que permitam ver mais
coisas. Outro estudo da rea de epidemiologia sugere que nveis altos so
entendidos como limites para o grfico. Cada nova perspectiva ajuda a ver mais
informaes dentro dos dados. Quando eles pararem de revelar novidades, seu
trabalho est concludo.
Dica 3: No faa suposies

Agora que voc j olhou os dados de vrias maneiras, provavelmente encontrou


registros que parecem incorretosvoc no entende o que eles dizem, ou

existem valores atpicos que parecem erros de digitao, ou h tendncias que


parecem o oposto do que deveriam ser.
Se quiser publicar qualquer coisa com base em suas investigaes iniciais ou em
uma visualizao, preciso resolver essas questes e no fazer nenhum tipo de
suposio. Ou elas so histrias interessantes ou so erros; ou so desafios
interessantes para o senso comum ou mal-entendidos.
comum ver governos locais oferecendo planilhas cheias de erros, e tambm
fcil de entender erroneamente o jargo do governo em um conjunto de dados.
Em primeiro lugar, reveja o seu prprio trabalho. Voc j leu a documentao
dos dados, suas advertncias e viu se o problema est tambm na verso original
dos dados? Se tudo o que fez parece estar correto, ento hora de pegar o
telefone. Voc vai ter de resolver essa dvida para poder usar a base de dados.
Dito isto, nem todo erro importante. Nos registros de financiamento de
campanha, comum ter vrias centenas de cdigos postais que no existem em
um banco de dados de 100.000 registros. Desde que no sejam todos da mesma
cidade ou estejam relacionados a um mesmo candidato, o registro
ocasionalmente equivocado simplesmente no importa.
A questo a se perguntar : se usar isso, os leitores tero uma viso
fundamentalmente precisa do que os dados dizem?
Dica 4: Evite ficar obcecado com a preciso

No fazer perguntas suficientes ruim, mas h um outro extremo: ficar


obcecado com a preciso sem que isso importe. Seus grficos exploratrios
devem ser corretos no geral, mas no se preocupe se tiver de fazer
arredondamentos, se os nmeros no somam exatamente 100 por cento ou se
faltam informaes de um ou dois anos em um perodo de 20 anos. Tudo isso
parte da apurao e no impedir voc de ver as grandes tendncias, assim
como saber o que pesquisar antes da publicao.
Na verdade, voc pode considerar a eliminao de marcadores e indicadores de
escala, como nos grficos acima, para ter uma melhor viso do sentido geral dos
dados.
Dica 5: Crie cronologias de casos e eventos

No incio de toda histria complexa, comece a montar cronologias de casos e


eventos-chave. Voc pode usar o Excel, um documento de Word ou uma

ferramenta especial como o TimeFlow para a tarefa, mas em algum momento


encontrar um conjunto de dados que pode usar como referncia. A releitura
peridica do material vai mostrar os buracos do seu trabalho que ainda
precisam ser preenchidos.
Dica 6: Rena-se sempre e desde o princpio com seu departamento grfico

Troque ideias sobre a produo dos grficos com ilustradores e designers de sua
redao. Eles podem indicar boas alternativas de visualizao dos dados, sugerir
formas de interao e tambm dar ideias sobre como conectar dados e histrias.
Sua tarefa ser muito mais fcil se souber, desde o comeo, o que tem de
pesquisar ou, ento, se deve alertar sua equipe de que no possvel fazer um
determinado tipo de grfico quando no se tem os dados necessrios.
Dicas para publicao

Voc pode ter gasto apenas alguns dias ou algumas horas na apurao, ou ter
levado meses para reunir as informaes necessrias para a sua histria. Mas
quando chega o momento de public-la, precisa ficar atento a dois importantes
aspectos.
Lembra daquele ano sobre o qual faltavam informaes e que deixou sua
apurao incompleta? De repente, voc se d conta de que no pode mais
avanar na investigao sem esses dados. E todas aquelas informaes
problemticas que acabaram sendo ignoradas? Reaparecem para assombr-lo.
A questo que no d para escrever sobre dados ruins. No h soluo
intermediria para um grfico: ou se tem tudo o que necessrio para construlo, ou no se tem.
Combine o esforo de coleta de dados com o grfico interativo

No h esconderijo em um grfico interativo. Se voc realmente vai


permitir que seus leitores explorem seus dados da forma como quiserem,
ento cada um de seus elementos tem que ser o que diz ser. Os usurios
podem encontrar erros a qualquer momento no material, e isso pode
assombr-lo por meses ou anos. Se voc constri o seu prprio banco de
dados, tambm deve revis-lo, chec-lo e editar todo o contedo. Se
estiver usando informaes governamentais, preciso decidir qual ser o
nvel de apurao desses dados e o que vai fazer quando encontrar um
erro inevitvel.
Design para dois tipos de leitores

O grficoseja um elemento interativo autnomo ou uma visualizao


esttica ao lado da reportagemdeve satisfazer dois tipos de leitores.
Deve ser fcil de entender primeira vista, mas tambm complexo o
suficiente para oferecer algo interessante a quem queira se aprofundar
nas informaes. Se seu grfico se tornar interativo, certifique-se de que
seus leitores vo obter algo mais do que um nico nmero ou nome.
Transmita uma ideia e, depois, simplifique

Certifique-se de que h uma nica coisa especfica que voc quer que as
pessoas vejam. Decida qual a impresso geral que deseja transmitir ao
leitor e faa todo o resto desaparecer. Em muitos casos, isso significa
remover as informaes, mesmo quando a internet permite ampliar o
contexto. A menos que seu principal objetivo seja garantir a
transparncia do trabalho jornalstico, a maioria dos detalhes reunidos
em sua linha do tempo e cronologia simplesmente no so importantes.
Em um grfico esttico, so intimidantes. Em um grfico interativo,
chatos.
Sarah Cohen, Universidade de Duke

Usando visualizao para contar histrias


A visualizao de dados merece ser considerada por vrias razes. No somente
porque pode ser belssima e chamar atenoelemento valioso para ser
compartilhada e atrair leitores, mas tambm porque conta com uma
poderosa vantagem cognitiva. Metade do crebro humano dedicada ao
processamento de informao visual. Quando voc apresenta um grfico com
informaes a um usurio, consegue ser mais efetivo para chegar mente dele.
A visualizao de dados, quando bem projetada, pode dar uma impresso
imediata e profunda aos espectadores, acabando com a desorganizao de uma
histria complexa e indo direto ao ponto.
Mas ao contrrio de outros recursos visuais (como a fotografia e o vdeo), a
visualizao de dados est profundamente enraizada em fatos mensurveis.
Embora seja esteticamente envolvente, tem menos carga emocional e se
preocupa mais com o esclarecimento do que com a parte emocional do tema.
Em uma poca de meios de comunicao muitas vezes focados em pblicos
especficos, a visualizao de dados (e o jornalismo de dados em geral) oferece a
oportunidade tentadora de narrar histrias orientadas principalmente pelos
fatos, no pelo fanatismo.
Alm disso, a visualizao pode ser eficaz tanto para apresentar notcias
transmitindo rapidamente informaes pontuais como a localizao de um
acidente e o nmero de vtimascomo para reportagens, nas quais pode
aprofundar um tema e oferecer uma nova perspectiva sobre algo familiar.
Enxergando o que familiar de uma nova maneira

A capacidade da visualizao de dados para testar algo que seja consenso


exemplificada por um grfico interativo publicado pelo The New York Times no
final de 2009, um ano aps o incio da crise econmica mundial. Com a taxa de
desemprego dos Estados Unidos pairando os 9%, os usurios podiam filtrar a
populao do pas com critrios demogrficos e educacionais para ver quo
grande era a variao do desemprego. O resultado que a taxa ia de menos de
4%, entre mulheres de meia-idade com alto grau de instruo, a 50%, quando o
grupo era de jovens negros que no concluram o Ensino Mdio. Essa
disparidade no era novidadeum fato sublinhado por valores histricos de
cada um desses grupos.

Imagem 4. A taxa de desemprego para pessoas como voc (The New York Times)

Mesmo depois que voc para de observ-la, uma boa visualizao de dados fica
na memria e deixa um modelo mental duradouro de um fato, tendncia ou
processo. Quantas pessoas viram as animaes de tsunamis apresentadas por
pesquisadores em dezembro de 2004, que mostravam ondas em cascata sendo
irradiadas pelo Oceano ndico por conta de um terremoto indonsio,
ameaando milhes de moradores de reas costeiras no sul da sia e leste da
frica?
A visualizao de dadose as associaes estticas que ela engendrapode at
se tornar uma referncia cultural, tal como a representao de profundas
divises polticas nos Estados Unidos aps as eleies de 2000 e 2004. Naquele
momento, estados republicanos "vermelhos" encheram a rea central, e os
democratas "azuis" agruparam-se no nordeste e no extremo oeste. No importa
que, na mdia dos EUA anterior ao ano 2000, as principais redes de televiso
alternassem livremente o vermelho e o azul para representar cada partido,
algumas fazendo isso de quatro em quatro anos. Da a lembrana de alguns
norte-americanos da vitria pica de Ronald Reagan em 49 estados "azuis" para
os republicanos em 1984.
Mas para cada grfico que gera um clich visual, aparece outro com um
poderoso testemunho factual, como no mapa de 2006 do The New York Times.
O material usou crculos de uma forma diferente para mostrar onde centenas de
milhares de pessoas retiradas de Nova Orleans aps o furaco Katrina estavam

vivendo, espalhadas por todo o pas devido a uma mistura de conexes pessoais
e programas sociais. Ser que essas pessoas faro o caminho de volta para casa?
Portanto, agora que j discutimos o poder da visualizao de dados, justo
perguntar: quando devemos us-la, e quando no devemos us-la? Primeiro,
olhemos para alguns exemplos em que ela pode ser til para ajudar a contar
uma histria.
Mostrando a mudana atravs do tempo

Talvez o uso mais comum da visualizao de dadospersonificada por um


simplrio grfico de linha mostrar como os valores mudaram ao longo do
tempo. O crescimento da populao da China desde 1960 ou o aumento da taxa
de desemprego desde a crise econmica de 2008 so bons exemplos. Mas a
visualizao de dados tambm pode mostrar, com outras formas grficas, a
mudana ao longo do tempo. O pesquisador portugus Pedro M. Cruz utiliza
grficos de crculo animados para mostrar o declnio radical dos imprios
europeus ocidentais. Dimensionado pfaela populao total, Gr-Bretanha,
Frana, Espanha e Portugal estouram como bolhas quando seus territrios
ultramarinos alcanam a independncia. L se vo Mxico, Brasil, Austrlia,
ndia
Um grfico do Wall Street Journal mostra o nmero de meses que uma centena
de empresrios levou para alcanar o nmero mgico de US$ 50 milhes em
receita. Criado com mapas abertos e a ferramenta de anlise de dados Tableau
Public, a comparao assemelha-se aos rastros deixados por vrios avies ao
decolar, alguns mais rpidos, outros lentos.
Falando de avies, outro grfico interessante que mostra mudanas ao longo do
tempo traz a participao de mercado das principais companhias areas norteamericanas durante dcadas. Aps a administrao Carter desregulamentar a
aviao de passageiros nos EUA, ocorreu uma srie de aquisies financiadas
com emprstimos que criou companhias as areas nacionais, como mostra este
grfico do The New York Times.

Imagem 5. Rotas de voos convergentes (The New York Times)

Tendo em conta que quase todos os leitores eventuais enxergam o eixo


horizontal X' de um grfico como o que representa o tempo, s vezes, fcil
pensar que todas as visualizaes deveriam mostrar mudanas ao longo do
tempo.

Comparando valores

Imagem 6. Contando o custo humano da guerra (BBC)

A visualizao de dados tambm til ao ajudar os leitores a comparar dois ou


mais valores. Pode, por exemplo, contextualizar a perda trgica de militares no
Iraque e no Afeganisto (comparando-a com os mortos no Vietn na Segunda
Guerra Mundial, como fez a BBC em um slideshow animado). Tambm pode,
neste grfico minimalista da National Geographic, mostrar como mais
provvel morrer de doena cardaca (1 em 5 mortes) ou acidente vascular
cerebral (1 em 24) do que, digamos, acidentes de avio (1 em 5.051), ou picada
de abelha (1 em 56.789)todas ofuscadas por um grande arco que representa a
probabilidade de morte em geral: 1 em 1!
A BBC, em colaborao com a agncia de design Berg, tambm desenvolveu o
site"Dimenses", que mostra o contorno do impacto de grandes eventos
mundiaiso derramamento de petrleo da plataforma marinha Deepwater
Horizon, ou as inundaes no Paquisto, por exemplo, a um mapa do Google de
seu pas.

Mostrando fluxos e conexes

A introduo do trem de alta velocidade na Frana, em 1981, no fez o pas ficar


menor, mas uma representao visual inteligente mostra quanto tempo se
economiza para chegar a diferentes destinos em comparao com o trem
convencional. Um gride sobre o pas aparece sobreposto imagem de "antes",
mas esmagado em direo ao centro, Paris na de "depois", mostrando no
apenas que os destinos esto mais prximos, mas tambm que a maior
economia de tempo se d na primeira parte da viagem, antes de os trens
desacelerarem para passar por vias precrias.
Para comparaes entre duas variveis distintas, veja o grfico de Ben Fry que
avalia o desempenho dos principais times de beisebol da Liga segundo o salrio
de seus jogadores. Uma linha traada em vermelho (baixo desempenho) ou azul
(performance acima da mdia) conecta os dois valores, transmitindo de forma
rpida a sensao de que os proprietrios de times esto se arrependendo de
seus jogadores caros. Alm disso, uma linha do tempo oferece um retrato fiel da
concorrncia presente no campeonato.

Imagem 7. Salrio vs. desempenho (Ben Fry)

Desenhando com dados

Similares s conexes grficas, os diagramas de fluxo tambm codificam


informaes nas linhas de ligao, geralmente pela espessura e/ou a cor. Por
exemplo, com a crise da Zona do Euro e vrios membros incapazes de quitar
suas dvidas, o The New York Timesprocurou desvendar a teia de
emprstimos que prendia os integrantes da UE aos seus parceiros comerciais
alm do Atlntico e na sia. Em um dos "estados'' da visualizao, a largura da
linha reflete o montante de crdito que passa de um pas para o outro, e tons
que vo do amarelo ao laranja indicam o quanto a situao "preocupante''
ou seja, pouco provvel de que o dinheiro seja devolvido.
Numa temtica mais alegre, a revista National Geographic produziu uma tabela
enganosamente simples, mostrando as conexes de trs cidades dos EUA
Nova York, Chicago e Los Angeless principais regies produtoras de vinho.
A pea revela como os meios de transporte que trazem o produto de cada uma
das fontes podem resultar em grandes pegadas de carbono, fazendo com que
seja mais ecolgico para os nova-iorquinos comprar o vinho de Bordeaux em vez
do californiano.
"Mapa de origem'', um projeto iniciado na escola de negcios do MIT, usa
diagramas de fluxo para analisar com rigor a cadeia global de produtos
manufaturados, seus componentes e matrias-primas. Graas a uma srie de
pesquisas, o usurio pode procurar produtos que vo desde sapatos da marca
Ecco at suco de laranja, e descobrir em que lugar do planeta foi produzido e
qual a sua pegada de carbono.
Mostrar hierarquia

Em 1991, o pesquisador Ben Shneiderman inventou uma nova forma de


visualizao chamada "treemap", que consiste em vrias caixas concntricas,
umas aninhadas dentro das outras. A rea de cada caixa indica a quantidade que
representa. O treemap uma interface compacta e intuitiva para o mapeamento
de uma entidade e suas partes constituintes. Seja para visualizar o oramento
nacional dividido entre instituies oficiais e contratadas; o mercado de aes
por setor e empresa; ou mesmo uma linguagem de programao por classes e
subclasses. Outro recurso eficaz o dendrogramformato que se parece a um
organograma tpico, no qual as subcategorias saem de um nico tronco central.

Imagem 8. OpenSpending.org (Open Knowledge Foundation)

Navegando por grandes bancos de dados

s vezes, a visualizao de dados muito eficaz ao exibir informaes familiares


a partir de ngulos novos. Mas o que acontece quando voc tem informaes
inditas? A era dos dados traz descobertas surpreendentes quase todos os dias,
da brilhante anlise geogrfica das fotos do Flickr de Eric Fischer at a
divulgao de milhares de avaliaes confidenciais de professores de Nova York.
Essas bases de dados so mais poderosas quando os usurios podem se
aprofundar no contedo e navegar pelas informaes mais relevantes para eles.
No incio de 2010, o The New York Times teve acesso aos registros do Netflix,
normalmente privados, sobre quais gneros de filmes so mais alugados.
Mesmo com a negao do Netflix de publicar nmeros brutos, o Times criou
um banco de dados interativo que permite que os usurios explorem os 100
filmes mais alugados em 12 reas metropolitanas dos Estados Unidos,
esmiuadas at o nvel do cdigo postal. Um ou mapa de calor sobreposto a cada
comunidade deixava conferir rapidamente onde um filme em particular era
mais popular.
No final do mesmo ano, o jornal publicou os resultados do Censo dos Estados
Unidos logo depois de ser divulgado. A interface, construda em Flash, ofereceu
uma srie de opes de visualizao e permitiu aos usurios explorar dados de

cada bloco do estudo. Eles podiam ver, por exemplo, a distribuio da


populao por raa, renda e educao. Tal era a resoluo do mapa que era fcil
se perguntar se voc era a primeira pessoa a consultar determinado dado em
tamanho banco de dados poucas horas depois de sua publicao.
Igualmente louvvel a investigao da BBC sobre mortes na estrada e muitas
das tentativas de indexar rapidamente grandes quantidades de dados como o
WikiLeaks War Logs, sobre as guerras do Iraque e do Afeganisto.
A regra do 65 mil

Ao receber a primeira pilha de dados do WikiLeaks sobre a guerra no


Afeganisto, a equipe encarregada de process-la comeou a demonstrar
entusiasmo por poder ter acesso a 65 mil registros militares.
Isto imediatamente fez soar os alarmes entre os que j tinham experincia com
Excel. Graas a uma limitao histrica ligada s linhas do programa, a
ferramenta de importao do software no processa mais de 65.536 registros.
Neste caso, verificou-se que faltavam "apenas" 25.000 linhas.
A moral da histria (alm de evitar o uso do Excel para tais tarefas) desconfiar
sempre de algum que se vanglorie de ter 65.000 linhas de dados.
Alastair Dant, Guardian

Imagem 9. Todas as mortes em estradas na Gr-Bretanha 1999-2010 (BBC)

Imaginando explicaes alternativas

No The New York Times, o "grfico porco-espinho'' de Amanda Cox,


com projees otimistas do deficit dos EUA ao longo dos anos, mostra como, s
vezes, o que aconteceu menos interessante do que o que no ocorreu. O grfico
de linha de Cox, com o crescente dficit oramentrio aps uma dcada de
guerra e de incentivos fiscais mostra como as previses podem ser irreais.

Imagem 10. Previses oramentrias comparadas com a realidade (New York Times)

Bret Victor, h muito tempo designer de interface da Apple (e criador da teoria


"mate a matemtica", de visualizao para comunicar informao quantitativa),
criou um prottipode uma espcie de documento que se atualiza em conjunto
cada vez que um dado modificado. Em seu exemplo, as dicas para economizar
energia incluem premissas editveis, em que um passo simples como desligar as
luzes de quartos vazios pode ajudar os norte-americanos a economizar energia
equivalente produzida por entre 2 a 40 usinas de carvo. Alterando a
porcentagem que aparece no meio de um pargrafo do texto, voc modifica, ao
mesmo tempo e de forma coerente, todo o resto da pgina!
Para mais exemplos e sugestes, aqui est uma lista de links de diferentes usos
de visualizaes, mapas e grficos interativos organizada por Matthew Ericson,
do The New York Times.

Quando no usar a visualizao de dados

A visualizao de dados, para ser eficaz, depende de informao boa, limpa,


precisa e significativa. Assim como boas aspas, fatos e descries alimentam o
bom jornalismo narrativo, a visualizao de dados to boa como as
informaes por trs dela.
Quando a sua histria pode ser melhor contada com um texto ou recurso
multimdia

s vezes, os dados por si s no contam a histria da maneira mais


convincente. Um simples grfico de uma tendncia ou estatstica pode ser
til, mas uma narrativa relacionando as consequncias reais de um
problema tem mais chances de causar um impacto maior no leitor.
Quando voc tem pouqussimos dados

H um ditado que diz que "um nmero sozinho no diz nada". Uma frase
comum dos editores de notcias em resposta a uma estatstica citada :
"em comparao com o qu?" A tendncia subir ou baixar? O que
normal?
Quando seus dados variam pouco e no revelam uma tendncia clara

s vezes, voc coloca os seus dados no Excel e acaba descobrindo que a


informao apenas um rudo, flutua demais ou tem tendncias muito
sutis. Voc ergue a base do grfico do zero at o o ponto mais baixo para
ressaltar as diferenas? No! Parece que voc tem dados ambguos e
precisa fazer mais pesquisas e anlises.
Quando um mapa no um mapa

s vezes, o elemento espacial no significativo ou convincente. Tambm


pode ser que distraia a ateno de tendncias numricas pertinentes,
como a mudana ao longo do tempo ou a exibio de semelhanas entre
reas no adjacentes.
Quando uma tabela resolve

Se voc tem relativamente poucos dados, mas conta com informaes


que podem ser teis para os leitores, considere apenas apresentar os
dados em uma tabela. um recurso limpo, fcil de ler e no cria
expectativas irreais com relao matria. Na verdade, as tabelas podem
ser um formato muito elegante e eficiente para transmitir informao
bsica. Geoff McGhee, Universidade de Stanford

Grficos diferentes contam histrias diferentes


Neste mundo digital com promessa de experincias 3D imersivas tendemos a
esquecer que, por muito tempo, s tivemos tinta e papel. Ns agora relegamos a
esse meio esttico um tratamento de segunda classe, mas, durante centenas de
anos em que temos escrito e feito impresses, conquistamos uma incrvel
riqueza de conhecimento e de prticas para representar dados em uma pgina.
Ao mesmo tempo que grficos interativos, visualizaes de dados e infogrficos
so a ltima tendncia, eles abandonam muitas das melhores prticas que
aprendemos. Somente quando voc olha para trs, atravs da histria de mapas
e grficos, pode entender aquele banco de conhecimento e traz-lo para os
novos meios.
Alguns dos mais famosos mapas e grficos surgiram da necessidade de explicar
melhor tabelas densas de dados. William Playfair foi um poliglota escocs que
viveu entre o final dos anos 1700 at o incio dos anos 1800. Sozinho, ele
apresentou ao mundo muitos dos mesmos mapas e grficos que ns ainda
usamos atualmente. No seu livro de 1786,Commercial and Political Atlas (Atlas
Comercial e Poltico), Playfair apresentou o grfico de barra para mostrar, de
uma forma nova e visual, as importaes e exportaes da Esccia.
Ele popularizou o temido grfico de pizza no seu livro de 1801 Statistical
Breviary (Brevirio Estatstico). A demanda por essas novas formas de mapas e
grficos surgiu do comrcio, mas, na medida em que o tempo foi passando,
outros formatos apareceram e foram usados para salvar vidas. Em 1854, John
Snow criou o seu, agora famoso, "Mapa da Clera de Londres", adicionando
uma pequena barra preta sobre cada endereo onde um incidente havia sido
registrado. Com o tempo, uma densidade bvia do surto podia ser vista e
providncias podiam ser tomadas para conter o problema.
Com o passar do tempo, praticantes destes novos mapas e grficos tornaram-se
mais ousados e experimentaram mais, forando o setor a assumir a direo que
conhecemos hoje. Andr-Michel Guerry foi o primeiro a publicar a ideia de um
mapa em que regies individuais eram representadas por cores diferentes com
base em alguma varivel. Em 1829, ele criou o primeiro mapa coropltico ao
escurecer regies da Frana para representar os nveis de criminalidade. Hoje
em dia, vemos mapas assim sendo usados para mostrar quem votou em quem,
distribuio de riqueza e outras muitas variveis relacionadas geograficamente.

A ideia parece simples, mas, mesmo nos dias atuais, difcil domin-la e
compreend-la caso no seja usada com sabedoria.

Imagem 11. Um dos primeiros grficos de barra (William Playfair)

Imagem 12. Mapa da clera em Londres (John Snow)

Imagem 13. Mapa coropltico da Frana indicando os nveis de criminalidade (Andr-Michel Guerry)

Existem muitos recursos que um bom jornalista precisa compreender para


construir visualizaes. Ter excelentes conhecimentos de base sobre mapas e
grficos importante. Tudo o que voc cria precisa ser originado de uma srie
de mapas e grficos atmicos. Se voc pode dominar o bsico, ento pode
melhorar a construo de visualizaes mais complexas, feitas a partir destas
unidades iniciais.
Dois dos mais bsicos tipos de grfico so os de barra e o de linha. Ao mesmo
tempo em que tm usos muito similares, diferenciam-se imensamente por seus
significados. Tomemos, por exemplo, as vendas mensais de uma empresa por
um ano. Teramos 12 barras representando a quantidade de dinheiro recebida
cada ms.

Imagem 14. Um grfico de barras simples: til para representar informaes descontnuas

Vamos ver porque deveriam ser barras, em vez de um grfico de linha. Grficos
de linha so ideais para dados contnuos. Com nossos nmeros de vendas, temse o somatrio do ms, no contnuo. Como uma barra, sabemos que, em
janeiro, a empresa gerou US$ 100, e, em fevereiro, US$ 120. Se tratssemos
essas informaes como um grfico de linha, ele continuaria a representar US$
100 e US$ 120 no comeo de cada ms, mas o grfico de linha faria com que
parecesse que a empresa gerou apenas US$ 110 no dia 15. O que no verdade.
Barras so usadas para unidades descontnuas de medida, enquanto linhas so
usadas quando se tem um valor contnuo, tal como a temperatura.

Imagem 15. Grficos de linha simples: teis para representar informaes contnuas

Podemos ver no grfico acima que, s 8h, a temperatura era de 20C e, s 9h, de
22C. Se olharmos para a linha para adivinhar a temperatura s 8h30, diramos
que era de 21C, o que uma estimativa correta, uma vez que a temperatura
contnua e cada ponto no a soma de outros valores. Ela representa o valor
exato naquele momento ou uma estimativa entre duas medies exatas.
Tanto os grficos de barra quanto a linha possuem uma variao onde se
empilham as variveis. Essa uma excelente ferramenta para contar histrias e
pode funcionar de diferentes formas. Tomemos, por exemplo, uma empresa
com 3 locais.

Para cada ms, temos 3 barras, uma para cada uma das lojasum total de 36
para o ano. Quando as colocamos prximas umas s outras, podemos ver
rapidamente qual loja estava faturando mais. Essa uma histria interessante e
vlida, mas existe outra escondida dentro dos mesmos dados. Se empilharmos
as barras, para que tenhamos apenas a cada ms, perdemos a habilidade de ver
qual loja a mais lucrativa, mas veremos em quais meses a empresa faz o
melhor negcio como um todo.

Imagem 16. Grfico de barras agrupadas mostra diferena de vendas entre lojas

Imagem 17. Grfico de barras empilhadas mostra melhor o faturamento total

Ambos so exibies vlidas da mesma informao, mas contam duas histrias


diferentes. Como jornalista, o aspecto mais importante que voc escolha a
histria que deseja contar. sobre o melhor ms para os negcios, ou sobre qual
loja a principal? Este um simples exemplo, mas mostra, na verdade, todo o
foco do jornalismo de dadosfazer a pergunta correta antes de ir longe demais.
A histria vai guiar a escolha de visualizao.
O grfico de barras e o grfico de linhas so realmente o po com manteiga de
qualquer jornalista de dados. A partir da, voc pode trabalhar com histogramas,
grficos de horizonte, "sparklines", grficos de fluxo, entre outros. Todos eles

tm caractersticas comuns e so apropriados para situaes um pouco


diferentes entre sique mudam de acordo com a quantidade de dados, fontes
de dados ou a localizao do grfico no que se refere ao texto.
No jornalismo, um dos recursos grficos mais usados o mapa. Tempo,
quantidade e geografia so itens comuns aos mapas. Sempre queremos saber
quanto existe em uma rea em detrimento de outra ou como os dados fluem de
uma rea para outra. Diagramas de fluxo e mapas coroplticos so ferramentas
muito teis e merecem ser includas em seu arsenal. Saber codificar
corretamente um mapa por meio de cores, sem causar distores,
fundamental. Mapas polticos so geralmente codificados com cores slidas que
preenchem por completo certas regies ou as deixam vazias, mesmo se um
candidato ganhou somente uma parte do pas com uma diferena de 1%. Colorir
no precisa ser uma escolha binria: tonalidades podem ser usadas com cautela.
Entender mapas uma grande parte do jornalismo. Mapas facilmente
respondem pergunta ONDE das 5 questes bsicas do jornalismo ("quem?", "o
que?", "quando?", "onde?" e "por que?")
Uma vez dominado o tipo bsico de mapas e grficos, voc pode comear a
construir visualizaes de dados mais elaboradas. Se no entender estar
construindo uma fundao instvel. Da mesma forma que voc aprende a ser
um bom escritormantendo as frases curtas, tendo a audincia em mente e
no complicando demais as coisas para parecer mais esperto, mas, sim,
transmitindo significado ao leitor--, voc no deveria pesar demais a mo com
os dados. Comear pequeno a forma mais efetiva de contar uma histria,
construindo lentamente somente quando necessrio.
Uma escrita vigorosa concisa. Uma sentena no deve conter palavras
desnecessrias, um pargrafo no deve apresentar frases desnecessria, pela
mesma razo que um desenho no deve ter linhas desnecessrias e uma
mquina no deve ter partes desnecessrias. Isso requer no que o escritor faa
sentenas curtas ou que trate todos os assuntos de forma superficial, mas sim
que cada palavra faa um relato.
Elementos de Estilo (1918) William Strunk Jr.

aceitvel no usar todos os dados encontrados na sua histria. Voc no


deveria pedir permisso para ser concisoessa deveria ser a regra.
Brian Suda, (optional.is)

O faa-voc-mesmo da visualizao de dados: nossas


ferramentas favoritas
Que ferramentas de visualizao de dados esto disponveis na web, so grtis e
fceis de usar? Aqui no Datablog e Datastore, tentamos ao mximo possvel usar
as opes sem custo, mas poderosas, que esto na internet.
Pode soar falso, pois obviamente temos acesso s maravilhosas equipes de
grficos e interatividade do Guardian para aqueles projetos que exigem mais
tempocomo essemapa de gastos pblicos (criado com Adobe Illustrator) ou
essa ferramenta interativa sobre rebelies no Twitter.
Para o trabalho cotidiano, no entanto, usamos ferramentas acessveis para
todose criamos grficos que qualquer um tambm pode criar.
Afinal, o que usamos?
Google Fusion Tables

Essa ferramenta de bases de dados e mapeamento online tornou-se padro para


produzirmos mapas rpidos e detalhados, especialmente aqueles em que voc
precisa dar zoom. Oferece a alta resoluo do Google Maps e aguenta um grande
volume de dados100 MB no formato CSV, por exemplo. O Fusion parece
meio complicado na primeira vez que voc usamas insista. Ns o utilizamos
para fazer mapas como esse do Iraque abaixo e tambm para produzir mapas
com fronteiras delineadas como o sobre a falta de moradia.

Imagem 18. Os dirios de guerra do WikiLeaks (Guardian)

Imagem 19. Mapa interativo dos sem-teto (Guardian)

A maior vantagem a flexibilidadevoc pode fazer o upload de um arquivo


KML com as divisas regionais, digamose ento combin-lo com uma
planilha. Alm disso, sua interface est sendo remodelada, o que deve torn-lo
mais fcil de usar.
Voc no precisa ser um programador para criar um mapae essa ferramenta
de camadas do Fusion permite que combine diferentes mapas ou crie opes de
busca e filtro, e o resultado pode ser incorporado depois a um blog ou site.
Esse excelente tutorial feito por Kathryn Hurley, do Google, um bom ponto de
partida.
Dica

Use o Shape Escape para converter arquivos .shp em tabelas Fusion.


Alm disso, tome cuidado com mapas muito complicadosa ferramenta
no suporta mais de um milho de pontos em cada clula.

Tableau Public

Se voc no precisa do espao ilimitado da verso profissional, Tableau


Public de graa. Com ele, possvel fazer visualizaes complexas de at
100.000 colunas de forma simples e fcil. Ns usamos quando necessrio
apresentar diferentes tipos de grficos ao mesmo tempo, como nesse caso
do mapa das alquotas de imposto mais altas do mundo (que tambm inclui
um grfico de barras).
Ou pode ser usado para explorar os dados. Foi o que fizemos com os dados de
gastos nas eleies presidenciais dos Estados Unidos (se bem que
ultrapassamos a cota de espao da verso gratuita algo com o que se deve
tomar cuidado). Tambm preciso que os dados estejam formatados de
maneira muito especfica para se tirar o mximo do Tableau. Mas, uma vez
superada esta etapa, voc ter uma ferramenta intuitiva e que funciona bem. O
La Nacin, da Argentina, montou toda sua rea de jornalismo de dados em
torno ao Tableau, por exemplo.

Imagem 20. Financiamento da campanha presidencial de 2012 (Guardian)

Para quem quiser comear a usar o Tableau, h bons tutoriais


emhttp://www.tableausoftware.com/learn/training.
Dica

O Tableau feito para PCs, mas est sendo elaborada uma verso para
Mac. Enquanto isso, use um mirror como o parallels para faz-lo
funcionar.
Grficos do Google Spreadsheet

Voc pode acessar essa ferramenta em http://www.google.com/google-ds/spreadsheets/.

Imagem 21. Gastos pblicos e impostos no Reino Unido (Guardian)

Procurando por algo simples, como um grfico de barras, linhas ou pizza? As


planilhas do Google (que podem ser criadas a partir do menu Documentos
em sua conta) tambm podem se tornar grficos bem legaisincluindo as
bolhas animadas usadas por Hans Rosling no Gapminder. Ao contrrio
dos grficos API, no necessrio saber cdigos de programao; bem
similar criao de um grfico no Excel, pois basta selecionar os dados e
clicar na janela de grficos. Tambm vale a pena explorar as opes de
personalizao; voc pode mudar cores, ttulos e propores. Eles so

bastante neutros no que se refere ao design, o que bem til no caso de


grficos pequenos. H ainda opes interessantes para os grficos de linha,
incluindo anotaes.
Dica

Explore as opes de personalizao de grficos; voc pode criar sua


prpria paleta de cores.
Datamarket

Mais conhecido como fornecedor de dados, o Datamarket tambm uma


tima ferramenta de visualizao de nmeros. Voc pode fazer o upload dos
seus ou usar uma das vrias bases de dados que eles oferecem, e as opes
ficam melhores com a conta Pro.
Dica

O Datamarket funciona melhor com sries histricas de dados, mas


confira a extensa gama de dados que eles oferecem.
Many Eyes

Um site que precisa ser tratado com um pouco mais de carinho o Many
Eyes, da IBM. Quando foi lanado, criao de Fernanda B. Vigas e Martin
Wattenberg, era uma ferramenta singular ao permitir o upload e a
visualizao de bases de dados. Agora que seus criadores trabalham para o
Google, o site parece meio abandonado com suas paletas de cores sem
graa; no apresenta nada novo em termos de visualizao h algum
tempo.

Imagem 22. Viles do Doctor Who; Guardian

Dica

Voc no pode mais editar os dados depois de fazer o upload, ento tenha
certeza de que esto corretos antes de enviar.
Color Brewer

No exatamente uma ferramenta de visualizao. O Color Brewer serve


para escolher cores de mapas. Voc escolhe a cor bsica e ele sugere os
cdigos para o resto da paleta.
E mais alguns

Se nenhuma dessas dicas o que procurava, vale a pena conferir essa lista
do DailyTekk, que tem ainda mais opes. As ferramentas acima no so
as nicas, mas apenas aquelas que usamos com mais frequncia. H
muitas outras opes, incluindo:

Chartsbin, uma ferramenta para criar mapas-mndi interativos

iCharts, que especializada em widgets de grficos simples

GeoCommons, que compartilha dados geogrficos para criar mapas


locais e globais

Ah, tem tambm o piktochart.com, que oferece templates para as


visualizaes mais populares do momento.

Simon Rogers, the Guardian

Como mostramos os dados no Verdens Gang


Jornalismo levar novas informaes ao leitor o mais rpido possvel. A forma
mais rpida pode ser um vdeo, uma fotografia, um texto, um grfico, uma
tabela ou uma combinao de tudo isso. A respeito de visualizaes, o objetivo
deve ser o mesmo: informao rpida. Novas ferramentas de dados permitem
aos jornalistas encontrar histrias com as quais eles no teriam contato de outra
forma, assim como apresent-las de novas maneiras. Aqui esto alguns
exemplos de como ns apresentamos dados no jornal mais lido na Noruega, o
Verdens Gang (VG).
Nmeros

Esta histria baseada em dados do Instituto de Estatsticas Noruegus, dados


de contribuintes e dados do monoplio nacional de loterias. No grfico
interativo abaixo, o leitor podia encontrar diferentes tipos de informao de
cada municipalidade ou condado noruegus. A tabela mostra a porcentagem da
renda gasta em jogos e foi construda usando-se o Access, Excel, MySql e Flash.

Imagem 23. Mapeando dados dos contribuintes e da Lotto (Verdens Gang)

Redes

Ns utilizamos anlises de redes sociais para estudar as relaes entre os 157


filhos e filhas das pessoas mais ricas da Noruega. Nossa investigao mostrou

que os herdeiros dos mais ricos da Noruega tambm herdaram as redes sociais
dos seus pais. Ao todo, foram mais de 26.000 conexes, e os grficos foram
todos finalizados manualmente com o Photoshop. Usamos Access, Excel, Bloco
de Notas e a ferramenta de anlise de redes sociais Ucinet.

Imagem 24. Aves ricas de mesma plumagem voam juntas (Verdens Gang)

Mapas

Neste mapa de calor animado combinado com um grfico simples de barras,


voc pode ver a incidncia de crimes no centro de Oslo, hora a hora, no fim de
semana, por vrios meses. No mesmo mapa, possvel conferir o nmero de
oficiais da polcia trabalhando ao mesmo tempo. Quando o crime est realmente
acontecendo, a quantidade de policiais est no nvel mais baixo. O mapa foi feito
usando ArcView com Spatial Analyst.

Imagem 25. Mapa de calor animado (Verdens Gang)

Minerao de texto

Para esta visualizao, fizemos minerao de dados (extrao de padres ocultos


em bases de dados) nos discursos feitos por sete lderes de partidos noruegueses
durante suas convenes partidrias. Todos os discursos foram analisados, e
esses estudos forneceram ngulos para algumas reportagens. Cada reportagem
foi relacionada a um grfico e os leitores puderam explorar e conhecer melhor a
linguagem dos polticos. Essa visualizao foi feita usando Excel, Access, Flash e
Illustrator. Se tivesse sido feito em 2012, teramos feito o grfico interativo em
JavaScript.

Imagem 26. Minerao de texto dos discursos de lderes partidrios (Verdens Gang)

Concluso

Quando precisamos visualizar uma reportagem? Na maioria das vezes no


precisamos, mas h momentos em que queremos fazer isso para ajudar nossos
leitores. Reportagens que contm uma grande quantidade de dados geralmente
precisam de visualizao. No entanto, temos de ser crticos ao escolher que tipo
de dados vamos apresentar. Conhecemos todos os detalhes quando informamos
sobre algo, mas o que o leitor realmente precisa saber na reportagem? Talvez
uma tabela seja suficiente, ou um grfico simples mostrando uma evoluo do
ano A para o ano C. Ao trabalhar com jornalismo de dados, a questo no
necessariamente apresentar grandes quantidades de dados. sobre jornalismo!

Tem havido uma tendncia clara nos ltimos trs anos para criar grficos
interativos e tabelas que permitem ao leitor se aprofundar em temas diferentes.
Uma boa visualizao como uma boa fotografia. Voc entende do que se trata
s de olhar para ela por um momento ou dois. Quanto mais voc olhar para a
visualizao, mais voc a v. A visualizao ruim quando o leitor no sabe por
onde comear ou terminar, e quando a visualizao est sobrecarregada de
detalhes. Neste cenrio, talvez um texto seja melhor, no?
John Bones, Verdens Gang

Dados pblicos viram sociais


Os dados tm valor inestimvel. O acesso a eles tem o potencial de jogar luz
sobre diversos assuntos de uma forma que impulsiona resultados. No entanto,
um mau tratamento dos dados pode colocar os fatos em uma estrutura que no
comunica nada. Se no promover discusso ou proporcionar um entendimento
contextualizado, os dados podem ter um valor limitado para o pblico.
A Nigria voltou para a democracia em 1999, depois de longos anos de ditadura
militar. Sondar os fatos por trs dos dados era uma afronta autoridade e visto
como uma tentativa de questionar a reputao da junta. A Lei de Segredos
Oficiais levou os funcionrios pblicos a no compartilhar informaes do
governo. Mesmo 13 anos depois da volta da democracia, acessar dados pblicos
pode ser uma tarefa difcil. Quando se trata de informaes sobre gastos
pblicos, por exemplo, difcil pass-las de uma maneira clara para a maioria
da audincia, que no conhece bem contabilidade financeira.
Com o aumento do nmero de celulares e de nigerianos online, vimos uma
imensa oportunidade de usar tecnologias de visualizao de dados para explicar
e engajar as pessoas em torno s despesas pblicas. Para isso, tnhamos que
envolver os usurios em todas as plataformas, assim como chegar aos cidados
por meio de ONGs. Lanamos o projeto BudgIT, que visa fazer dos dados
pblicos um objeto social, e construir um extensa rede que demande mudanas.

Imagem 27. Aplicativo The BudgIT (BudgIT Nigeria)

Para conseguir engajar os usurios, temos que entender o que eles querem. Com
o que o cidado nigeriano se preocupa? Onde eles veem uma lacuna de
informao? Como podemos tornar os dados relevantes para suas vidas? O alvo
imediato do BudgIT o nigeriano de educao mdia, conectado a fruns online
e mdias sociais. Para competir pela ateno de usurios, temos que apresentar
os dados de maneira breve e concisa. Aps transmitir uma prvia dos dados na
forma de um tweet ou infogrfico, h oportunidade para um envolvimento
sustentado. Isso pode ser feito por meio de uma experincia mais interativa, a
fim de entregar aos usurios um contexto mais amplo.
Na visualizao de dados, importante entender o nvel de compreenso que os
usurios tm desse tipo de informao. Por mais bonitos e sofisticados que
sejam, vimos que diagramas complexos e aplicativos interativos podem no ser
ideais para uma comunicao efetiva com os nossos leitores. Uma boa
visualizao vai falar com o usurio por meio de um uma linguagem que ele
entenda, assim como contar uma histria com a qual ele sinta uma conexo
imediata.
Conseguimos engajar mais de 10 mil nigerianos na questo do oramento, e os
dividimos em trs categorias para dar a eles informaes de maior valor. As
categorias esto explicadas resumidamente abaixo:

Usurios ocasionais

Querem informao de forma simples e rpida. Esto interessados em ter


uma ideia geral dos dados, no em anlises detalhadas. Podemos atrailos com tweets ou grficos interativos.
Usurios ativos

Estimulam a discusso e usam os dados para melhorar seus


conhecimentos sobre determinada rea ou desafiar as suposies ligadas
a eles. Para esses usurios, queremos oferecer mecanismos de feedback e
a possibilidade de que compartilhem ideias com seus pares pelas redes
sociais.
Consumidores massivos de dados

Querem dados brutos para visualizao ou anlise. Ns simplesmente


damos a eles as informaes que desejam.
Com o BudgIT, o engajamento do nosso usurio baseado em:
Estimular discusses sobre tendncias atuais

O BudgIT acompanha discusses online e offline e procura fornecer


dados sobre os assuntos atuais. Por exemplo, durante as greves do setor
de combustveis de janeiro de 2012, houve agitao constante entre os
manifestantes com relao necessidade de reinstituir os subsdios ao
combustvel e reduzir gastos pblicos exagerados e desnecessrios. O
BudgIT acompanhou o debate pelas mdias sociais e, em 36 trabalhosas
horas, construiu um aplicativo que permite aos cidados reorganizar o
oramento nigeriano.
Bons mecanismos de feedback

Tentamos engajar os usurios por meio de canais de discusso e das


redes sociais. Muitos querem conhecer as histrias ligadas aos dados,
enquanto outros perguntam nossa opinio. Garantimos que nossas
respostas expliquem apenas os fatos por trs dos dados, sem vnculos
com vises pessoais ou polticas. Precisamos manter abertos os canais de
feedback, responder ativamente a comentrios e envolver a audincia
criativamente para garantir que a comunidade construda ao redor dos
dados se mantenha.
Tornar local

Para uma base de dados voltada a um grupo especfico de usurios, o


BudgIT tenta localizar ou adaptar seu contedo e promover um canal de
discusso que se conecte s suas necessidades. Em particular, estamos
interessados em engajar o pblico por meio de mensagens SMS.
Depois de publicar dados de gastos no site yourbudgit.com, chegamos aos
cidados com a ajuda de vrias ONGs. Tambm planejamos desenvolver
uma rede participativa em que os cidados e instituies governamentais
se encontrem em prefeituras para definir itens fundamentais do oramento
a serem priorizados.
O projeto teve cobertura de mdia local e estrangeira, da CP-Africa BBC.
Fizemos uma anlise dos oramentos de 2002-2011 para o setor de
segurana para uma jornalista da AP, Yinka Ibukun. A maioria das
organizaes de mdia composta por "usurios pesados de dados" e nos
pede informaes para usar em reportagens. Estamos planejando mais
colaboraes com jornalistas e organizaes de notcias ao longo dos
prximos meses.
Oluseun Onigbinde, BudgIT Nigeria

Engajando pessoas nos seus dados


To importante quanto publicar dados obter uma reao da audincia. Voc
humano; vai cometer erros, perder coisas e ter ideias erradas de tempos em
tempos. A sua audincia um dos bens mais teis que voc tem. Ela pode
verificar fatos e apontar outras coisas que no foram consideradas.
Engajar o pblico, no entanto, complicado. Voc est lidando com um grupo
de pessoas condicionadas por anos de uso da internet, de navegao de site em
site, e que deixam apenas um comentrio sarcstico ao longo de suas
caminhadas. Construir uma relao de confiana com seus usurios crucial;
eles precisam saber o que vo obter, como reagir e dar feedback ao que ser
ouvido.
Mas primeiro preciso pensar no pblico que voc tem, ou que deseja ter. O
pblico que vai ser informado e informar por meio do tipo de dados com os
quais voc trabalha. Se a audincia est ligada a um setor particular, ser
necessrio explorar formas de comunicao personalizadas. Existem
organizaes que voc pode contatar para que ajudem na divulgao do material
a um pblico mais amplo? Existem sites comunitrios ou fruns com os quais
conversar? H publicaes comerciais especializadas que gostariam de ajudar
na confeco de sua reportagem?
As redes sociais tambm so uma ferramenta importante. No entanto, mais uma
vez, dependem do tipo de dados sobre a mesa. Se estiver trabalhando com
estatsticas globais de transportes, por exemplo, vai ser complicado encontrar
um grupo no Facebook ou no Twitter especialmente interessado nas suas
atividades. Por outro lado, se estiver peneirando ndices mundiais de corrupo
ou de crimes locais, ser mais fcil achar pessoas preocupadas com esses
assuntos.
Quando se trata do Twitter, a melhor abordagem entrar em contato com perfis
de personalidades pblicas, explicando brevemente a importncia de seu
trabalho e incluindo um link. Com sorte, eles retuitaro a mensagem aos seus
leitores. Esta uma tima forma de aumentar a exposio do seu trabalho com
um esforo mnimoe sem atormentar as pessoas!
Depois de obter leitores para a sua pgina, pense em como eles vo interagir
com seu trabalho. Claro, podem ler a histria que voc escreveu e ver mapas e
infogrficos. Mas imensamente valioso oferecer tambm canais de resposta.

Mais que tudo, eles podem contribuir com ideias sobre o tema tratado,
ajudando a definir as prximas tarefas do projeto de cobertura.
Primeiro, no precisa nem dizer que o ideal publicar os dados brutos em suas
reportagens. Voc pode apresentar os dados em uma planilha CSV ou hospedlos em outros servios, como o Google Docs. Assim, voc ter apenas uma
verso dos dados e poder atualiz-la a qualquer momento, por exemplo para
corrigir possveis erros. Se puder, a melhor alternativa fazer as duas coisas.
Permita que as pessoas acessem as informaes brutas da sua reportagem da
forma mais fcil possvel.
Ento, pense em outras formas de interagir com o pblico. Acompanhe as
mtricas que revelam quais partes de suas bases de dados esto conseguindo
mais ateno provvel que as reas de maior trfego digam algo sobre
detalhes que voc tenha perdido. Por exemplo, voc pode no ter dado destaque
para as estatsticas de pobreza da Islndia, mas se esses blocos recebem muitas
visitas, porque pode valer a pena estud-los melhor.
Pense alm da caixa de comentrios. Voc pode anexar comentrios a clulas
particulares de uma planilha? Ou a uma regio especfica de um infogrfico?
Enquanto a maioria dos sistemas de edio no permitem esse tipo de
incorporao de informaes, vale a pena avaliar essa possibilidade se estiver
criando um material mais elaborado. Os benefcios que esse recurso pode trazer
aos seus dados no podem ser subestimados.
Certifique-se de que os demais usurios tambm vejam esses comentriosem
muitos casos, eles tm quase tanta importncia quanto os dados originais, e se
voc mantiver essa informao somente para si, vai privar o pblico desse valor.
Finalmente, outras pessoas podem querer publicar seus prprios infogrficos e
histrias baseados nas mesmas fontes de dados. Por isso, pense em qual a
melhor forma de vincul-los e alinhar o trabalho deles. Voc tambm pode usar
uma hashtag especfica para o conjunto de dados. Ou, se ele for muito pictrico,
compartilhe em um grupo do Flickr.
Tambm pode ser til contar com uma via confidencial de compartilhamento de
informaes. Em alguns casos, algumas pessoas podem no se sentir seguras de
fazer suas contribuies publicamente, ou mesmo no se sentir confortveis
nesse contexto. Elas podem preferir submeter informaes por meio de um
endereo de e-mail, ou at mesmo usar uma caixa de comentrios annimos.

A coisa mais importante que voc pode fazer com seus dados divulg-los da
forma mais ampla e aberta possvel. Permitir que os leitores verifiquem seu
trabalho, encontrem erros e apontem detalhes perdidos que tornaro melhores
tanto o seu jornalismo como a experincia do pblico.
Duncan Geere, Wired.co.uk

O Manual de Jornalismo de Dados pode ser livremente copiado, redistribudo e


reutilizado sob as regras da licena Creative Commons de Atribuio +
Compartilhamento (ShareAlike). Os colaboradores deste Manual de Jornalismo
de Dados mantm direitos autorais sobre suas respectivas contribuies e
concordaram gentilmente em liber-los sob os termos desta licena.