You are on page 1of 72

Guia de

dados abertos

Guia de
dados abertos
Este Guia parte integrante do projeto de cooperao entre o
Governo do Estado de So Paulo e o Reino Unido

SPUK
Improving business environment through transparency in So Paulo State
Melhoria do ambiente de negcios por meio da transparncia no Estado de So Paulo

Parceiros

Secretaria de Governo

Ano 2015

BY

NC ND

Este material est sob uma licena Creative Commons.


Atribuio-SemDerivaes-SemDerivados
CC BY-NC-ND

SPUK
Improving business environment through transparency in So Paulo State
Melhoria do ambiente de negcios por meio da transparncia no Estado de So Paulo

REALIZAO
GOVERNO DO ESTADO DE SO PAULO
Secretaria de Governo
Subsecretaria de Parcerias e Inovao
Casa Civil
Assessoria Especial para Assuntos Internacionais
Fundao do Desenvolvimento Administrativo - Fundap
Fundao Sistema Estadual de Anlise de Dados Seade
Conselho de Transparncia da Administrao Pblico
GOVERNO DO REINO UNIDO
Embaixada Britnica Braslia
NCLEO DE INFORMAO E COORDENAO DO PONTO Br NIC.br
Centro de Estudos sobre Tecnologia Web CeWeb.br

AUTOR
Marco Tlio Pires

COORDENAO
Geral:
Roberto Agune - iGovSP
Vagner Diniz CeWeb.br
Executiva e Editorial:
Caroline Burle dos Santos Guimares - CeWeb.br
Helena Pchevuzinske - iGovSP
Sergio Pinto Bolliger - iGovSP

IDEALIZAO
Alvaro Gregrio - iGovSP

DESIGN
Alcione de Godoy - iGovSP - e-books
Deblyn Pereira Prado - NIC.br - HTML
Ricardo Hurmus - Buleras Arte & Design - ilustracoes

sumrio
Introduo.....................................................................................................06
O que so Dados Abertos?...............................................................................09
Qualquer dado pode ser aberto?..............................................................11
Os benefcios da abertura de dados....................................................................12
Transporte Pblico (Iniciativa Privada)...................................................14
Legislativo & Executivo, Participao (Terceiro Setor)............................15
Educao & Pesquisa (Terceiro setor).....................................................18
Sade & Gastos Pblicos (Governo, Cidados)......................................19
Lei de Acesso Informao................................................................................21
O acesso informao em So Paulo......................................................22
Transparncia Ativa................................................................................23
Quais so as excees para abertura de dados?.........................................24
Plano de Abertura de Dados..............................................................................26
As cinco estrelas dos dados abertos: aaaaa.................................27
a..........................................................................................................27
aa......................................................................................................28
aaa.................................................................................................29
aaaa.............................................................................................30
aaaaa.........................................................................................31
Equipes de Abertura de Dados................................................................33
Publicao..............................................................................................36
O desenvolvimento de uma API necessrio?.........................................37
Mapa de decises tecnolgicas................................................................40
Catlogo/Repositrio de dados.........................................................................42
Cenrios tcnicos, opes tecnolgicas.............................................................45
4

SUMRIO
Nvel 1...................................................................................................46
Nvel 2...................................................................................................48
Nvel 3...................................................................................................49
Licena de utilizao dos dados........................................................................53
Regras de utilizao do Governo Aberto SP............................................56
Formatos das bases.........................................................................................57
Formatos separados por delimitadores (CSV)........................................59
Formato XML.......................................................................................61
Formato KML.......................................................................................63
Formato JSON......................................................................................64
geoJSON/topoJSON............................................................................66
Formato SQL (dump)...........................................................................66
Formato Shapefile.................................................................................67
Referncias...................................................................................................69

Guia de dados abertos

introduo
Captulo 1

INTRODUO

Este Guia de Abertura de bases foi preparado para ampliar e contribuir com
a poltica de transparncia do Estado de So Paulo. Nele, esto informaes
sobre os benefcios de uma poltica de abertura de dados, seus desafios, suas
especificidades tcnicas e uma srie de recomendaes, pautadas em padres
internacionais e experincias exitosas ao redor do mundo, para tornar a
abertura de bases um processo inspirador e virtuoso.
O guia no tem a inteno de ser um recurso exaustivo, meramente tcnico
ou que se esgota em si mesmo. Ele foi feito para ser abrigado na Web e usa
referncias da Web. Muitas das informaes contidas nas prximas sees
podem, e devem, ser extrapoladas navegando pelos links de referncias e
leituras complementares. As informaes reunidas aqui procuram levar
em considerao, da melhor maneira possvel, o complexo ecossistema da
Administrao Pblica, com seus desafios e diferenas, seja no tamanho das
equipes quanto nas condies de infraestrutura dos rgos pblicos.
Trata-se de um guia para tcnicos, servidores, gestores e executivos
informarem-se sobre um movimento que vem tomando conta das democracias
em todo o planeta e que ganha trao cada vez mais intensa no Brasil. A
abertura de bases se apresenta como um caminho sem volta dentro do
contexto de governos mais transparentes e sociedades mais justas. apenas
uma pequena parte dentro desse movimento que tambm abriga recursos
clssicos de transparncia, como a Lei de Acesso Informao, e tambm
reas relativamente novas, como a participao e o controle social.
Uma poltica de abertura de bases precisa ter uma narrativa de curto, mdio e
longo prazo: onde estamos? Onde queremos chegar? Quais so os beneficiados
diretos pela abertura de dados? Cidados? Jornalistas? Servidores pblicos?
Empresas? Cientistas? Infomedirios? Como chegar at eles? Essas so
algumas das perguntas que precisam de respostas claras e objetivas dentro da
organizao e do planejamento de qualquer esforo de abertura de dados.
Governos ao redor do mundo j esto colhendo bons frutos por terem
seguido a via da abertura de bases. Um dos exemplos mais emblemticos
o do governo britnico. L, foi descoberto, por causa de dados abertos, que
diversos setores de informtica da Administrao Pblica estavam comprando
o mesmo servio de consultoria de uma mesma empresa. Ao analisar os
dados, a Administrao percebeu que poderia economizar seis milhes de
libras diminuindo o nmero de horas de consultoria contratada. A cifra o
equivalente a todo recurso necessrio para custear o programa de transparncia
7

Guia de dados abertos

do governo britnico. Isso sem contar o nmero de empresas e servios que


surgiram a partir da abertura de dados, possibilitando a formao de novos
negcios. Alguns desses casos so contemplados neste guia.
Exemplos como esses, que representam o que h de melhor no esforo da
abertura de dados, esto aguardando para serem descobertos em So Paulo e
no Brasil.

O que so Dados Abertos?

O que so Dados Abertos?


Captulo 2

Guia de dados abertos

Dados abertos um termo que ganhou popularidade no movimento de


transparncia e governo aberto em todo mundo, mas nem sempre tratado
com clareza. A abertura de dados segue o mesmo princpio do Governo
Aberto: tratar o acesso informao pblica como regra, no como exceo.
No mbito deste guia, os dados que aqui se referem so as informaes
produzidas por todos os rgos pblicos no estado de So Paulo, fruto da
atividade administrativa da gesto governamental: seus contratos, suas funes,
seus projetos, suas polticas e suas parcerias com outros setores. Em suma,
todos os dados que esto sob a guarda do governo estadual ou de entes ligados
a ele.
A abertura desses dados quer dizer que essas informaes governamentais
podem ser utilizadas livremente, reutilizadas e redistribudas por qualquer
pessoa, sem qualquer restrio a exceo seria, no mximo, a indicao da
fonte da base de dados e a redistribuio dessas informaes sob as mesmas
condies, ou licenas, em que elas foram adquiridas originalmente.
Para que um conjunto de dados possa ser considerado aberto, ele precisa
reunir, no mnimo, as trs caractersticas abaixo:
Disponibilidade e acesso: os dados precisam estar disponveis de
forma completa e de uma forma que no gere cursos exorbitantes
para a parte interessada em copi-los. O cenrio mais favorvel
disponibilizar os dados para que sejam baixados por meio da Internet.
Os dados tambm precisam estar disponveis num formato conveniente
e modificvel.
Reutilizao e redistribuio: os dados devem ser disponibilizados a
partir de termos de utilizao que permitam o reuso e a redistribuio,
inclusive a mistura desses dados com outras bases.
Participao universal: qualquer pessoa deve poder usar, reutilizar e
redistribuir os dados. No deve haver discriminao contra campos
de atuao, indivduos ou grupos. Por exemplo, restries no
comerciais que impediriam o uso comercial dos dados, ou restries
de uso para um fim especfico (por exemplo, s para pesquisa pessoal),
no so permitidas.

10

O que so Dados Abertos?

Essas trs caractersticas so resumidas em trs leis sugeridas pelo ativista dos
dados abertos David Eaves:
1. Se o dado no pode ser encontrado ou indexado na Web, ele no existe;
2. Se o dado no est disponvel num formato aberto e legvel por mquina,
ele no pode ser reutilizado;
3. Se dispositivos legais no permitem que ele seja compartilhado, ele no
til.
Existem muitos motivos para se ter tanta clareza sobre o significado de
dados abertos. Por se tratarem de palavras com significado amplo, preciso
demarcar exatamente quais caractersticas so consideradas ideais no escopo
deste guia, de modo que as informaes publicadas pelo governo possam ser
utilizadas por todos os setores da sociedade de forma compatvel.
A abertura de bases com as caractersticas descritas acima relevante pois
d condies para a interoperabilidade, ou seja, o trabalho em conjunto de
diferentes bases de dados, por diferentes atores da sociedade. A construo de
sistemas e solues cada vez melhores, sejam aquelas desenvolvidas na esfera
governamental, na privada, na acadmica ou na sociedade civil, dependem da
interoperabilidade das bases de dados.
A clareza sobre a definio de dados abertos tambm garante que duas ou
mais bases de dados vindas de fontes diferentes possam ser combinadas sem
grandes empecilhos tcnicos. Evita, dentre outras coisas, que o governo seja
um grande armazm de bases de dados fechadas, ou seja, que no servem
seno para a consulta humana, inteis para aplicao em sistemas maiores e
complexos, capazes de proporcionar solues, visualizaes, servios ou valor
para qualquer cidado ou grupo da sociedade.

Qualquer dado pode ser aberto?


No. Todo dado que pblico deve ser aberto, mas nem todo dado
pblico. A legislao brasileira trata como exceo abertura dados
particulares, capazes de identificar indivduos, ferir seu direito
privacidade ou sua honra, dados considerados sigilosos ou dados que
possam comprometer a segurana nacional.
11

Guia de dados abertos

Os benefcios da
abertura de dados
Captulo 3

12

OS BENEFCIOS DA ABERTURA DE DADOS

A abertura de bases de dados governamentais pode trazer uma srie de


benefcios para diferentes setores da sociedade criando ciclos virtuosos. Um
dos primeiros beneficirios o prprio rgo pblico que decide abrir suas
bases. A simples estruturao e execuo de mecanismos organizacionais que
permitem a publicao e abertura sistematizada dessas bases pode contribuir
para um aumento significativo na qualidade das equipes, dos servios
prestados e no conhecimento sobre gargalos e obstculos internos. No
possvel administrar, ou conhecer, aquilo que no se mede. Abrir os dados
governamentais possibilita conhecer e medir essas atividades.
A abertura tambm pode contribuir para o avano da cincia. A abertura de
dados governamentais permite que pesquisadores, independentes ou associados
a uma instituio, tenham acesso a uma camada valiosa de informaes sobre
a formulao e execuo de polticas pblicas, sobre a forma como os recursos
da sociedade so direcionados, sobre o impacto dos programas na melhoria da
qualidade de vida das pessoas. Pesquisas melhores fundamentadas contribuem
para elevar o nvel de conhecimento que determinada sociedade tem sobre
si mesma, e at sobre outras sociedades, em pesquisas internacionais, e d
condies para que seus atores tomem decises cada vez mais justificadas.
benfica tambm para o setor privado. A abertura responsvel e consistente
de dados governamentais permite que qualquer empreendedor, ou grupo
de empreendedores, use sua criatividade para construir ferramentas,
solues e avanos tecnolgicos que muitas vezes escapam aos olhos das
equipes de especialistas que trabalham com esses dados dentro da estrutura
governamental. Isso quer dizer que a abertura de dados pode contribuir para a
gerao de empregos e riqueza, criando uma interdependncia saudvel entre o
governo e a iniciativa privada.
Organizaes da sociedade civil tambm podem tirar vantagem dos
dados abertos. A abertura de bases pode elevar a qualidade dos servios
que organizaes de cunho no governamental prestam, muitas vezes
complementares aos oferecidos pelo estado. O governo possui uma infinidade
de informaes sobre pblicos e servios de interesse dessas organizaes. O
acesso livre e irrestrito a esses dados permite que essas organizaes coloquem
prova seus servios e possam medir seus resultados, aumentando cada vez mais
a qualidade de suas atividades.
Finalmente, qualquer pessoa pode se beneficiar da abertura de bases ao ter
acesso facilitado e livre aos dados produzidos na seara governamental. Quem
13

Guia de dados abertos

ganha com isso a sociedade inteira. Esse benefcio no nvel individual no


vem apenas do exerccio de um direito humano fundamental, o do acesso
informao, mas tambm do direito liberdade. A abertura de dados, que faz
parte dos governos abertos e transparentes, um dos pilares que sustentam
sociedades que desejam ser mais livres e justas. Ela contribui para fortalecer os
processos democrticos, abrindo caminhos para uma maior participao dos
cidados na administrao pblica e fomenta o controle social das atividades
governamentais. O acesso aos dados do governo permite que qualquer pessoa
possa acompanhar a aplicao de polticas pblicas e medir sua eficcia. A
disponibilizao de ferramentas que permitem que o cidado conhea as aes
adotadas pelo governo fortalece a legitimidade do Estado, enriquecendo seu
papel como um dos principais atores na busca do bem-estar social.
No faltam iniciativas exitosas ao redor do mundo, inclusive no Brasil, que
servem de exemplo inspirador para a abertura de dados. Conhea algumas
delas a seguir.

Transporte Pblico (Iniciativa Privada)


Citymapper

O Citymapper um dos bons exemplos ao redor do mundo que mostram


o potencial dos dados abertos para fomentar a gerao de novos negcios.
Aplicativo gratuito para smartphones criado por um ex-funcionrio do Google
em 2011 em Londres, com o objetivo de melhorar a experincia de milhes de
pessoas na cidade, todos os dias, que dependem do transporte pblico.
Os desenvolvedores do Citymapper tiraram vantagem dos dados sobre nibus,
trens e metr, publicados em tempo real pela autoridade de trnsito londrina,
para formular um algoritmo que mostra sempre o melhor tempo de viagem
entre um ponto e outro; quando ser a prxima viagem e quantas calorias se
gastou caminhando. As informaes so atualizadas em tempo real e mostram
14

OS BENEFCIOS DA ABERTURA DE DADOS

as condies de trnsito, clima e problemas tcnicos nos veculos.


A receita deu certo e a empresa expandiu seus servios para outras cidades.
De 2011 a 2015 chegou a sete pases e 13 cidades: Londres, Nova York, Paris,
Berlim, Washington DC, Madri, Boston, Barcelona, So Francisco, Chicago,
Milo, Roma e Cidade do Mxico. O aplicativo pode ser conectado em
qualquer cidade que oferea dados sobre servios de transporte pblico em
tempo real.

Legislativo & Executivo, Participao (Terceiro Setor)


Fundao Sunlight

A Fundao Sunlight um dos exemplos de sucesso que mostram como o


terceiro setor pode trabalhar junto do governo fomentando a participao
popular e o controle social por meio da tecnologia. Criada em abril de 2006
nos Estados Unidos, a fundao tem o objetivo de aumentar a transparncia
e prestao de contas no legislativo e executivo americano. Seu foco inicial foi
monitorar o papel do dinheiro na poltica americana e propor mudanas que
visam a governos abertos.
15

Guia de dados abertos

Hoje, a fundao tambm contribui em fruns internacionais que discutem


a transparncia governamental. A Sunlight possui trs frentes principais: uma
equipe de poltica que coordena aes dentro e fora do Congresso americano
para propor mudanas na legislao; uma equipe de jornalistas especialistas em
dados que produzem e publicam reportagens sobre o estado da transparncia
americana; um laboratrio de tecnologia que desenvolve ferramentas a partir
de dados abertos que visam a aumentar a participao de cidados no governo
e contribuir para que outros desenvolvedores possam construir aplicativos com
informaes pblicas.
A Fundao Sunlight realiza a organizao sistemtica de vrias bases de
dados do governo americano. A garantia de que as bases sero publicadas de
forma consistente e peridica num formato aberto permitiu que a fundao
desenvolvesse uma srie de ferramentas que aproximam o cidado da
administrao pblica:
Congress

16

OS BENEFCIOS DA ABERTURA DE DADOS

Aplicativo para smartphones que exibe informaes sobre deputados e


senadores, permitindo que o cidado entre em contato com eles e acompanhe
suas atividades. possvel visualizar as ltimas leis aprovadas, exibir a lista de
atividades no plenrio, navegar pelas votaes e se atualizar sobre a agenda
das comisses parlamentares e suas audincias. O aplicativo foi desenvolvido
a partir de bases de dados abertas pelo governo americano e distribudo
gratuitamente. Seu cdigo fonte aberto, qualquer pessoa pode baix-lo.
Influence Explorer

Stio da Web que rastreia as doaes polticas em nvel estadual e federal,


permitindo que qualquer pessoa possa acompanhar o grau de influncia por
legislador, empresa ou indivduo. A ferramenta oferece uma viso geral sobre
financiamentos de campanha, lobbying, verbas parlamentares, irregularidades
em contrataes e gastos pblicos federais.
Capitol Words

Ferramenta que permite explorar o contedo dos discursos de todos os


senadores e deputados do Congresso americano, a partir de 1996. A procura
pode ser feita por estado, data ou legislador. O servio permite comparar
termos e frases a exibe os resultados com grficos e rankings dos polticos
e seus partidos. O Capitol Words tambm serve como uma grande base de
dados para que outros desenvolvedores possam criar aplicativos que dependam
dele.
Confira outras ferramentas (stio da Web em ingls) desenvolvidas pela
Fundao Sunlight.

17

Guia de dados abertos

Dentre as empresas e organizaes que utilizam os servios da Fundao


Sunlight esto a Fundao Wikimedia, que administra, por exemplo, a
Wikipdia; o Greenpeace; o stio If This Then That, que permite criar, dentre
outras coisas, avisos instantneos no celular sobre andamento de leis no
Congresso americano; e a equipe de campanha do presidente Barack Obama.

Educao & Pesquisa (Terceiro setor)


QEdu

O QEdu um dos bons exemplos brasileiros que demonstra os benefcios


do trabalho em conjunto do terceiro setor, da academia e do governo para
melhor entender a educao bsica no Brasil e fornecer subsdios para polticas
pblicas. Trata-se de um portal gratuito desenvolvido em parceria entre a
Fundao Lemann e a Meritt que permite a qualquer pessoa obter informaes
sobre a qualidade do aprendizado nas escolas brasileiras, com dados sobre
escolas pblicas e particulares. As visualizaes so geradas a partir de bases do
governo brasileiro, como dados do Exame Nacional do Ensino Mdio (Enem),
da Prova Brasil, do Censo Escolar e de indicadores especiais do Instituto
Nacional de Estudos e Pesquisas (INEP).
A ferramenta mostra como foi o aprendizado de alunos dos 5 e 9 anos em
matemtica e portugus, perfil dos alunos, professores e diretores das escolas
que realizaram a Prova Brasil, matrculas para cada etapa escolar, taxas de
aprovao, abandono e reprovao, nvel scio econmico, infraestrutura
escolar, distores de idade em relao s sries e muito mais. possvel fazer
buscas e comparaes a partir de escolas, cidades ou estados. O portal tambm
permite que qualquer pessoa possa filtrar e baixar os dados que precisar em
formato aberto.

18

OS BENEFCIOS DA ABERTURA DE DADOS

Sade & Gastos Pblicos (Governo, Cidados)


Prescribing Analytics

O Prescribing Analytics mostra como agentes do governo e profissionais


independentes podem trabalhar juntos para enxergar formas de economizar
dinheiro pblico. Trata-se de uma ferramenta de anlise de dados sobre os
gastos do governo britnico com um grupo especfico de remdios, a estatina.
Esse medicamento ajuda no combate s altas taxas de colesterol em pacientes
com problemas de sade.
O servio foi criado por um grupo de desenvolvedores independentes e
mdicos que trabalham no setor pblico britnico. O sistema de sade
britnico recebeu a misso de economizar 20 bilhes de libras at 2015, sendo
que metade disso gasto com remdios. Uma das substncias mais prescritas
pelos mdicos do sistema pblico de sade do Reino Unido justamente a
estatina. A ferramenta acessa a base de dados aberta sobre receitas mdicas no
pas e analisa quais tipos de estatina foram prescritas pelos mdicos no sistema
pblico: as variantes mais caras ou as genricas, normalmente mais baratas.

19

Guia de dados abertos

Os dados mostram que o governo britnico poderia ter economizado, entre


os anos de 2011 e 2012, 27 milhes de libras por ms se os mdicos tivessem
receitado variantes genricas da estatina que possuem a mesma eficcia das
mais caras.

20

LEI DE ACESSO INFORMAO

Lei de Acesso Informao


Captulo 4

21

Guia de dados abertos

A abertura de bases governamentais encontra grande motivao na


legislao brasileira e internacional. O Brasil signatrio de diversos acordos
internacionais que tratam o acesso informao como um direito de qualquer
cidado, incluindo a Declarao Universal dos Direitos Humanos, adotada
pela Assembleia Geral da Organizao das Naes Unidas (ONU) em 1948.
O direito informao (abaixo, em negrito) est tambm previsto no artigo 19
da declarao:
Todo ser humano tem direito liberdade de opinio e de expresso; esse
direito inclui a liberdade de ter opinies sem sofrer interferncia e de
procurar, receber e divulgar informaes e ideias por quaisquer meios,
sem limite de fronteiras
Entende-se que qualquer informao que est sob a guarda do Estado
pblica, respeitando algumas restries. Esse o esprito da maior parte das
Leis de Acesso Informao ao redor do mundo e, no Brasil, no diferente.
As bases de dados governamentais so consideradas abertas, via de regra. Os
casos em que a abertura no considerada apropriada so excees. por isso
que recomendado familiarizar-se com a Lei de Acesso Informao do Brasil
e sua regulamentao no Estado de So Paulo para promover uma abertura de
bases governamentais consistente e de acordo com os ditames legais.

O acesso informao em So Paulo


O Governo de So Paulo vem se preparando desde meados da dcada de
1980 para organizar as informaes sob a guarda do Estado, com a instituio
do Sistema de Arquivos do Estado de So Paulo e de uma srie de leis e
decretos ao longo das dcadas de 1990 e 2000 que cuidam do ecossistema
de responsabilidades e gerenciamento de dados em So Paulo1. Um dos
passos mais importantes foi dado em 2010, com um decreto que tratou
especificamente sobre a forma como o Estado deveria publicar e organizar
dados considerados abertos na rede mundial de computadores, a Internet.

Leis estaduais n 10.177, de 30 de dezembro de 1998, que regula o processo administrativo, n 10.294,
de 20 de abril de 1999, que dispe sobre proteo e defesa do usurio de servios pblicos; decretos
estaduais n 22.789, de 19 de outubro de 1984, que institui o Sistema de Arquivos do Estado de So Paulo
- SAESP, n 44.074, de 1 de julho de 1999, que regulamenta a composio e estabelece a competncia das
Ouvidorias, n 54.276, de 27 de abril de 2009, que reorganiza a Unidade do Arquivo Pblico do Estado,
da Casa Civil, n 55.479, de 25 de fevereiro de 2010, que institui na Casa Civil o Comit Gestor do
Sistema Informatizado Unificado de Gesto Arquivstica de Documentos e Informaes - SPdoc, alterado
pelo de n 56.260 de 6 de outubro de 2010.
1

22

LEI DE ACESSO INFORMAO

O decreto n 55.559, de 12 de maro de 2010, cria o portal de dados


abertos de So Paulo, entitulado Governo Aberto SP. Nesse portal esto
concentrados esforos para a publicao de bases de dados no sigilosas e
de acesso irrestrito do governo paulista. O decreto prev a publicao dessas
bases em formato aberto e faz as devidas consideraes em relao aos
dados sigilosos que no devem ser publicados. De acordo com o decreto, a
seleo, publicao e atualizao dessas bases de responsabilidade de cada
rgo pblico, sob a coordenao da Secretaria de Gesto Pblica, responsvel
pela manuteno do portal. Outro decreto que trata do acesso informao
no Estado de So Paulo o de n 58.052, de 16 de maio de 2012, que
regulamenta a lei federal n 12.527 de 18 de novembro de 2011, a prpria Lei
de Acesso Informao em vigor no Brasil.

Transparncia Ativa
O decreto estadual n 58.052, de 16 de maio de 2012, que regulamenta a
Lei de Acesso Informao federal no estado de So Paulo, incorpora em
seu Artigo 23 os princpios da transparncia ativa, que determina como
dever dos rgos e entidades da Administrao Pblica Estadual promover,
independentemente de requerimentos, a divulgao em local de fcil acesso
de documentos, dados e informaes de interesse coletivo ou geral produzidas
pelo rgo ou sob sua guarda. Essas informaes devem ser publicadas na rede
mundial de computadores obrigatoriamente.
Artigo 23 - dever dos rgos e entidades da Administrao Pblica Estadual
promover, independentemente de requerimentos, a divulgao em local de fcil
acesso, no mbito de suas competncias, de documentos, dados e informaes de
interesse coletivo ou geral por eles produzidas ou custodiadas.
2 - Para o cumprimento do disposto no caput deste artigo, os rgos e
entidades estaduais devero utilizar todos os meios e instrumentos legtimos
de que dispuserem, sendo obrigatria a divulgao em stios oficiais da rede
mundial de computadores (internet).
A publicao de informaes na Internet, segundo o decreto estadual, deve
obedecer alguns critrios, como oferecer uma ferramenta de pesquisa de
contedo que permita acesso informao de forma objetiva, transparente,
clara e em linguagem de fcil compreenso. Os rgos tambm devem permitir
23

Guia de dados abertos

a gravao de relatrios em diversos formatos eletrnicos, inclusive abertos e


no proprietrios, tais como planilhas de texto, de modo a facilitar a anlise
das informaes. importante destacar que apesar de o texto do decreto
no estabelecer com detalhes o que um formato eletrnico aberto e no
proprietrio, as caractersticas desses formatos j esto bem estabelecidas.
O Guia de Abertura de Bases possui uma seo dedicada especialmente
a descrever uma srie de formatos eletrnicos abertos, a maior parte no
proprietrio.
Ainda sobre a publicao ativa de informaes na Internet, o decreto
determina que os rgos devem disponibilizar as informaes de modo
a possibilitar o acesso automatizado por sistemas externos em formatos
abertos, estruturados e legveis por mquina. Um arquivo PDF, por exemplo,
no suficiente para atender s determinaes do decreto. O PDF no
considerado uma tecnologia aberta nos termos deste guia, estruturada e
muito menos legvel por mquina. Sua funo gerar documentos que sero
impressos exatamente como so exibidos na tela do computador. No se trata
de uma tecnologia que tem como objetivo facilitar o acesso automatizado de
sistemas externos. A seo de formatos do Guia de Abertura de Bases apresenta
uma srie de tecnologias que se encaixam melhor nas determinaes do
decreto estadual.
O decreto tambm determina que o rgo deve divulgar, em detalhes, os
formatos utilizados para estruturao da informao publicada, alm de
garantir sua autenticidade e integridade e mant-la atualizada. Deve tambm
adotar todas as medidas necessrias para garantir a acessibilidade de contedo
para pessoas com deficincia.

Quais so as excees para abertura de dados?


O acesso livre e irrestrito considerado regra no mbito da Lei de Acesso
Informao. Existem algumas excees e, todas elas, esto descritas no texto da
Lei e no decreto estadual. So elas:
Segurana da sociedade e do Estado
Informaes cujo sigilo so considerados imprescindveis para a segurana da
sociedade e do Estado so consideradas excees, alm de pesquisas cientficas
e tecnolgicas com este fim e segredos de Estado. So dados que, caso
24

LEI DE ACESSO INFORMAO

divulgados, possam:
Colocar em risco a defesa e a soberania nacional ou a integridade do
territrio nacional;
Prejudicar as relaes internacionais do Brasil ou informaes que
tenham sido fornecidas ao governo por outros pases em carter
sigiloso;
Pr em risco a vida, a segurana ou a sade da populao;
Oferecer alto risco estabilidade financeira, econmica ou monetria
do Brasil;
Prejudicar operaes das Foras Armadas;
Pr em risco a segurana de autoridades estrangeiras no Pas;
Comprometer atividades de investigao ou fiscalizao em
andamento, relacionadas com a preveno ou represso de infraes.
Informaes pessoais
So informaes que esto relacionadas pessoa natural identificada ou
identificvel, relativas intimidade, vida privada, honra e imagem das pessoas,
bem como s liberdades e garantias individuais. Nmeros de telefone, carteira
de identidade ou motorista, CPF, extratos bancrios, entre outros, so
informaes que podem identificar pessoas e, portanto, so sigilosas.

25

Guia de dados abertos

Plano de Abertura de Dados


Captulo 5

26

PLANO DE ABERTURA DE DADOS

A abertura de dados em qualquer rgo pblico um processo que deve ser


planejado com cuidado e com o envolvimento de diversos atores: guardies
das bases, profissionais de Tecnologia da Informao (TI), gestores pblicos
e tcnicos das reas de interesse. Via de regra, todas as bases de dados que
o rgo j possui podem ser publicadas. Contudo, preciso garantir que as
bases selecionadas para publicao no se encaixam nos cenrios de exceo
previstos na Lei de Acesso Informao. Se uma parte dessas bases apresentar
informaes sigilosas, esses dados devem ser ocultados antes de publicados.
Essa parte do guia sugere a criao de um Plano de Abertura de Dados.
Trata-se de uma estratgia para iniciar processos de abertura de dados ou
como forma de avaliao sobre a situao de abertura em determinado rgo.
Contudo, cada instituio governamental tem liberdade para decidir como vai
abrir suas bases, em conformidade com a legislao estadual e federal sobre o
acesso informao.

As cinco estrelas dos dados abertos: aaaaa


Em 2010, o cientista britnico Tim Berners-Lee, inventor da Web, formulou
um sistema de estrelas para encorajar a sociedade, especialmente guardies de
dados governamentais, a abrirem seus dados. O sistema ajuda a diagnosticar o
nvel de abertura de dados dos rgos pblicos e fornece degraus alcanveis
para se chegar a nveis cada vez mais refinados de dados abertos.

a
O primeiro estgio do sistema de estrelas requer apenas que seus dados
estejam disponveis na Web em qualquer formato (seja um documento
PDF, arquivo do processador de textos Word ou qualquer outro,
proprietrio ou no, aberto ou no). Alm de estarem disponveis na
Web os dados devem ser oferecidos sob uma licena aberta. A licena
aberta d a autorizao para que esses dados sejam utilizados por qualquer
pessoa, sem restries, e para qualquer fim, inclusive comerciais. Existem
diversas licenas abertas que descrevem a utilizao de dados. Este guia
no faz uma anlise exaustiva das licenas abertas que existem, mas
aponta caminhos para que cada rgo possa formular licenas abertas e
compatveis com os princpios internacionais de abertura de dados.
27

Guia de dados abertos

Para atender as demandas da primeira estrela, basta que um arquivo seja


publicado em um stio da Web, em qualquer formato, e, junto dele, esteja
especificada a licena aberta de utilizao. Se o seu rgo j publica dados
na Web em qualquer formato, isso quer dizer que basta acrescentar a
licena aberta para receber a primeira estrela.

Quais so os benefcios de a
Tanto para o usurio dos dados quanto para quem publica, mesmo a
primeira estrela traz uma srie de benefcios. Enquanto usurio, possvel
visualizar os dados, imprimi-los, baix-los para um computador particular
ou um pendrive, digit-los em qualquer outro sistema, realizar anlises e
compartilh-los com quem desejar, da forma que desejar.
Quem publica pode faz-lo de forma simples, pois no precisa se ater aos
formatos utilizados. Alm disso, no ser necessrio explicar, repetidas
vezes, para todos os interessados nos dados, que eles podem ser utilizados
para quaisquer fins, uma vez que eles esto sendo distribudos a partir de
uma licena aberta.
Publicar dados na Web em qualquer formato sob uma licena aberta
um grande passo para a abertura de dados. Contudo, os usurios de dados
podem encontrar dificuldades para extrair os dados desses documentos
sem precisar digit-los manualmente em outros sistemas.

aa
O segundo estgio do sistema de estrelas requer que as informaes sejam
publicadas na Web sob uma licena aberta, mas requer que essas bases
fiquem disponveis num formato estruturado, que permita a manipulao
facilitada de suas linhas e colunas.
Ou seja, enquanto a primeira estrela permite que imagens escaneadas de
tabelas e arquivos PDF de relatrios sejam publicados, para se obter a
segunda estrela necessrio que o arquivo seja disponibilizado de uma
forma que permita a manipulao em aplicativos de anlise e estruturao
de dados, sem a necessidade de digitar essas informaes manualmente.
28

PLANO DE ABERTURA DE DADOS

Arquivos do Excel (.xlsx), por exemplo, so arquivos estruturados.


A segunda estrela no faz qualquer exigncia em relao ao aplicativo
que gerou o arquivo ou ao formato do documento, desde que ele seja
estruturado.

Quais os benefcios de aa
Alm de todos os benefcios da primeira estrela, as duas estrelas permitem
que os usurios usem aplicativos proprietrios, como o Excel, para
agregar, fazer clculos, visualizaes e outras operaes com os dados
disponibilizados. Alm disso, possvel export-los para outro formato
estruturado com facilidade.
Quem publica ainda pode faz-lo de forma simples, apenas atentando-se
ao fato de que o arquivo publicado deve estar num formato estruturado,
mas respeitando que ele deve estar na Web e distribudo sob uma licena
aberta.
Pode parecer pouco, mas as duas estrelas representam um grande avano
na abertura de dados, uma vez que as informaes esto disponveis
na Web de forma estruturada e sob uma licena aberta. Contudo, os
dados ainda esto trancados dentro de um documento. Para extra-los
de l, dependendo do formato utilizado, ser preciso usar um programa
proprietrio (que pode custar dinheiro), o que um obstculo para
diversas pessoas.

aaa
O terceiro estgio do sistema de estrelas semelhante ao segundo, mas
inclui uma exigncia: a de que os arquivos estruturados disponibilizados
na Web sob licena aberta sejam gerados em um formato no proprietrio.
Em vez de um documento no formato .xlsx, gerado pelo aplicativo
proprietrio Excel, por exemplo, a opo seria usar o CSV, um formato
estruturado que no depende de programas proprietrios para ser
manipulado.

29

Guia de dados abertos

Quais os benefcios de aaa


Os rgos que conseguirem chegar s trs estrelas da abertura de dados
vo oferecer aos cidados todos os benefcios das duas estrelas, alm de
permitir que qualquer um possa baixar e manipular os dados da forma
mais conveniente, sem exigir a utilizao de um aplicativo especfico.
Quem publica deve prestar ateno aos conversores e plug-ins necessrios
para exportar os dados a partir de um formato proprietrio para um
formato aberto. Todo o processo de publicao ainda permanece
razoavelmente simples, uma vez que trata-se apenas de disponibilizar
documentos em formato aberto na Web e distribudos com uma licena
aberta.
Nas trs estrelas, qualquer pessoa pode utilizar os dados de forma
fcil, mas essas informaes podem ser disponibilizadas em formatos
que permitem ainda mais interao entre sistemas e facilitam o seu
compartilhamento.

aaaa
Para entender melhor o funcionamento da quarta e da quinta estrela,
importante ler o Guia de Web Semntica. Enquanto as trs primeiras
estrelas do diretrizes para que os dados possam ser publicados na Web na
forma de documentos de formato aberto e com licena aberta, a quarta e a
quinta estrela apresentam o conceito de dados conectados.
Para conseguir as quatro estrelas necessrio fazer tudo que as estrelas
anteriores aconselham, s que alm de usar um documento em formato
aberto, os dados tambm so publicados na prpria pgina da Web usando
URIs para descrever cada um dos dados, de modo que qualquer pessoa
possa identificar os elementos de forma padronizada no documento
publicado.

Quais so os benefcios de aaaa


Dados publicados seguindo as diretrizes das quatro estrelas podem ser
conectados a partir de sistemas disponveis em qualquer outra parte da
30

PLANO DE ABERTURA DE DADOS

Web. Partes desses dados podem ser reutilizadas e combinadas com outros
dados.
Quem publica passa a ter um controle fino de cada clula da base de
dados e pode otimizar o acesso ao banco, equilibrando a carga de acessos,
realizando cpias estratgicas e muito mais. Outros rgos que publicam
dados podem conectar as bases deles s suas usando o mesmo esquema de
URIs.

aaaaa
O ltimo estgio do sistema de estrelas requer que seus dados publicados
no esquema de URIs estejam conectados a outras bases de dados
publicadas sob as mesmas condies. Mais informaes sobre como os
dados conectados funcionam pode ser encontradas no Guia de Web
Semntica.

Quais so os benefcios de aaaaa


As diretrizes que levam s cinco estrelas permitem que qualquer pessoa
possa descobrir mais dados medida que navega por eles. Tambm
possvel aprender sobre o esquema de publicao dos dados diretamente,
apenas estudando sua estrutura.
Quem publica permite que os dados sejam descobertos, aumentando o
valor agregado dos dados. Esse benefcio vale, inclusive, para o prprio
rgo que publica, uma vez que os recursos estaro disponveis para
qualquer um.
As cinco estrelas dos dados abertos servem como uma diretriz sbria e objetiva
em relao aos objetivos de cada rgo pblico para abertura de suas bases. Em
suma:

31

Guia de dados abertos

a
Publicar bases na Web (em qualquer formato) com licena aberta

aa
Publicar bases em formato estruturado com licena aberta
(ex: arquivo Excel, em vez de imagem escaneada)

aaa
Usar formatos no proprietrios e uma licena aberta
(ex: arquivo CSV em vez de Excel)

aaaa
Usar URIs para descrever coisas, para que qualquer um possa identific-las

aaaaa
Conectar seus dados a outras bases para dar contexto
Tendo em vista as recomendaes do sistema desenvolvido por Tim BernersLee, o Plano de Abertura de Dados poder ser desenvolvido levando-se em
considerao...
...o escopo
Ao se preparar para abrir suas bases, o rgo deve escolher quais bases, ou suas
partes, devero ser abertas. Essa abertura, se guiada pelo esquema das cinco
estrelas dos dados abertos, deve levar em considerao os desafios tcnicos e
humanos para se conseguir chegar a trs estrelas, por exemplo, ou cinco.
possvel que algumas das bases j estejam prontas para serem publicadas na
Internet em formato estruturado e aberto e com licena aberta (trs estrelas),
ou que outras existam apenas em formatos fechados e no estruturados, mas
possam ser colocadas em stio da Web com licena aberta (uma estrela).
O escopo vai ajudar a mapear quais bases podero ser abertas e em qual regime
de estrelas elas entraro, de uma a cinco. O nmero de estrelas vai depender
dos recursos tcnicos e humanos disponveis ao rgo.
...a priorizao
Depois de definido o escopo de abertura de bases em relao ao nmero de
estrelas que se deseja atingir com cada uma delas, preciso definir qual ser a
32

PLANO DE ABERTURA DE DADOS

priorizao para a publicao dessas bases.


Quais bases podero ser publicadas imediatamente? Com quantas
estrelas?
Quais bases precisaro passar por algum tratamento antes de serem
publicadas?
Quais bases sero publicadas no longo prazo?
Qual ser o mnimo de estrelas que o rgo deseja conseguir em todas
as bases que forem publicadas?
Essas so algumas das perguntas a serem feitas pela equipe responsvel pela
abertura de bases em relao priorizao.
...as partes interessadas
A abertura de bases tambm deve levar em considerao quais reas dos
rgos, sejam diretorias, coordenadorias ou subsecretarias etc, faro parte do
esforo de abertura de bases, tendo em vista o nmero de estrelas que se deseja
conquistar. Cada rea dever ser responsvel pelo fornecimento dos dados que
produz em formatos que estejam de acordo com o nmero de estrelas definido
no escopo do plano de abertura.

Equipes de Abertura de Dados


Para abrir as bases de dados do seu rgo, ser preciso pensar em quais atores
estaro envolvidos diretamente com o fluxo de trabalho de publicao dessas
bases na Web, de modo que elas estejam sempre atualizadas e sigam um padro
coerente de divulgao. O nmero de pessoas e o perfil dos profissionais
envolvidos vai depender da quantidade de estrelas que o seu rgo deseja
alcanar para abrir as bases. Veja o perfil mnimo dos profissionais necessrios
em cada uma das estrelas:

Publicar bases na Web (em qualquer formato) com licena aberta

33

Guia de dados abertos

Equipe:
Tcnico do setor pblico, guardio ou responsvel pela base que dever
ser aberta.
Profissional de TI que ficar responsvel por colocar os documentos em
stio da Web, junto com a licena aberta.
Fluxo de trabalho simplificado: Tcnico do setor pblico envia base (em
qualquer formato) para que profissional de TI, que disponibiliza a base no stio
da Web do rgo, com a licena aberta.

aa Publicar bases em formato estruturado


Equipe:
Tcnico do setor pblico, guardio ou responsvel pela base que dever
ser aberta, atentando-se para o fato de que a base deve estar num
formato estruturado (ex: arquivo Excel, em vez de imagem escaneada).
Profissional de TI que tambm vai se certificar de que a base est num
formato estruturado e ficar responsvel por colocar os documentos em
stio da Web, junto com a licena aberta.
Fluxo de trabalho simplificado: Tcnico do setor pblico, guardio ou
responsvel pela base que dever ser aberta, se necessrio, converte a base de
dados para um formato estruturado, recebendo auxlio do profissional de TI.
Esse profissional envia o documento, junto com sua licena aberta, para stio
da Web do rgo pblico.

aaaUsar formatos no proprietrios


Equipe:
Tcnico do setor pblico, guardio ou responsvel pela base que
dever ser aberta, atentando-se para o fato de que a base deve estar,
no mnimo, num formato estruturado e no proprietrio (ex: arquivo
CSV em vez de Excel).

34

PLANO DE ABERTURA DE DADOS

Profissional de TI que tambm vai se certificar de que a base est num


formato estruturado, caso necessrio, converte a base para um formato
aberto e ficar responsvel por colocar os documentos em stio da Web,
junto com a licena aberta.
Fluxo de trabalho simplificado: Tcnico do setor pblico, guardio ou
responsvel pela base que dever ser aberta, se necessrio, converte a base de
dados para um formato estruturado aberto, recebendo auxlio do profissional
de TI. Este profissional envia o documento, junto com sua licena aberta, para
stio da Web do rgo pblico.

aaaaUsar URIs para descrever coisas, para que qualquer um possa


identific-las
Equipe:
Tcnico do setor pblico, guardio ou responsvel pela base que dever
ser aberta, atentando-se para o fato de que a base deve estar num
formato estruturado e aberto.
Profissional de TI que ajudar no preparo dessa base de dados para que
ela possa se adequar aos padres descritos no Guia de Web Semntica.
Profissional de TI que ficar responsvel pela manuteno dessas bases
na Web, junto com a licena aberta.
Fluxo de trabalho simplificado: Tcnico do setor pblico, guardio ou
responsvel pela base que dever ser aberta recebe auxlio do profissional de TI
para adequar a base de dados aos padres descritos no Guia de Web Semntica.
A base ento publicada (ou atualizada) em stio da Web, com infraestrutura
adequada para embarcar Dados Conectados.

aaaaaConectar seus dados a outras bases para dar contexto


A equipe e o fluxo de trabalho simplificado para as cinco estrelas so semelhantes
aos de quatro estrelas.

35

Guia de dados abertos

Publicao
Com os dados em mos, num formato aberto e com uma licena que permita
a sua reutilizao de forma livre, chegar a hora de publicar as bases na Web.
Esse um momento importante do Plano de Abertura de Bases e deve ser
planejado com calma e diligncia. A publicao depende de quantas estrelas
o rgo interessado deseja conquistar com a abertura dos dados. Idealmente,
uma publicao que visa a conseguir cinco estrelas no longo prazo deve se
preparar desde o incio para que os ajustes ao longo do caminho sejam suaves e
previsveis.
O melhor caminho para conquistar a abertura e interoperabilidade dos
dados, no que diz respeito sua viabilizao de acesso na Web, por meio de
repositrios estruturados e planejados. Isso no quer dizer, necessariamente,
que o rgo interessado dever adquirir sistemas complexos de armazenamento
de dados. Uma pgina simples da Web com uma lista bem estruturada de
documentos pode servir como um bom repositrio de dados, ou um catlogo,
desde que alguns cuidados sejam tomados. A complexidade do sistema
depender da quantidade de bases abertas e dos recursos, tcnicos e humanos,
de cada rgo.
A forma como essas informaes sero organizadas deve ser convencionada
com antecedncia, com a participao de todos os atores envolvidos. De
preferncia entre rgos que publicam dados correlacionados e podem publicar
bases que tm o potencial de conversarem umas com as outras. Isso
importante para que todos tenham entendimento comum do significado dos
dados que sero compartilhados.
O objetivo dessa organizao que toda a sociedade que tem o acesso
informao seja capaz de interpretar os dados de maneira uniforme, utilizando
sistemas e plataformas de trocas de dados. Essa padronizao prvia entre
as partes ganha forma quando se publica na Web os nomes e definies dos
elementos usados em forma partilhvel e referencivel, independentemente do
grau de apoio que se obteve.
Esse planejamento abre caminho para a construo de bases de dados cinco
estrelas, independente dos aplicativos utilizados para organiz-los e public-los.
Qualquer que seja a estratgia adotada, importante incluir no planejamento
os conceitos de alguns padres:

36

PLANO DE ABERTURA DE DADOS

URI: um identificador de recursos que serve para identificar ou


apontar para alguma coisa na Web.
Um URL um URI que identifica um recurso e prov meios de
agir sobre ele, obter e/ou representar este recurso, descrevendo
seu mecanismo de acesso primrio ou a localizao na rede. Por
exemplo, o URL http://www.w3c.br/ um URI que identifica um
recurso (Stio do W3c Brasil) e representa este recurso (o HTML da
pgina por exemplo) e est disponvel via HTTP de um hospedeiro
de redes chamado http://www.w3c.br.
RDF/XML: O XML um formato padro do W3C para a criao
de documentos com dados organizados de forma hierrquica,
como se v, frequentemente, em documentos de texto formatados,
imagens vetoriais ou bancos de dados.
SPARQL: o sparkle, tambm recomendado pelo W3C e aos
cuidados dos grupos de Web Semntica do W3C utilizado para
buscar a informao independente do formato dos resultados.
Existem padres para publicaes de dados em formato aberto.
imprescindvel que esses padres estejam especificados e regulamentados
tambm em normas ou qualquer outra recomendao governamental para
possibilitar um ambiente interopervel em todos os domnios e-gov.

O desenvolvimento de uma API necessrio?2


Uma questo importante a ser levada em considerao na abertura de bases
de dados o desenvolvimento de uma API (Application Programming
Interface) para servir informaes na Web. Uma API, no escopo deste guia
e de forma resumida, uma camada de interao entre uma base de dados e
um aplicativo que se alimenta desses dados. A API oferece ao desenvolvedor/
empreendedor interessado uma srie de chamadas padres para se extrair dados
de determinada base por meio de requisies na Web. O desenvolvimento
de uma API requer conhecimento tcnico refinado e, caso ela seja pblica,
a definio de padres arbitrrios, que tentam antever os casos em que o
desenvolvedor/empreendedor precisar dos dados. Uma API apresenta uma
2

Adaptado de: https://www.peterkrantz.com/2012/publishing-open-data-api-design/

37

Guia de dados abertos

srie de vantagens, como o acesso facilitado e rpido s bases de dados. Em vez


de baixar a base de dados inteira, basta que o programador faa uma chamada
simples na Web para extrair a poro que interessa a ele naquele momento. Ela
tambm facilita o acesso em tempo real a partes especficas da base, permitindo
a criao de aplicaes que dependem de dados atualizados rapidamente.
As APIs podem ser privadas, quando um desenvolvedor tem controle sobre
o banco de dados e cria a API para facilitar o acesso aos dados; ou pblicas,
quando o guardio de uma base de dados desenvolve uma API para servir a
comunidade de desenvolvedores/empreendedores, procurando antever quais
tipos de requisies ao banco de dados sero teis e genricas o suficiente para
atender o maior nmero de aplicaes possveis. Servios como o Facebook e o
Twitter possuem APIs pblicas que permitem programadores de todo mundo
interagirem, de forma limitada, com a imensido de dados que essas empresas
abrigam.
No mbito do governo, apesar das vantagens, o desenvolvimento de uma
API pode trazer situaes desconfortveis, dependendo do caso. preciso
refletir com cuidado se o desenvolvimento de uma API o melhor caminho
a ser seguido, pois h alternativas que podem funcionar melhor para ambos
os lados: tanto para o desenvolvedor interessado nos dados governamentais,
quanto para as equipes de servidores pblicos ou terceirizados pelo estado que
teriam a misso de manter as APIs funcionando de maneira estvel e confivel.

Um cenrio fictcio
Imagine que a Secretaria de Logstica e Transportes do Estado de So Paulo
tenha desenvolvido uma API pblica para que qualquer desenvolvedor pudesse
acessar informaes sobre as condies de manuteno das estradas paulistas.
Em determinado momento o servidor de API foi inundado e o servidor do
banco de dados travou. Os servios estaduais que dependem desse banco de
dados pararam de funcionar. Os registros mostravam que houve um aumento
grande no trfego entre oito e nove horas da manh com muitas requisies
de API vindas de muitos lugares diferentes. Depois das nove horas o nvel de
acessos nos servidores diminuiu e tudo voltou ao normal.

38

PLANO DE ABERTURA DE DADOS

O que aconteceu?
Seguindo com o cenrio fictcio, um ano antes, a Secretaria de Logstica
e Transportes comeou a abrir seus dados como parte da poltica de
transparncia do estado. Havia pressa e, com a equipe reduzida, eles decidiram
criar uma API para os dados das estradas configurando um servidor de API
acessvel pela Internet. A API foi desenvolvida levando em considerao
potenciais situaes em que os desenvolvedores de aplicativos poderiam usla, mas era difcil saber exatamente o que as pessoas iriam querer. Ao todo, a
equipe da Secretaria estabeleceu trs chamadas genricas de API.
Passado o ocorrido com os servidores, um ano mais tarde, os servidores
descobriram que um empreendedor havia desenvolvido um aplicativo de
celular que fez muito sucesso, sendo usado por centenas de milhares de
pessoas. Todos os dias de manh o aplicativo anunciava, antes da pessoa ir
trabalhar, qual era a situao de manuteno nas estradas paulistas. Para baixar
esses dados cada aplicativo instalado em cada celular precisava realizar duas
chamadas de API. Foi isso que derrubou os servidores da Secretaria, pois a
infraestrutura no estava preparada para lidar com o nmero de acessos.

Alternativa
Uma alternativa ao modelo apresentado anteriormente publicar dumps de
dados na forma de arquivos. Nesse modelo, os dados da base so exportados
e transformados num arquivo de formato aberto, tal como o CSV. Depois
disso, recebem um nome padronizado e so armazenados num servidor de
pginas da Web. Isso significa que qualquer desenvolvedor pode baixar todos
os seus dados, carreg-los na infraestrutura deles e desenvolver suas prprias
APIs (nesse caso, privadas) de acordo com a necessidade deles. Alm disso,
grandes quantidades de acesso estaro concentradas nos servidores deles, sem
afetar o funcionamento de outros servios do governo. Outra vantagem que
a publicao de arquivos dumps num servidor de pginas da Web muito
simples. Se os arquivos e URLs receberem nomes consistentes, ser fcil para
os desenvolvedores baixarem os dados ao longo do tempo (por exemplo,
http://exemplo.com/estradas/2015-01-30.csv).

39

Guia de dados abertos

Consideraes
Voc realmente precisa de uma API? Desenvolver uma API pode
se tornar um projeto caro que vai competir com outros projetos de
TI com prioridade maior. Alm disso, esse tipo de projeto envolve
tomar decises sobre quais chamadas sero realizadas. Voc sabe como
seus usurios vo usar seus dados? Sua API vai contribuir para que os
usurios utilizem os dados da melhor forma possvel? Qual seu plano
para lidar com grandes quantidades de acesso?
Crie condies para que os desenvolvedores mantenham uma cpia
local e atualizada dos seus dados. A oferta de dumps de dados
nomeados de forma consistente simplifica o processo de manter uma
base de dados atualizada.
Isole sistemas internos dos efeitos da publicao externa de dados.
Tome os devidos cuidados para que os acessos vindos da Web no
interfiram com bases de dados internas, afetando outros servios do
Governo.
Certifique-se de que voc pode mudar seus sistemas sem quebrar os
URLs. Desenvolvedores vo construir aplicativos que dependem dos
seus URLs. No os force a reescrever seus programas apenas porque
voc vai mudar de plataforma. Sinais de que as coisas podem ser
melhores planejadas incluem fragmentos que pertencem a plataformas
especficas, como apsx ou jsp, nos seus URLs. Livre-se deles.

Mapa de decises tecnolgicas


A tabela abaixo foi adaptada a partir do kit de dados abertos do governo
federal. Ela mostra uma srie de solues para a publicao de dados abertos,
as tecnologias mais utilizadas e o tempo mdio esperado de aplicao. As
estimativas dependem dos recursos tecnolgicos e humanos disponveis para
cada rgo pblico que deseja abrir suas bases. O sistema de estrelas parte do
pressuposto de que os dados so publicados com uma licena aberta.

40

PLANO DE ABERTURA DE DADOS

Soluo
Publicar dump da base de dados

Publicar dados em arquivos CSV

Pr-requisitos
Acesso base de dados
Servidor web para arquivos
Mecanismo de ETL (caso
esteja em banco relacional)

Prazo

Estrelas

Curto

Curto

Servidor web para arquivos

Publicar dados em
arquivos JSON / XML

Mecanismo de ETL (caso


esteja em banco relacional)
Servio de desenvolvimento

Mdio

Servidor web para arquivos


Servio de desenvolvimento
Desenvolver mdulo de dados
abertos em sistema existente

Servidor web para


rodar nova soluo

Longo

Mecanismo de ETL
Desenvolver API RESTful de
dados abertos desacoplada
da soluo (voc precisa
mesmo de uma API?)

Servio de desenvolvimento

Longo

Servidor web para


rodar nova soluo
Mecanismo de ETL

Novo Sistema, com a gesto


de dados incorporados em
sua arquitetura

Servio de desenvolvimento

Longo

Servidor web para


rodar nova soluo
Ontologia da rea do
conhecimento do sistema

Publicar dados em arquivos RDF

Mecanismo de ETL

Longo

Servidor web para arquivos

Disponibilizar dados
por Endpoint SPARQL

Ontologia da rea do
conhecimento do sistema
Mecanismo de ETL

Mais Longo

Banco de dados de triplas


Ontologia da rea do
conhecimento do sistema
Publicar dados em
API de dados ligados
(Linked Data)

Banco de dados de triplas


Servio de desenvolvimento

Mais Longo

Mecanismo de ETL
Servidor web para
rodar nova soluo

41

Guia de dados abertos

Catlogo
Repositrio de dados
Captulo 5

42

CATLOGO/REPOSITRIO DE DADOS

So Paulo j possui um catlogo de dados centralizado chamado Governo


Aberto SP. Ele representa um esforo da Administrao Pblica paulista
em reunir, num s lugar, informaes sobre suas bases pblicas, seus
guardies, suas caractersticas, a forma de baix-las pela Web e seus formatos.
recomendvel que exista um repositrio central de dados, para que o
cidado no tenha que passar horas catando bases de dados em stios de
diferentes rgos do Estado. Iniciativas exitosas ao redor do mundo mostram
que a reunio das bases de dados num catlogo central no apenas algo
recomendado sob o ponto de vista da praticidade para o cidado, mas como
forma inteligente de medir e monitorar a sade das bases pblicas disponveis
para a sociedade.
O Governo Aberto SP pode deixar de ser um produto final, que serve como
ferramenta de consulta, para ser uma plataforma. preciso refletir sobre que
tipo de informao entra e quais tipos de produtos podem sair desse portal,
de modo que as integraes de bastidores (a formulao de scripts para
automatizar o processo peridico de publicao de bases, por exemplo) faam
parte do fluxo de trabalho dos servidores, sem atrapalhar sua rotina. O portal
poderia ser tambm uma forma de o governo rastrear quais dados abertos esto
sendo publicados e mant-los organizados e atualizados.
Dentre os produtos que podem depender de um catlogo de dados
centralizado bem administrado esto os dashboards, ou paineis dinmicos.
Essas ferramentas poderiam mostrar o rendimento do estado a partir de
diversos indicadores construdos em cima das bases de dados disponveis no
portal. Essa estratgia seria interessante, pois os dados utilizados precisam ser
abertos e atualizados para que o painel dinmico funcione, criando um ciclo
virtuoso.
Os painis podem ser criados de acordo com a demanda do executivo, dos
secretrios e dos cidados: reas como criminalidade, finanas, sade,
meio ambiente ou transporte. A escolha poderia ser feita a partir de uma
tempestade de ideias com servidores, gestores e a sociedade civil ou por meio
de uma consulta pblica. Essas informaes consistiriam no argumento para o
desenvolvimento, que poderia ser feito por meio de competies. O governo
colocaria as bases e as APIs disposio dos programadores e das empresas, e
eles fariam o prottipo. Essa relao entre governo e iniciativa privada pode
estimular a gerao de novos negcios a partir da abertura de dados.

43

Guia de dados abertos

Existem diversas ferramentas no mercado que podem auxiliar a Administrao


Pblica na implantao de um catlogo centralizado de dados. Atualmente,
duas que se destacam so o Socrata, desenvolvido por uma empresa americana,
e o CKAN, ferramenta gratuita e de cdigo livre mantida pela Open
Knowledge e por uma comunidade de desenvolvedores. Ambas as ferramentas
so usadas ao redor do mundo em portais de dados abertos governamentais e
possuem vantagens e desvantagens. Cabe ao gestor pblico realizar consultas
tcnicas para tomar a deciso mais acertada frente s necessidades e ao
contexto paulistas.

44

CENRIOS TCNICOS, OPES TECNOLGICAS

Cenrios tcnicos,
opes tecnolgicas
Captulo 7

45

Guia de dados abertos

Abrir bases e coloc-las disponveis na Web significa tambm contemplar


cenrios tcnicos e de infraestrutura para manter essas bases acessveis e
atualizadas. Este guia se baseia em trs cenrios diferentes, como sugeridos pelo
kit de ferramentas do Banco Mundial para dados abertos governamentais.
Essas decises tambm devem ser levadas em considerao quando comparadas
aos objetivos de abertura de dados do rgo e como eles se encaixam no
sistema de cinco estrelas. Para efeitos de comparao, as recomendaes
tcnicas do Banco Mundial levam em considerao apenas bases com, no
mximo, trs estrelas.
So considerados trs nveis de complexidade baseados no nmero de bases de
dados disponveis e a frequncia de atualizao de cada uma delas:
Nivel 1: menos de 100 bases de dados com menos de 10 bases atualizadas
semanalmente
Nivel 2: de 100 a 1000 bases de dados, com 10-100 bases atualizadas
semanalmente
Nvel 3: mais de 1000 bases de dados, com 100 ou mais bases atualizadas
semanalmente
Este guia apresenta as solues tcnicas apenas em carter de recomendao,
no endossando qualquer software ou soluo tecnolgica de uma empresa
especifica.

Nvel 1
O primeiro nvel de complexidade atende rgos que desejam iniciar seus
esforos em abertura de dados e que no possuam um volume muito grande
de bases de dados. Nesses casos, um nico profissional de TI capaz de
administrar o local onde as bases de dados sero disponibilizadas.
O rgo que tiver menos de 100 bases para publicar na Web pode configurar
um servidor de Web convencional, hospedando os documentos no prprio
servidor ou num servio de armazenamento em nuvem. As bases devem ter sua
descrio (tambm conhecida como metadados) embarcada na pgina onde
so publicadas e ferramentas existentes de busca, como a busca personalizada
do Google, podem ser utilizadas.
46

CENRIOS TCNICOS, OPES TECNOLGICAS

No necessrio configurar uma rotina de atualizao automtica de bases: os


dados podem ser enviados manualmente com apoio da equipe de TI do rgo.
recomendado incluir um sistema de comentrios nas pginas das bases, de
modo a estimular sugestes e crticas dos usurios que acessarem as bases.
Resumo:
Configurar um stio usando um servidor de Web padro
Hospedar dados diretamente no servidor (ou usando algum servio de
hospedagem em nuvem)
Metadados embarcados na prpria pgina onde as bases so exibidas
Busca no stio com ferramentas existentes, como a busca personalizada
do Google
Atualizao manual de dados, metadados e contedo com apoio da
equipe de TI
Incluir sistema de comentrios nas pginas das bases, para receber
sugestes

Busca
personalizada
do Google
Apache, Nginx, IIS

Excel, csv,
xml

Busca
Catlogo
de dados

Bases de dados
no sistema
original

Servidor de Web

Sistema de
comentrios

Painel de controle
do servidor (opcional)

Publicar

Pgina HTML

Drupal, WordPress, Joomla

CMS de contedo
(opcional)
Equipe de TI

47

Guia de dados abertos

Nvel 2
O segundo nvel de complexidade descreve um cenrio em que uma
quantidade razovel de bases de dados devem ser publicadas na Web. A soluo
apresentada pode ser compartilhada entre diferentes rgos, dependendo da
demanda. Nesse nvel de complexidade, recomendado que a equipe de TI
tenha especialistas na configurao otimizada de servidores e bancos de dados.
A publicao de 100 a 1000 bases de dados poder acontecer em um servidor
central que serve de repositrio de bases para o stio do(s) rgo(s). O acesso
se d por meio de um CMS (do ingls Content Management System, ou
Sistema de Gerenciamento de Contedo), como Wordpress ou Drupal, e
os dados so gerenciados manualmente em seus formatos originais no mesmo
servidor do CMS, ou armazenamento em nuvem. Os metadados das bases so
armazenados em banco SQL, exibido em pginas geradas de forma dinmica.
O sistema faz verificao automtica de links quebrados e a busca pode ser
feita diretamente na base de metadados, ou usando as opes do CMS ou
busca personalizada do Google. recomendado o uso de caching para cuidar
da grande quantidade de acessos e tambm no armazenar os metadados no
CMS.
Resumo:
Front-end convencional usando um CMS (Wordpress, Drupal etc);
Bases de dados so hospedadas em formato original no prprio servidor
da aplicao ou nos respectivos stios dos rgos, para o caso de uma
atividade em conjunto;
Metadados so hospedados em banco de dados SQL, requisies via
gerao dinmica de pginas;
Verificao automtica de links quebrados;
Busca via varredura de texto no banco SQL, busca do CMS ou busca
personalizada do Google;
Fazer caching para equilibrar acessos;
No salvar metadados no CMS.

48

CENRIOS TCNICOS, OPES TECNOLGICAS

Stio do rgo pblico


Bases de dados
no sistema
original

Excel,
csv,
xml

HTML
links

Bases de dados
no sistema
original

Sistema de
comentrios
Drupal,
WordPress,
Joomla

Busca Google/
Busca CMS
Busca no BD
Apache,
Nginx,
IIS

Busca

Servidor de Web

Catlogo
de dados

Requisio

Painel de controle
do servidor

Publicar

Php,
python
jsp

MySQL,
Postgres,

Banco de
Dados do
Catlogo
de Dados

CMS de
contedo
Equipe de TI

Nvel 3
O terceiro nvel de complexidade descreve um cenrio onde mais de 1000
bases so publicadas e 10% delas so atualizadas frequentemente. Nesses casos,
comum que a plataforma sirva para gerenciar bases de dados de diversos
rgos, contando com uma equipe de TI especializada e que poder atender as
demandas de vrios setores em tempo hbil.
Um ou mais servidores podero ser usados, dependendo da preferncia
da equipe de administrao da infraestrutura. A parte de front-end deve
integrar diferentes web services, preferencialmente por meio de uma API. O
gerenciamento dos documentos das bases de dados deve ser feito de forma
automtica, possivelmente em uma soluo de armazenamento em nuvem.
Os metadados so armazenados num repositrio otimizado. O envio e
a atualizao das bases de dados so delegadas a cada rgo pblico que
compartilha a plataforma com validao automtica de bases e controle de

49

Guia de dados abertos

acesso em nveis. A verificao de links quebrados automtica e dever


ser oferecido um sistema para que usurios possam relatar erros com o
responsvel por cada base, via formulrio web, por exemplo. A busca poder
ser implementada via pesquisa estruturada no repositrio de metadados, no
CMS ou usando a busca personalizada do Google no stio principal.
Resumo:
Front-end faz integrao de vrios web services, preferencialmente por
API;
Gerenciamento automtico dos arquivos de dados originais,
armazenados em soluo na nuvem;
Metadados so armazenados em repositrio otimizado;
Envio e atualizao das bases de dados so delegadas a cada rgo
pblico, com validao automtica de bases e controle de acesso em
nveis;
Verificao automtica de links quebrados;
Sistema para que usurios possam relatar erros com o responsvel por
cada base, via formulrio web ou similar;
Busca estruturada no repositrio de metadados, no CMS ou usando a
busca personalizada do Google no stio principal.

50

CENRIOS TCNICOS, OPES TECNOLGICAS

Stio do rgo pblico


Busca
personalizada
no Google

Bases de dados
no sistema
original

Excel,
csv,
xml

Apache,
Nginx,
IIS

Bases de dados
no sistema
original
Sistema de
comentrios

Busca
Catlogo
de dados

Servidor de Web

Requisio

Painel de controle
do servidor
Publicar

API
(pblica)
CKAN,
OGPL,
Socrata
API de
visualizao
(pblica)

Fluxo de
trabalho

Banco de
Dados do
Catlogo
de Dados

MySQL,
Postgres,

API
(pblica)

Sistema de
metadados

CMS de
contedo
Orgo Pblico 1

Orgo Pblico 3

Drupal, WordPress,
Joomla
Orgo Pblico 2

51

Guia de dados abertos

Melhores prticas de segurana da informao


Assim como toda iniciativa que envolve tecnologia da informao, a abertura
de bases deve ser feita seguindo critrios rigorosos de melhores prticas de
segurana da informao. Vale lembrar:
Governana de dados para garantir:
Autoridade da fonte
Regras de engajamento
Sustentabilidade
Classificao de dados Pblicos x Sigilosos para garantir:
Dados privados ou sigilosos no tero acesso externo
Controles de Segurana da Informao para garantir
Confidencialidade e integridade dos dados
Proteo contra ataques de negao de servio (DoS)

52

LICENA DE UTILIZAO DOS DADOS

Licena de utilizao
dos dados
Captulo 8

53

Guia de dados abertos

A abertura de bases, nos termos sugeridos por este guia, implica disponibilizar
as informaes de forma completa na Web, em formatos no proprietrios,
com acesso irrestrito e livre para qualquer pessoa e de modo que qualquer
um possa reutiliz-los para qualquer fim, sem restries. Esse pargrafo um
breve resumo do que pode ser considerada uma licena aberta, ou seja, as
condies que o guardio dos dados d ao usurio para utilizao dos mesmos.
Sem essa licena, os dados no podem ser considerados abertos, pois no h
garantias de que sua utilizao esteja resguardada pelos princpios da abertura
de dados.
Uma licena aberta importante tambm para que a Lei de Acesso
Informao seja respeitada. A Infraestrutura Nacional de Dados Abertos, do
governo federal, ainda no chegou a uma concluso se o ordenamento jurdico
brasileiro suficiente para tratar os dados governamentais de forma aberta,
sem a necessidade de licenas, se outras licenas que j existem se enquadram
no contexto brasileiro, ou se ser necessrio criar uma licena especfica para
o Brasil. Por exemplo, a legislao brasileira, no mbito da Lei de Direitos
Autorais, prev explicitamente a proteo a banco de dados que constituam
criao intelectual. Por outro lado, a Lei de Acesso Informao diz que o
Estado deve proporcionar o acesso a toda informao que produz ou detm,
desde que no seja considerada sigilosa. A interao dessas leis ainda objeto
de estudo.
A Lei de Acesso Informao, por outro lado, no determina qual licena
deve ser usada ao publicar dados, mas lista princpios que podem muito
bem direcionar a formulao de uma licena aberta ou termos de utilizao
compatveis com os conceitos de abertura de dados explicitados neste guia:
Art. 3 Os procedimentos previstos nesta Lei destinam-se a assegurar o direito
fundamental de acesso informao e devem ser executados em conformidade
com os princpios bsicos da administrao pblica e com as seguintes
diretrizes:
I - observncia da publicidade como preceito geral e do sigilo como exceo;
Art. 8 ...
...
3 Os stios de que trata o 2 devero, na forma de regulamento, atender,
entre outros, aos seguintes requisitos:
54

LICENA DE UTILIZAO DOS DADOS

...
II - possibilitar a gravao de relatrios em diversos formatos eletrnicos,
inclusive abertos e no proprietrios, tais como planilhas e texto, de modo a
facilitar a anlise das informaes;
III - possibilitar o acesso automatizado por sistemas externos em formatos
abertos, estruturados e legveis por mquina;
IV - divulgar em detalhes os formatos utilizados para estruturao da
informao;
V - garantir a autenticidade e a integridade das informaes disponveis para
acesso;
VI - manter atualizadas as informaes disponveis para acesso;
Em outras palavras, a lei determina que, via de regra, os dados governamentais
so pblicos. O sigilo exceo. Alm disso, os stios da Web que divulgaro
esses dados devem permitir a gravao de relatrios em formatos estruturados
e no proprietrios, divulgar em detalhes os formatos usados na estruturao
da informao, garantir a integridade e autenticidade dos dados e mant-los
atualizados.
A formulao de termos de utilizao ou uma licena aberta para uso de dados
deve considerar com responsabilidade a compatibilidade do texto com outras
licenas de dados abertos. A considerao vital para que seja legalmente
possvel realizar agregaes, estatsticas, anlises e cruzamentos de dados
de diferentes fontes. Os resultados dessas atividades que agregam valor
abertura de dados e a torna til para sociedade. Se o governo estadual usar
uma licena incompatvel com a licena usada pela administrao municipal,
no seria possvel, legalmente, cruzar as bases de hospitais, por exemplo, para
construir um aplicativo que exibe as instalaes municipais e estaduais. Uma
licena ou termos de uso de dados abertos devem ser formulados de modo a
maximizar o grau de compatibilidade com as licenas usadas ou que possam
vir a ser usadas por outras esferas e poderes do Estado.
No Brasil, a maior parte dos rgos pblicos no tem especificado qualquer
licena ao publicar dados na Internet. H excees, contudo, com a utilizao
das licenas ODbL e DbCL (links em ingls).

55

Guia de dados abertos

Regras de utilizao do Governo Aberto SP


O governo de So Paulo j dispe de um portal central de dados chamado
Governo Aberto SP. Nele, h regras de utilizao que se inspiram em
princpios abertos e que podem servir de modelo para a formulao de licenas
abertas, com pequenos ajustes, dependendo da necessidade de cada rgo e sua
adequao aos preceitos de abertura de dados deste guia. De forma resumida,
as regras de utilizao do Governo Aberto SP so:
1. Qualquer pessoa pode utilizar, fsica ou jurdica;
2. No estabelece restries relativas ao uso dos dados;
3. Governo garante autenticidade, integridade e atualidade dos dados
baixados somente no portal Governo Aberto SP;
4. Determina que a reutilizao dos dados est condicionada citao da
fonte original dos dados (rgo pblico), incluindo que os dados foram
acessados por meio do Governo Aberto SP. Alm disso, determina o
acrscimo da declarao: O Governo Aberto SP e o rgo ou entidade de
onde foram acessados os dados no garantem sua autenticidade, qualidade,
integridade e atualidade aps terem sido disponibilizados para uso
secundrio;
5. Usurios respondem pelo uso secundrio dos dados, eximindo o Estado;
6. Condio para ter acesso aos dados conhecer as regras e aceit-las.

56

FORMATOS DAS BASES

Formatos das bases


Captulo 9

57

Guia de dados abertos

No escopo deste guia, uma base de dados nada mais do que um arquivo de
computador construdo de forma estruturada, com o objetivo de armazenar
informaes para consulta e anlise posterior. Sua base de dados pode ser
construda manualmente, desde que voc defina uma estrutura para organizar
esses dados e mantenha coerncia. Isso importante para garantir que as
buscas realizadas nessa base encontrem aquilo que se procura. Uma base de
dados pode ser um arquivo de texto, por exemplo, com a lista de todos os
municpios do estado de So Paulo. Ou ento, essa base pode ser uma lista de
hospitais da cidade de So Paulo e, ao lado de cada nome, o bairro onde cada
um se encontra:

Hospital Municipal Infantil Menino Jesus, Bela Vista


Hospital do Servidor Pblico Municipal, Aclimao
Pronto-Socorro Municipal Barra Funda, Barra Funda
Hospital Municipal Cidade Tiradentes, Cidade Tiradentes

Nesse caso, a estrutura definida pela escolha de colocar dois nomes (hospital
e bairro) em uma nova linha do arquivo, separados por um delimitador, a
vrgula. Dois hospitais nunca apareceriam na mesma linha, por exemplo.
O que define a integridade de uma base de dados, a grosso modo, so os
elementos utilizados com o intuito de dar previsibilidade para as consultas
realizadas nessa base: no exemplo citado, todas as linhas apresentam, primeiro,
o nome de um hospital e, segundo, o nome do bairro onde ele se encontra. Se
qualquer linha dessa base for diferente do modelo Nome do hospital, Bairro,
a integridade da base ficar comprometida e ela perder sua utilidade:

Hospital Municipal Infantil Menino Jesus, Bela Vista


Hospital doHospital
Servidordo
Pblico
Municipal,
Aclimao
Aclimao,
Servidor
Pblico Municipal
Pronto-Socorro Municipal Barra Funda, Barra Funda
Hospital Municipal Cidade Tiradentes, Cidade Tiradentes

Na maior parte dos casos, contudo, as prprias ferramentas disponveis nos


computadores so capazes de gerar ou converter, automaticamente, arquivos
estruturados que servem como bases de dados. Um dos exemplos mais comuns
58

FORMATOS DAS BASES

a planilha do Excel, arquivos de computador com a terminao .xls ou


.xlsx. Esses documentos apresentam linhas e colunas e permitem anlises
e cruzamentos posteriores. Contudo, os formatos dos arquivos nativos do
Excel utilizam uma tecnologia proprietria e fechada. Isso quer dizer que eles
dependem de tecnologias exclusivas, muitas vezes que custam dinheiro e no
esto disponveis de forma ampla e gratuita para qualquer pessoa.
A lista abaixo sugere uma srie de formatos abertos ou no proprietrios que se
encaixam melhor nos princpios de abertura de dados apresentados neste guia
e apresenta uma breve introduo sobre cada um deles. No h um formato
mais recomendado do que outro. Cada equipe deve refletir sobre quais os
formatos das bases j existentes (em arquivos do Excel, por exemplo) e se
existe alguma forma de convert-las para algum dos formatos sugeridos abaixo,
dependendo da aplicao.

Formatos separados por delimitadores (CSV)


Os arquivos CSV (do ingls Character-separated values ou valores separados
por um delimitador) servem para armazenar dados tabulares (nmeros e
texto) em texto simples. O texto simples significa que o arquivo uma
sequncia de caracteres puros, sem qualquer informao escondida que o
computador tenha que processar.
Um arquivo CSV abriga um sem nmero de registros, separados por quebras
de linha (cada registro permanece numa linha do arquivo) e cada registro
possui um ou mais campos, separados por um delimitador, os mais comuns
sendo a vrgula (,), o ponto e vrgula (;) e o caractere invisvel que surge
ao se pressionar a tecla tab. Arquivos separados por vrgula e ponto e vrgula
normalmente recebem a extenso CSV e arquivos separados por tab a
extenso TSV. H tambm bases de dados nesses formatos que recebem a
extenso TXT. Arquivos CSV so simples e funcionam na maior parte das
aplicaes que lidam com dados estruturados.
Fazendo uma comparao com linhas e colunas numa planilha, os registros
de um arquivo CSV so as linhas e os campos so as colunas. Os valores dos
campos do primeiro registro, ou seja, da primeira linha, normalmente so
os nomes das colunas. Apesar de no existir um padro internacional para o
CSV, suas variaes so simples o suficiente para que os aplicativos compatveis
59

Guia de dados abertos

possam consertar facilmente as diferenas. Tipicamente, assim que um


arquivo CSV exibido quando aberto num editor de textos:

Continente;Pas;Capital
frica;Angola;Luanda
Amrica do Norte;Estados Unidos;Washington DC
Amrica Central;Mxico;Cidade do Mxico
Amrica do Sul;Brasil;Braslia
Europa;Espanha;Madri
Europa;Alemanha;Berlim
Oceania;Austrlia;Camberra
sia;Japo;Tquio

Esse arquivo possui trs colunas separadas pelo delimitador ponto e vrgula
(;): Continente, Pas e Capital, como descrito na primeira linha. Ao todo,
so oito registros. O primeiro a trade frica-Angola-Luanda e o ltimo siaJapo-Tquio. No h limite prtico para o nmero de linhas ou colunas em
um arquivo CSV. Esse nmero pode chegar a milhes ou dezenas de milhes,
dependendo exclusivamente da capacidade de processamento do computador
que vai ser utilizado na consulta. Se o mesmo arquivo CSV fosse aberto num
processador de planilhas, ele seria exibido assim:

60

Continente

Pas

Capital

frica

Angola

Luanda

Amrica do Norte

Estados Unidos

Washington DC

Amrica Central

Mxico

Cidade do Mxico

Amrica do Sul

Brasil

Braslia

Europa

Espanha

Madri

Europa

Alemanha

Berlim

Oceania

Austrlia

Camberra

sia

Japo

Tquio

FORMATOS DAS BASES

Formato XML
O XML uma linguagem de marcao, assim como o HTML (usado
para construir pginas da Web), definido e mantido pelo World Wide
Web Consortium (W3C). O objetivo do XML o foco na simplicidade,
generalidade e usabilidade por toda a Internet. Embora o XML enfatize a
gerao de documentos, ele tambm usado para representar estruturas de
dados arbitrrias, para integrao entre sistemas de computadores. Um tpico
arquivo XML tem a seguinte estrutura:

<?xml version="1.0" encoding="UTF-8"?>


<Exemplo>
<Localidade nmero="1">
<Continente>frica</Continente>
<Pas>Angola</Pas>
<Capital>Luanda</Capital>
</Localidade>
<Localidade nmero="2">
<Continente>Amrica do Norte</Continente>
<Pas>Estados Unidos</Pas>
<Capital>Washington DC</Capital>
</Localidade>
<Localidade nmero="3">
<Continente>Amrica Central</Continente>
<Pas>Mxico</Pas>
<Capital>Cidade do Mxico</Capital>
</Localidade>
<Localidade nmero="4">
<Continente>Amrica do Sul</Continente>
<Pas>Brasil</Pas>
<Capital>Braslia</Capital>
</Localidade>
<Localidade nmero="5">
<Continente>Europa</Continente>
<Pas>Espanha</Pas>
<Capital>Madri</Capital>
</Localidade>
<Localidade nmero="6">
<Continente>Europa</Continente>
<Pas>Alemanha</Pas>
<Capital>Berlim</Capital>
</Localidade>
<Localidade nmero="7">
<Continente>Oceania</Continente>
<Pas>Austrlia</Pas>
<Capital>Camberra</Capital>
</Localidade>
<Localidade nmero="8">
<Continente>sia</Continente>
<Pas>Japo</Pas>
<Capital>Tquio</Capital>
</Localidade>
</Exemplo>

61

Guia de dados abertos

Marcadores e contedo
Um arquivo XML possui duas caractersticas principais: marcadores e
contedo. Geralmente, as sequncias de caracteres que comeam com <
e terminam com > ou comeam com & e terminam com ; so chamadas
de marcadores. Sequncias de caracteres que no so marcadores so
consideradas contedo. No exemplo acima, <Localidade> e <Continente>,
por exemplo, so marcadores. Os nomes dos pases, continentes e capitais, so
contedo.
Tags
As tags so os marcadores que comeam com < e terminam com >. So trs os
tipos de tags:
tags de incio; por exemplo: <Localidade>
tags de trmino; por exemplo: </Localidade>
tags de elemento vazia; por exemplo: <line break />
Elementos
Os elementos so componentes do XML que comeam com uma tag de
incio e terminam com uma tag de trmino correspondente, ou consistem
apenas de uma tag de elemento vazia. A sequncia de caracteres entre as tags
de incio e trmino, se existirem, so o contedo do elemento e podem incluir
marcadores, incluindo outros elementos, que so chamados de filhos. No
exemplo acima, um elemento seria:

<Pas>Brasil</Pas>.

Atributos
Os atributos so pares de nome/valor que existem dentro da tag de incio ou
tag de elemento vazia. No exemplo acima, o elemento <Localidade> possui um
atributo nmero e um valor correspondente:

62

FORMATOS DAS BASES

<Localidade nmero="8">

O nome do atributo nmero e seu valor 8. Os atributos s podem


apresentar um valor entre aspas e cada atributo no pode aparecer mais de uma
vez em cada elemento.
Declarao XML
Os documentos XML devem comear declarando alguma informao sobre si
mesmos, como no exemplo:

<?xml version="1.0" encoding="UTF-8"?>

Formato KML
O Keyhole Markup Language (KML) uma derivao do XML para expressar
dados e visualizaes geogrficas em navegadores de mapas bidimensionais ou
tridimensionais desenvolvidos para a Internet. O formato foi adquirido pelo
Google em 2004 e tornou-se o padro usado no aplicativo Google Earth. Em
2008, o formato se tornou um padro internacional do Consrsio Geoespacial
Aberto.
O formato KML tem uma estrutura semelhante ao do XML, mas define uma
srie de caractersticas, como marcadores de lugares, imagens, polgonos,
modelos 3D e descries textuais. Cada localidade sempre apresenta uma
longitude e uma latitude. Os arquivos so distribudos em pacotes KMZ, que
so arquivos KML compactados no padro zip com uma extenso .kmz. O
contedo do pacote compactado compreende em um nico documento KML
(doc.kml) e, de forma opcional, subdiretrios contendo as imagens e outros
arquivos referenciados no KML. Um tpico documento KML se apresenta da
seguinte maneira:
63

Guia de dados abertos

<?xml version="1.0" encoding="UTF-8"?>


<kml xmlns="http://www.opengis.net/kml/2.2">
<Document>
<Placemark>
<name>So Paulo</name>
<description>Cidade de So Paulo</description>
<Point>
<coordinates>-23.5476258,46.6360159</coordinates>
</Point>
</Placemark>
</Document>
</kml>

Formato JSON
O formato JSON (JavaScript Object Notation) um formato aberto usado
como alternativa ao XML para a transferncia de dados estruturados entre
um servidor de Web e uma aplicao Web. Sua lgica de organizao tem
semelhanas com o XML, mas possui notao diferente. O formato ganhou
popularidade em servios da Web, como clientes de email e stios de compras,
pois consegue transmitir uma grande quantidade de informaes entre o
cliente e o servidor usando uma quantidade menor de caracteres.
Os arquivos JSON tambm trabalham com pares de atributos e valores e em
vez de marcadores, como no XML, utilizam delimitadores em cadeias: {}, []; e
. Um tpico arquivo JSON estruturado da seguinte forma:

64

FORMATOS DAS BASES

"localidade 1": {
"Continente": "frica",
"Pas": "Angola",
"Capital": "Luanda"
},
"localidade 2": {
"Continente": "Amrica do Norte",
"Pas": "Estados Unidos",
"Capital": "Washington DC"
},
"localidade 3": {
"Continente": "Amrica Central",
"Pas": "Mxico",
"Capital": "Cidade do Mxico"
},
"localidade 4": {
"Continente": "Amrica do Sul",
"Pas": "Brasil",
"Capital": "Braslia"
},
"localidade 5": {
"Continente": "Europa",
"Pas": "Espanha",
"Capital": "Madri"
},
"localidade 6": {
"Continente": "Europa",
"Pas": "Alemanha",
"Capital": "Berlim"
},
"localidade 7": {
"Continente": "Oceania",
"Pas": "Austrlia",
"Capital": "Camberra"
},
"localidade 8": {
"Continente": "sia",
"Pas": "Japo",
"Capital": "Tquio"
}

O delimitador { marca o incio de uma seo e o } marca seu fim. Os pares de


valor e atributo so separados por : e seus valores, quando texto, ficam entre
aspas (nmeros, por exemplo, no recebem as aspas). No exemplo abaixo, a
localidade 6 um atributo que recebe uma srie de valores (Continente, Pas
e Capital):

65

Guia de dados abertos

"localidade 6": {
"Continente": "Europa",
"Pas": "Alemanha",
"Capital": "Berlim"
},

Repare que o valor da localidade 6 um novo conjunto de pares atributovalor. Esse novo conjunto iniciado com o delimitador { e finalizado com }.
Essa lgica de encadear conjuntos de pares pode ser repetida inmeras vezes,
criando diversos nveis para a estrutura de dados desejada.

geoJSON/topoJSON
Os formatos geoJSON e topoJSON so derivados do JSON para
representao de colees de caractersticas geogrficas simples, junto com
seus atributos no-espaciais. Dentre as caractersticas possveis de serem
armazenadas no padro geoJSON/topoJSON esto points, incluindo
endereos e localidades; line strings, incluindo ruas, rodovias e limites;
polygons, incluindo pases, estados ou demarcaes de terra; e colees
misturadas desses tipos. O diferencial do topoJSON em relao ao geoJSON
que ele armazena topologia geoespacial, gerando um arquivo final com
tamanho frequentemente menor.

Formato SQL (dump)


O SQL (do ingls, Structured Query Language ou Linguagem Estruturada
de Requisio) uma linguagem de programao especialmente desenvolvida
para gerenciar dados em sistemas de bancos de dados relacionais. Os comandos
possveis em SQL incluem a insero, requisio, atualizao e remoo de
dados, a criao e alterao de esquemas de bancos e o controle de dados. O
dump de uma base de dados normalmente resulta numa lista de comandos
SQL e permite que qualquer pessoa possa reconstruir essa base a partir do seu
esquema de dados e dos valores contidos nela. Um arquivo dump tpico se
apresenta da seguinte maneira:
66

FORMATOS DAS BASES

-- Base de dados
CREATE DATABASE `ex_localidades`;
USE `Exemplos de Localidades`;
-- Estrutura da tabela para a tabela `localidades`
CREATE TABLE `localidades` (
`id` INT(8) UNSIGNED NOT NULL AUTO_INCREMENT,
`nome de usurio` VARCHAR(16) NOT NULL,
`senha` VARCHAR(16) NOT NULL,
PRIMARY KEY (`id`)
);
-- Dados da tabela `localidades`
INSERT INTO `localidades` VALUES ('Continente', 'Pas',
'Capital'),
('frica',
'Angola',
'Luanda'),
('Amrica
do Norte', 'Estados Unidos', 'Washington DC'), ('Amrica
Central', 'Mxico', 'Cidade do Mxico'), ('Amrica do Sul',
'Brasil',
'Braslia'),
('Europa',
'Espanha',
'Madri'),
('Europa', 'Alemanha', 'Berlim'), ('Oceania', 'Austrlia',
'Camberra'), ('sia', 'Japo', 'Tquio');

As bases de dados em SQL normalmente so criadas e administradas


utilizando ferramentas direcionadas a profissionais da rea de TI. Enquanto
os formatos CSV, XML e JSON podem ser criados facilmente em editores
de texto comuns, uma base SQL requer maior refinamento e conhecimento
tcnico.

Formato Shapefile
O shapefile um formato para bases de dados geoespaciais e vetoriais em
sistemas de informao geogrfica (no ingls, GIS - Geographic Information
System). Ele foi desenvolvido e regulado pela empresa Esri. considerado
um formato aberto, apesar de proprietrio. Por ser aberto, o formato recebe
suporte de diversos aplicativos de processamento de mapas gratuitos e de
cdigo livre. O shapefile pode descrever espacialmente qualidades de vetores
(pontos, linhas e polgonos, para rios, lagos e poos, por exemplo) e cada item
normalmente possui atributos que o descrevem, como nome e temperatura.

67

Guia de dados abertos

Apesar de ser um termo no singular, o formato shapefile consiste numa coleo


de arquivos de mesmo nome e terminaes diferentes, armazenados no mesmo
diretrio. Existem trs arquivos obrigatrios para o funcionamento correto de
um shapefile: .shp, .shx e .dbf. O arquivo shapefile propriamente dito o .shp,
mas se distribudo sozinho no ser capaz de exibir os dados armazenados. A
distribuio deve ser feita juntamente com os outros dois arquivos.
Os arquivos obrigatrios so:
.shp formato shape; as caractersticas da geometria propriamente
dital
.shx formato ndice de shape; um ndice com as caractersticas das
geometrias para permitir buscas mais rpidas
.dbf formato de atributos; atributos apresentados em colunas para
cada shape
Em cada um dos arquivos obrigatrios, cada shape em cada arquivo
corresponde aos outros em sequncia (o primeiro registro no arquivo .shp
corresponde ao primeiro registro nos arquivos .shx e .dbf, e assim por diante).
No vivel gerar arquivos shapefile manualmente, como seria possvel
gerar arquivos CSV, XML e JSON, pois eles possuem natureza binria.
Normalmente, esses arquivos so gerados a partir da manipulao de pontos e
caractersticas em mapas nos prprios aplicativos de geoprocessamento.

68

REFERNCIAS

Referncias

69

Guia de dados abertos

Alm de apresentar referncias no prprio corpo do texto do guia, por meio


de links externos, abaixo apresentada uma lista de leituras complementares
que serviram de base para a construo dos conceitos aqui apresentados. As
referncias tambm contribuem para ampliar e extrapolar a construo de
processos que visam a abertura de dados, seus desafios, desdobramentos e
detalhes tcnicos.
CSV:
https://en.wikipedia.org/wiki/Comma-separated_values
Cdigo de Conduta para uso de dados abertos do governo (Reino Unido):
http://data.gov.uk/code-conduct
Exemplos de Licenas Abertas (Governo dos Estados Unidos):
https://project-open-data.cio.gov/license-examples/
geoJSON:
http://geojson.org/
Guia de Implantao de um Portal de Transparncia (CGU):
http://www.cgu.gov.br/Publicacoes/transparencia-publica/brasil-transparente/
arquivos/guia_portaltransparencia.pdf
Guia sobre Informaes Classificadas (CGU):
http://www.acessoainformacao.gov.br/lai-para-sic/sic-apoio-orientacoes/guiase-orientacoes/guia_informacoesclassificadas.pdf/@@download/file/Guia_
InformacoesClassificadas.pdf
Hampshire County Open Licence (Reino Unido):
http://www3.hants.gov.uk/opendata/licence.htm
JSON:
http://www.json.org/
Kit de Dados Abertos (Infraestrutura Nacional de Dados Abertos):
http://kit.dados.gov.br/
KML:
https://developers.google.com/kml/documentation/?hl=pt-br
Manual de Lei de Acesso Informao para Estados e Municpios (CGU):
http://www.cgu.gov.br/Publicacoes/transparencia-publica/brasil-transparente/
arquivos/manual_lai_estadosmunicipios.pdf
70

REFERNCIAS

Open Definition (Open Knowledge):


http://opendefinition.org/od/index.html
Open Government Data (book):
https://opengovdata.io/
Open Government Guide (Open Government Data - Sunlight Foundation &
Open Knowledge):
http://www.opengovguide.com/topics/open-government-data/
Open Government Licence for Public Sector Information (Reino Unido):
http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/
Open Government Toolkit (Banco Mundial):
http://data.worldbank.org/open-government-data-toolkit
Pubishing Open Data: do you really need an API?:
https://www.peterkrantz.com/2012/publishing-open-data-api-design/
Shapefile:
http://doc.arcgis.com/pt-br/arcgis-online/reference/shapefiles.htm
SQL (dump):
https://en.wikipedia.org/wiki/Database_dump
Texto Lei de Acesso Informao - Lei n 12.527, de 18 de novembro de
2011. (Governo Federal):
http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm
Tool Kit para publicao de dados em formato aberto:
http://platform.od4d.org/article?locale=pt&uri=http%3A%2F%2Fplatform.
od4d.org%2Fposts%2F58
topoJSON:
https://en.wikipedia.org/wiki/GeoJSON#TopoJSON
Uso e reuso de dados governamentais:
http://br.okfn.org/2013/08/28/dados-meio-abertos-sobre-o-uso-e-reuso-dosdados-governamentais-brasileiros/
XML:
http://www.w3.org/XML

71

Guia de dados abertos

SPUK
Improving business environment through transparency in So Paulo State

Ano 2015

Melhoria do ambiente de negcios por meio da transparncia no Estado de So Paulo

Secretaria de Governo

72
BY

NC ND

Este material est sob uma licena Creative Commons.


Atribuio-SemDerivaes-SemDerivados
CC BY-NC-ND

You might also like