Professional Documents
Culture Documents
dados abertos
Guia de
dados abertos
Este Guia parte integrante do projeto de cooperao entre o
Governo do Estado de So Paulo e o Reino Unido
SPUK
Improving business environment through transparency in So Paulo State
Melhoria do ambiente de negcios por meio da transparncia no Estado de So Paulo
Parceiros
Secretaria de Governo
Ano 2015
BY
NC ND
SPUK
Improving business environment through transparency in So Paulo State
Melhoria do ambiente de negcios por meio da transparncia no Estado de So Paulo
REALIZAO
GOVERNO DO ESTADO DE SO PAULO
Secretaria de Governo
Subsecretaria de Parcerias e Inovao
Casa Civil
Assessoria Especial para Assuntos Internacionais
Fundao do Desenvolvimento Administrativo - Fundap
Fundao Sistema Estadual de Anlise de Dados Seade
Conselho de Transparncia da Administrao Pblico
GOVERNO DO REINO UNIDO
Embaixada Britnica Braslia
NCLEO DE INFORMAO E COORDENAO DO PONTO Br NIC.br
Centro de Estudos sobre Tecnologia Web CeWeb.br
AUTOR
Marco Tlio Pires
COORDENAO
Geral:
Roberto Agune - iGovSP
Vagner Diniz CeWeb.br
Executiva e Editorial:
Caroline Burle dos Santos Guimares - CeWeb.br
Helena Pchevuzinske - iGovSP
Sergio Pinto Bolliger - iGovSP
IDEALIZAO
Alvaro Gregrio - iGovSP
DESIGN
Alcione de Godoy - iGovSP - e-books
Deblyn Pereira Prado - NIC.br - HTML
Ricardo Hurmus - Buleras Arte & Design - ilustracoes
sumrio
Introduo.....................................................................................................06
O que so Dados Abertos?...............................................................................09
Qualquer dado pode ser aberto?..............................................................11
Os benefcios da abertura de dados....................................................................12
Transporte Pblico (Iniciativa Privada)...................................................14
Legislativo & Executivo, Participao (Terceiro Setor)............................15
Educao & Pesquisa (Terceiro setor).....................................................18
Sade & Gastos Pblicos (Governo, Cidados)......................................19
Lei de Acesso Informao................................................................................21
O acesso informao em So Paulo......................................................22
Transparncia Ativa................................................................................23
Quais so as excees para abertura de dados?.........................................24
Plano de Abertura de Dados..............................................................................26
As cinco estrelas dos dados abertos: aaaaa.................................27
a..........................................................................................................27
aa......................................................................................................28
aaa.................................................................................................29
aaaa.............................................................................................30
aaaaa.........................................................................................31
Equipes de Abertura de Dados................................................................33
Publicao..............................................................................................36
O desenvolvimento de uma API necessrio?.........................................37
Mapa de decises tecnolgicas................................................................40
Catlogo/Repositrio de dados.........................................................................42
Cenrios tcnicos, opes tecnolgicas.............................................................45
4
SUMRIO
Nvel 1...................................................................................................46
Nvel 2...................................................................................................48
Nvel 3...................................................................................................49
Licena de utilizao dos dados........................................................................53
Regras de utilizao do Governo Aberto SP............................................56
Formatos das bases.........................................................................................57
Formatos separados por delimitadores (CSV)........................................59
Formato XML.......................................................................................61
Formato KML.......................................................................................63
Formato JSON......................................................................................64
geoJSON/topoJSON............................................................................66
Formato SQL (dump)...........................................................................66
Formato Shapefile.................................................................................67
Referncias...................................................................................................69
introduo
Captulo 1
INTRODUO
Este Guia de Abertura de bases foi preparado para ampliar e contribuir com
a poltica de transparncia do Estado de So Paulo. Nele, esto informaes
sobre os benefcios de uma poltica de abertura de dados, seus desafios, suas
especificidades tcnicas e uma srie de recomendaes, pautadas em padres
internacionais e experincias exitosas ao redor do mundo, para tornar a
abertura de bases um processo inspirador e virtuoso.
O guia no tem a inteno de ser um recurso exaustivo, meramente tcnico
ou que se esgota em si mesmo. Ele foi feito para ser abrigado na Web e usa
referncias da Web. Muitas das informaes contidas nas prximas sees
podem, e devem, ser extrapoladas navegando pelos links de referncias e
leituras complementares. As informaes reunidas aqui procuram levar
em considerao, da melhor maneira possvel, o complexo ecossistema da
Administrao Pblica, com seus desafios e diferenas, seja no tamanho das
equipes quanto nas condies de infraestrutura dos rgos pblicos.
Trata-se de um guia para tcnicos, servidores, gestores e executivos
informarem-se sobre um movimento que vem tomando conta das democracias
em todo o planeta e que ganha trao cada vez mais intensa no Brasil. A
abertura de bases se apresenta como um caminho sem volta dentro do
contexto de governos mais transparentes e sociedades mais justas. apenas
uma pequena parte dentro desse movimento que tambm abriga recursos
clssicos de transparncia, como a Lei de Acesso Informao, e tambm
reas relativamente novas, como a participao e o controle social.
Uma poltica de abertura de bases precisa ter uma narrativa de curto, mdio e
longo prazo: onde estamos? Onde queremos chegar? Quais so os beneficiados
diretos pela abertura de dados? Cidados? Jornalistas? Servidores pblicos?
Empresas? Cientistas? Infomedirios? Como chegar at eles? Essas so
algumas das perguntas que precisam de respostas claras e objetivas dentro da
organizao e do planejamento de qualquer esforo de abertura de dados.
Governos ao redor do mundo j esto colhendo bons frutos por terem
seguido a via da abertura de bases. Um dos exemplos mais emblemticos
o do governo britnico. L, foi descoberto, por causa de dados abertos, que
diversos setores de informtica da Administrao Pblica estavam comprando
o mesmo servio de consultoria de uma mesma empresa. Ao analisar os
dados, a Administrao percebeu que poderia economizar seis milhes de
libras diminuindo o nmero de horas de consultoria contratada. A cifra o
equivalente a todo recurso necessrio para custear o programa de transparncia
7
10
Essas trs caractersticas so resumidas em trs leis sugeridas pelo ativista dos
dados abertos David Eaves:
1. Se o dado no pode ser encontrado ou indexado na Web, ele no existe;
2. Se o dado no est disponvel num formato aberto e legvel por mquina,
ele no pode ser reutilizado;
3. Se dispositivos legais no permitem que ele seja compartilhado, ele no
til.
Existem muitos motivos para se ter tanta clareza sobre o significado de
dados abertos. Por se tratarem de palavras com significado amplo, preciso
demarcar exatamente quais caractersticas so consideradas ideais no escopo
deste guia, de modo que as informaes publicadas pelo governo possam ser
utilizadas por todos os setores da sociedade de forma compatvel.
A abertura de bases com as caractersticas descritas acima relevante pois
d condies para a interoperabilidade, ou seja, o trabalho em conjunto de
diferentes bases de dados, por diferentes atores da sociedade. A construo de
sistemas e solues cada vez melhores, sejam aquelas desenvolvidas na esfera
governamental, na privada, na acadmica ou na sociedade civil, dependem da
interoperabilidade das bases de dados.
A clareza sobre a definio de dados abertos tambm garante que duas ou
mais bases de dados vindas de fontes diferentes possam ser combinadas sem
grandes empecilhos tcnicos. Evita, dentre outras coisas, que o governo seja
um grande armazm de bases de dados fechadas, ou seja, que no servem
seno para a consulta humana, inteis para aplicao em sistemas maiores e
complexos, capazes de proporcionar solues, visualizaes, servios ou valor
para qualquer cidado ou grupo da sociedade.
Os benefcios da
abertura de dados
Captulo 3
12
16
17
18
19
20
21
Leis estaduais n 10.177, de 30 de dezembro de 1998, que regula o processo administrativo, n 10.294,
de 20 de abril de 1999, que dispe sobre proteo e defesa do usurio de servios pblicos; decretos
estaduais n 22.789, de 19 de outubro de 1984, que institui o Sistema de Arquivos do Estado de So Paulo
- SAESP, n 44.074, de 1 de julho de 1999, que regulamenta a composio e estabelece a competncia das
Ouvidorias, n 54.276, de 27 de abril de 2009, que reorganiza a Unidade do Arquivo Pblico do Estado,
da Casa Civil, n 55.479, de 25 de fevereiro de 2010, que institui na Casa Civil o Comit Gestor do
Sistema Informatizado Unificado de Gesto Arquivstica de Documentos e Informaes - SPdoc, alterado
pelo de n 56.260 de 6 de outubro de 2010.
1
22
Transparncia Ativa
O decreto estadual n 58.052, de 16 de maio de 2012, que regulamenta a
Lei de Acesso Informao federal no estado de So Paulo, incorpora em
seu Artigo 23 os princpios da transparncia ativa, que determina como
dever dos rgos e entidades da Administrao Pblica Estadual promover,
independentemente de requerimentos, a divulgao em local de fcil acesso
de documentos, dados e informaes de interesse coletivo ou geral produzidas
pelo rgo ou sob sua guarda. Essas informaes devem ser publicadas na rede
mundial de computadores obrigatoriamente.
Artigo 23 - dever dos rgos e entidades da Administrao Pblica Estadual
promover, independentemente de requerimentos, a divulgao em local de fcil
acesso, no mbito de suas competncias, de documentos, dados e informaes de
interesse coletivo ou geral por eles produzidas ou custodiadas.
2 - Para o cumprimento do disposto no caput deste artigo, os rgos e
entidades estaduais devero utilizar todos os meios e instrumentos legtimos
de que dispuserem, sendo obrigatria a divulgao em stios oficiais da rede
mundial de computadores (internet).
A publicao de informaes na Internet, segundo o decreto estadual, deve
obedecer alguns critrios, como oferecer uma ferramenta de pesquisa de
contedo que permita acesso informao de forma objetiva, transparente,
clara e em linguagem de fcil compreenso. Os rgos tambm devem permitir
23
divulgados, possam:
Colocar em risco a defesa e a soberania nacional ou a integridade do
territrio nacional;
Prejudicar as relaes internacionais do Brasil ou informaes que
tenham sido fornecidas ao governo por outros pases em carter
sigiloso;
Pr em risco a vida, a segurana ou a sade da populao;
Oferecer alto risco estabilidade financeira, econmica ou monetria
do Brasil;
Prejudicar operaes das Foras Armadas;
Pr em risco a segurana de autoridades estrangeiras no Pas;
Comprometer atividades de investigao ou fiscalizao em
andamento, relacionadas com a preveno ou represso de infraes.
Informaes pessoais
So informaes que esto relacionadas pessoa natural identificada ou
identificvel, relativas intimidade, vida privada, honra e imagem das pessoas,
bem como s liberdades e garantias individuais. Nmeros de telefone, carteira
de identidade ou motorista, CPF, extratos bancrios, entre outros, so
informaes que podem identificar pessoas e, portanto, so sigilosas.
25
26
a
O primeiro estgio do sistema de estrelas requer apenas que seus dados
estejam disponveis na Web em qualquer formato (seja um documento
PDF, arquivo do processador de textos Word ou qualquer outro,
proprietrio ou no, aberto ou no). Alm de estarem disponveis na
Web os dados devem ser oferecidos sob uma licena aberta. A licena
aberta d a autorizao para que esses dados sejam utilizados por qualquer
pessoa, sem restries, e para qualquer fim, inclusive comerciais. Existem
diversas licenas abertas que descrevem a utilizao de dados. Este guia
no faz uma anlise exaustiva das licenas abertas que existem, mas
aponta caminhos para que cada rgo possa formular licenas abertas e
compatveis com os princpios internacionais de abertura de dados.
27
Quais so os benefcios de a
Tanto para o usurio dos dados quanto para quem publica, mesmo a
primeira estrela traz uma srie de benefcios. Enquanto usurio, possvel
visualizar os dados, imprimi-los, baix-los para um computador particular
ou um pendrive, digit-los em qualquer outro sistema, realizar anlises e
compartilh-los com quem desejar, da forma que desejar.
Quem publica pode faz-lo de forma simples, pois no precisa se ater aos
formatos utilizados. Alm disso, no ser necessrio explicar, repetidas
vezes, para todos os interessados nos dados, que eles podem ser utilizados
para quaisquer fins, uma vez que eles esto sendo distribudos a partir de
uma licena aberta.
Publicar dados na Web em qualquer formato sob uma licena aberta
um grande passo para a abertura de dados. Contudo, os usurios de dados
podem encontrar dificuldades para extrair os dados desses documentos
sem precisar digit-los manualmente em outros sistemas.
aa
O segundo estgio do sistema de estrelas requer que as informaes sejam
publicadas na Web sob uma licena aberta, mas requer que essas bases
fiquem disponveis num formato estruturado, que permita a manipulao
facilitada de suas linhas e colunas.
Ou seja, enquanto a primeira estrela permite que imagens escaneadas de
tabelas e arquivos PDF de relatrios sejam publicados, para se obter a
segunda estrela necessrio que o arquivo seja disponibilizado de uma
forma que permita a manipulao em aplicativos de anlise e estruturao
de dados, sem a necessidade de digitar essas informaes manualmente.
28
Quais os benefcios de aa
Alm de todos os benefcios da primeira estrela, as duas estrelas permitem
que os usurios usem aplicativos proprietrios, como o Excel, para
agregar, fazer clculos, visualizaes e outras operaes com os dados
disponibilizados. Alm disso, possvel export-los para outro formato
estruturado com facilidade.
Quem publica ainda pode faz-lo de forma simples, apenas atentando-se
ao fato de que o arquivo publicado deve estar num formato estruturado,
mas respeitando que ele deve estar na Web e distribudo sob uma licena
aberta.
Pode parecer pouco, mas as duas estrelas representam um grande avano
na abertura de dados, uma vez que as informaes esto disponveis
na Web de forma estruturada e sob uma licena aberta. Contudo, os
dados ainda esto trancados dentro de um documento. Para extra-los
de l, dependendo do formato utilizado, ser preciso usar um programa
proprietrio (que pode custar dinheiro), o que um obstculo para
diversas pessoas.
aaa
O terceiro estgio do sistema de estrelas semelhante ao segundo, mas
inclui uma exigncia: a de que os arquivos estruturados disponibilizados
na Web sob licena aberta sejam gerados em um formato no proprietrio.
Em vez de um documento no formato .xlsx, gerado pelo aplicativo
proprietrio Excel, por exemplo, a opo seria usar o CSV, um formato
estruturado que no depende de programas proprietrios para ser
manipulado.
29
aaaa
Para entender melhor o funcionamento da quarta e da quinta estrela,
importante ler o Guia de Web Semntica. Enquanto as trs primeiras
estrelas do diretrizes para que os dados possam ser publicados na Web na
forma de documentos de formato aberto e com licena aberta, a quarta e a
quinta estrela apresentam o conceito de dados conectados.
Para conseguir as quatro estrelas necessrio fazer tudo que as estrelas
anteriores aconselham, s que alm de usar um documento em formato
aberto, os dados tambm so publicados na prpria pgina da Web usando
URIs para descrever cada um dos dados, de modo que qualquer pessoa
possa identificar os elementos de forma padronizada no documento
publicado.
Web. Partes desses dados podem ser reutilizadas e combinadas com outros
dados.
Quem publica passa a ter um controle fino de cada clula da base de
dados e pode otimizar o acesso ao banco, equilibrando a carga de acessos,
realizando cpias estratgicas e muito mais. Outros rgos que publicam
dados podem conectar as bases deles s suas usando o mesmo esquema de
URIs.
aaaaa
O ltimo estgio do sistema de estrelas requer que seus dados publicados
no esquema de URIs estejam conectados a outras bases de dados
publicadas sob as mesmas condies. Mais informaes sobre como os
dados conectados funcionam pode ser encontradas no Guia de Web
Semntica.
31
a
Publicar bases na Web (em qualquer formato) com licena aberta
aa
Publicar bases em formato estruturado com licena aberta
(ex: arquivo Excel, em vez de imagem escaneada)
aaa
Usar formatos no proprietrios e uma licena aberta
(ex: arquivo CSV em vez de Excel)
aaaa
Usar URIs para descrever coisas, para que qualquer um possa identific-las
aaaaa
Conectar seus dados a outras bases para dar contexto
Tendo em vista as recomendaes do sistema desenvolvido por Tim BernersLee, o Plano de Abertura de Dados poder ser desenvolvido levando-se em
considerao...
...o escopo
Ao se preparar para abrir suas bases, o rgo deve escolher quais bases, ou suas
partes, devero ser abertas. Essa abertura, se guiada pelo esquema das cinco
estrelas dos dados abertos, deve levar em considerao os desafios tcnicos e
humanos para se conseguir chegar a trs estrelas, por exemplo, ou cinco.
possvel que algumas das bases j estejam prontas para serem publicadas na
Internet em formato estruturado e aberto e com licena aberta (trs estrelas),
ou que outras existam apenas em formatos fechados e no estruturados, mas
possam ser colocadas em stio da Web com licena aberta (uma estrela).
O escopo vai ajudar a mapear quais bases podero ser abertas e em qual regime
de estrelas elas entraro, de uma a cinco. O nmero de estrelas vai depender
dos recursos tcnicos e humanos disponveis ao rgo.
...a priorizao
Depois de definido o escopo de abertura de bases em relao ao nmero de
estrelas que se deseja atingir com cada uma delas, preciso definir qual ser a
32
33
Equipe:
Tcnico do setor pblico, guardio ou responsvel pela base que dever
ser aberta.
Profissional de TI que ficar responsvel por colocar os documentos em
stio da Web, junto com a licena aberta.
Fluxo de trabalho simplificado: Tcnico do setor pblico envia base (em
qualquer formato) para que profissional de TI, que disponibiliza a base no stio
da Web do rgo, com a licena aberta.
34
35
Publicao
Com os dados em mos, num formato aberto e com uma licena que permita
a sua reutilizao de forma livre, chegar a hora de publicar as bases na Web.
Esse um momento importante do Plano de Abertura de Bases e deve ser
planejado com calma e diligncia. A publicao depende de quantas estrelas
o rgo interessado deseja conquistar com a abertura dos dados. Idealmente,
uma publicao que visa a conseguir cinco estrelas no longo prazo deve se
preparar desde o incio para que os ajustes ao longo do caminho sejam suaves e
previsveis.
O melhor caminho para conquistar a abertura e interoperabilidade dos
dados, no que diz respeito sua viabilizao de acesso na Web, por meio de
repositrios estruturados e planejados. Isso no quer dizer, necessariamente,
que o rgo interessado dever adquirir sistemas complexos de armazenamento
de dados. Uma pgina simples da Web com uma lista bem estruturada de
documentos pode servir como um bom repositrio de dados, ou um catlogo,
desde que alguns cuidados sejam tomados. A complexidade do sistema
depender da quantidade de bases abertas e dos recursos, tcnicos e humanos,
de cada rgo.
A forma como essas informaes sero organizadas deve ser convencionada
com antecedncia, com a participao de todos os atores envolvidos. De
preferncia entre rgos que publicam dados correlacionados e podem publicar
bases que tm o potencial de conversarem umas com as outras. Isso
importante para que todos tenham entendimento comum do significado dos
dados que sero compartilhados.
O objetivo dessa organizao que toda a sociedade que tem o acesso
informao seja capaz de interpretar os dados de maneira uniforme, utilizando
sistemas e plataformas de trocas de dados. Essa padronizao prvia entre
as partes ganha forma quando se publica na Web os nomes e definies dos
elementos usados em forma partilhvel e referencivel, independentemente do
grau de apoio que se obteve.
Esse planejamento abre caminho para a construo de bases de dados cinco
estrelas, independente dos aplicativos utilizados para organiz-los e public-los.
Qualquer que seja a estratgia adotada, importante incluir no planejamento
os conceitos de alguns padres:
36
37
Um cenrio fictcio
Imagine que a Secretaria de Logstica e Transportes do Estado de So Paulo
tenha desenvolvido uma API pblica para que qualquer desenvolvedor pudesse
acessar informaes sobre as condies de manuteno das estradas paulistas.
Em determinado momento o servidor de API foi inundado e o servidor do
banco de dados travou. Os servios estaduais que dependem desse banco de
dados pararam de funcionar. Os registros mostravam que houve um aumento
grande no trfego entre oito e nove horas da manh com muitas requisies
de API vindas de muitos lugares diferentes. Depois das nove horas o nvel de
acessos nos servidores diminuiu e tudo voltou ao normal.
38
O que aconteceu?
Seguindo com o cenrio fictcio, um ano antes, a Secretaria de Logstica
e Transportes comeou a abrir seus dados como parte da poltica de
transparncia do estado. Havia pressa e, com a equipe reduzida, eles decidiram
criar uma API para os dados das estradas configurando um servidor de API
acessvel pela Internet. A API foi desenvolvida levando em considerao
potenciais situaes em que os desenvolvedores de aplicativos poderiam usla, mas era difcil saber exatamente o que as pessoas iriam querer. Ao todo, a
equipe da Secretaria estabeleceu trs chamadas genricas de API.
Passado o ocorrido com os servidores, um ano mais tarde, os servidores
descobriram que um empreendedor havia desenvolvido um aplicativo de
celular que fez muito sucesso, sendo usado por centenas de milhares de
pessoas. Todos os dias de manh o aplicativo anunciava, antes da pessoa ir
trabalhar, qual era a situao de manuteno nas estradas paulistas. Para baixar
esses dados cada aplicativo instalado em cada celular precisava realizar duas
chamadas de API. Foi isso que derrubou os servidores da Secretaria, pois a
infraestrutura no estava preparada para lidar com o nmero de acessos.
Alternativa
Uma alternativa ao modelo apresentado anteriormente publicar dumps de
dados na forma de arquivos. Nesse modelo, os dados da base so exportados
e transformados num arquivo de formato aberto, tal como o CSV. Depois
disso, recebem um nome padronizado e so armazenados num servidor de
pginas da Web. Isso significa que qualquer desenvolvedor pode baixar todos
os seus dados, carreg-los na infraestrutura deles e desenvolver suas prprias
APIs (nesse caso, privadas) de acordo com a necessidade deles. Alm disso,
grandes quantidades de acesso estaro concentradas nos servidores deles, sem
afetar o funcionamento de outros servios do governo. Outra vantagem que
a publicao de arquivos dumps num servidor de pginas da Web muito
simples. Se os arquivos e URLs receberem nomes consistentes, ser fcil para
os desenvolvedores baixarem os dados ao longo do tempo (por exemplo,
http://exemplo.com/estradas/2015-01-30.csv).
39
Consideraes
Voc realmente precisa de uma API? Desenvolver uma API pode
se tornar um projeto caro que vai competir com outros projetos de
TI com prioridade maior. Alm disso, esse tipo de projeto envolve
tomar decises sobre quais chamadas sero realizadas. Voc sabe como
seus usurios vo usar seus dados? Sua API vai contribuir para que os
usurios utilizem os dados da melhor forma possvel? Qual seu plano
para lidar com grandes quantidades de acesso?
Crie condies para que os desenvolvedores mantenham uma cpia
local e atualizada dos seus dados. A oferta de dumps de dados
nomeados de forma consistente simplifica o processo de manter uma
base de dados atualizada.
Isole sistemas internos dos efeitos da publicao externa de dados.
Tome os devidos cuidados para que os acessos vindos da Web no
interfiram com bases de dados internas, afetando outros servios do
Governo.
Certifique-se de que voc pode mudar seus sistemas sem quebrar os
URLs. Desenvolvedores vo construir aplicativos que dependem dos
seus URLs. No os force a reescrever seus programas apenas porque
voc vai mudar de plataforma. Sinais de que as coisas podem ser
melhores planejadas incluem fragmentos que pertencem a plataformas
especficas, como apsx ou jsp, nos seus URLs. Livre-se deles.
40
Soluo
Publicar dump da base de dados
Pr-requisitos
Acesso base de dados
Servidor web para arquivos
Mecanismo de ETL (caso
esteja em banco relacional)
Prazo
Estrelas
Curto
Curto
Publicar dados em
arquivos JSON / XML
Mdio
Longo
Mecanismo de ETL
Desenvolver API RESTful de
dados abertos desacoplada
da soluo (voc precisa
mesmo de uma API?)
Servio de desenvolvimento
Longo
Servio de desenvolvimento
Longo
Mecanismo de ETL
Longo
Disponibilizar dados
por Endpoint SPARQL
Ontologia da rea do
conhecimento do sistema
Mecanismo de ETL
Mais Longo
Mais Longo
Mecanismo de ETL
Servidor web para
rodar nova soluo
41
Catlogo
Repositrio de dados
Captulo 5
42
CATLOGO/REPOSITRIO DE DADOS
43
44
Cenrios tcnicos,
opes tecnolgicas
Captulo 7
45
Nvel 1
O primeiro nvel de complexidade atende rgos que desejam iniciar seus
esforos em abertura de dados e que no possuam um volume muito grande
de bases de dados. Nesses casos, um nico profissional de TI capaz de
administrar o local onde as bases de dados sero disponibilizadas.
O rgo que tiver menos de 100 bases para publicar na Web pode configurar
um servidor de Web convencional, hospedando os documentos no prprio
servidor ou num servio de armazenamento em nuvem. As bases devem ter sua
descrio (tambm conhecida como metadados) embarcada na pgina onde
so publicadas e ferramentas existentes de busca, como a busca personalizada
do Google, podem ser utilizadas.
46
Busca
personalizada
do Google
Apache, Nginx, IIS
Excel, csv,
xml
Busca
Catlogo
de dados
Bases de dados
no sistema
original
Servidor de Web
Sistema de
comentrios
Painel de controle
do servidor (opcional)
Publicar
Pgina HTML
CMS de contedo
(opcional)
Equipe de TI
47
Nvel 2
O segundo nvel de complexidade descreve um cenrio em que uma
quantidade razovel de bases de dados devem ser publicadas na Web. A soluo
apresentada pode ser compartilhada entre diferentes rgos, dependendo da
demanda. Nesse nvel de complexidade, recomendado que a equipe de TI
tenha especialistas na configurao otimizada de servidores e bancos de dados.
A publicao de 100 a 1000 bases de dados poder acontecer em um servidor
central que serve de repositrio de bases para o stio do(s) rgo(s). O acesso
se d por meio de um CMS (do ingls Content Management System, ou
Sistema de Gerenciamento de Contedo), como Wordpress ou Drupal, e
os dados so gerenciados manualmente em seus formatos originais no mesmo
servidor do CMS, ou armazenamento em nuvem. Os metadados das bases so
armazenados em banco SQL, exibido em pginas geradas de forma dinmica.
O sistema faz verificao automtica de links quebrados e a busca pode ser
feita diretamente na base de metadados, ou usando as opes do CMS ou
busca personalizada do Google. recomendado o uso de caching para cuidar
da grande quantidade de acessos e tambm no armazenar os metadados no
CMS.
Resumo:
Front-end convencional usando um CMS (Wordpress, Drupal etc);
Bases de dados so hospedadas em formato original no prprio servidor
da aplicao ou nos respectivos stios dos rgos, para o caso de uma
atividade em conjunto;
Metadados so hospedados em banco de dados SQL, requisies via
gerao dinmica de pginas;
Verificao automtica de links quebrados;
Busca via varredura de texto no banco SQL, busca do CMS ou busca
personalizada do Google;
Fazer caching para equilibrar acessos;
No salvar metadados no CMS.
48
Excel,
csv,
xml
HTML
links
Bases de dados
no sistema
original
Sistema de
comentrios
Drupal,
WordPress,
Joomla
Busca Google/
Busca CMS
Busca no BD
Apache,
Nginx,
IIS
Busca
Servidor de Web
Catlogo
de dados
Requisio
Painel de controle
do servidor
Publicar
Php,
python
jsp
MySQL,
Postgres,
Banco de
Dados do
Catlogo
de Dados
CMS de
contedo
Equipe de TI
Nvel 3
O terceiro nvel de complexidade descreve um cenrio onde mais de 1000
bases so publicadas e 10% delas so atualizadas frequentemente. Nesses casos,
comum que a plataforma sirva para gerenciar bases de dados de diversos
rgos, contando com uma equipe de TI especializada e que poder atender as
demandas de vrios setores em tempo hbil.
Um ou mais servidores podero ser usados, dependendo da preferncia
da equipe de administrao da infraestrutura. A parte de front-end deve
integrar diferentes web services, preferencialmente por meio de uma API. O
gerenciamento dos documentos das bases de dados deve ser feito de forma
automtica, possivelmente em uma soluo de armazenamento em nuvem.
Os metadados so armazenados num repositrio otimizado. O envio e
a atualizao das bases de dados so delegadas a cada rgo pblico que
compartilha a plataforma com validao automtica de bases e controle de
49
50
Bases de dados
no sistema
original
Excel,
csv,
xml
Apache,
Nginx,
IIS
Bases de dados
no sistema
original
Sistema de
comentrios
Busca
Catlogo
de dados
Servidor de Web
Requisio
Painel de controle
do servidor
Publicar
API
(pblica)
CKAN,
OGPL,
Socrata
API de
visualizao
(pblica)
Fluxo de
trabalho
Banco de
Dados do
Catlogo
de Dados
MySQL,
Postgres,
API
(pblica)
Sistema de
metadados
CMS de
contedo
Orgo Pblico 1
Orgo Pblico 3
Drupal, WordPress,
Joomla
Orgo Pblico 2
51
52
Licena de utilizao
dos dados
Captulo 8
53
A abertura de bases, nos termos sugeridos por este guia, implica disponibilizar
as informaes de forma completa na Web, em formatos no proprietrios,
com acesso irrestrito e livre para qualquer pessoa e de modo que qualquer
um possa reutiliz-los para qualquer fim, sem restries. Esse pargrafo um
breve resumo do que pode ser considerada uma licena aberta, ou seja, as
condies que o guardio dos dados d ao usurio para utilizao dos mesmos.
Sem essa licena, os dados no podem ser considerados abertos, pois no h
garantias de que sua utilizao esteja resguardada pelos princpios da abertura
de dados.
Uma licena aberta importante tambm para que a Lei de Acesso
Informao seja respeitada. A Infraestrutura Nacional de Dados Abertos, do
governo federal, ainda no chegou a uma concluso se o ordenamento jurdico
brasileiro suficiente para tratar os dados governamentais de forma aberta,
sem a necessidade de licenas, se outras licenas que j existem se enquadram
no contexto brasileiro, ou se ser necessrio criar uma licena especfica para
o Brasil. Por exemplo, a legislao brasileira, no mbito da Lei de Direitos
Autorais, prev explicitamente a proteo a banco de dados que constituam
criao intelectual. Por outro lado, a Lei de Acesso Informao diz que o
Estado deve proporcionar o acesso a toda informao que produz ou detm,
desde que no seja considerada sigilosa. A interao dessas leis ainda objeto
de estudo.
A Lei de Acesso Informao, por outro lado, no determina qual licena
deve ser usada ao publicar dados, mas lista princpios que podem muito
bem direcionar a formulao de uma licena aberta ou termos de utilizao
compatveis com os conceitos de abertura de dados explicitados neste guia:
Art. 3 Os procedimentos previstos nesta Lei destinam-se a assegurar o direito
fundamental de acesso informao e devem ser executados em conformidade
com os princpios bsicos da administrao pblica e com as seguintes
diretrizes:
I - observncia da publicidade como preceito geral e do sigilo como exceo;
Art. 8 ...
...
3 Os stios de que trata o 2 devero, na forma de regulamento, atender,
entre outros, aos seguintes requisitos:
54
...
II - possibilitar a gravao de relatrios em diversos formatos eletrnicos,
inclusive abertos e no proprietrios, tais como planilhas e texto, de modo a
facilitar a anlise das informaes;
III - possibilitar o acesso automatizado por sistemas externos em formatos
abertos, estruturados e legveis por mquina;
IV - divulgar em detalhes os formatos utilizados para estruturao da
informao;
V - garantir a autenticidade e a integridade das informaes disponveis para
acesso;
VI - manter atualizadas as informaes disponveis para acesso;
Em outras palavras, a lei determina que, via de regra, os dados governamentais
so pblicos. O sigilo exceo. Alm disso, os stios da Web que divulgaro
esses dados devem permitir a gravao de relatrios em formatos estruturados
e no proprietrios, divulgar em detalhes os formatos usados na estruturao
da informao, garantir a integridade e autenticidade dos dados e mant-los
atualizados.
A formulao de termos de utilizao ou uma licena aberta para uso de dados
deve considerar com responsabilidade a compatibilidade do texto com outras
licenas de dados abertos. A considerao vital para que seja legalmente
possvel realizar agregaes, estatsticas, anlises e cruzamentos de dados
de diferentes fontes. Os resultados dessas atividades que agregam valor
abertura de dados e a torna til para sociedade. Se o governo estadual usar
uma licena incompatvel com a licena usada pela administrao municipal,
no seria possvel, legalmente, cruzar as bases de hospitais, por exemplo, para
construir um aplicativo que exibe as instalaes municipais e estaduais. Uma
licena ou termos de uso de dados abertos devem ser formulados de modo a
maximizar o grau de compatibilidade com as licenas usadas ou que possam
vir a ser usadas por outras esferas e poderes do Estado.
No Brasil, a maior parte dos rgos pblicos no tem especificado qualquer
licena ao publicar dados na Internet. H excees, contudo, com a utilizao
das licenas ODbL e DbCL (links em ingls).
55
56
57
No escopo deste guia, uma base de dados nada mais do que um arquivo de
computador construdo de forma estruturada, com o objetivo de armazenar
informaes para consulta e anlise posterior. Sua base de dados pode ser
construda manualmente, desde que voc defina uma estrutura para organizar
esses dados e mantenha coerncia. Isso importante para garantir que as
buscas realizadas nessa base encontrem aquilo que se procura. Uma base de
dados pode ser um arquivo de texto, por exemplo, com a lista de todos os
municpios do estado de So Paulo. Ou ento, essa base pode ser uma lista de
hospitais da cidade de So Paulo e, ao lado de cada nome, o bairro onde cada
um se encontra:
Nesse caso, a estrutura definida pela escolha de colocar dois nomes (hospital
e bairro) em uma nova linha do arquivo, separados por um delimitador, a
vrgula. Dois hospitais nunca apareceriam na mesma linha, por exemplo.
O que define a integridade de uma base de dados, a grosso modo, so os
elementos utilizados com o intuito de dar previsibilidade para as consultas
realizadas nessa base: no exemplo citado, todas as linhas apresentam, primeiro,
o nome de um hospital e, segundo, o nome do bairro onde ele se encontra. Se
qualquer linha dessa base for diferente do modelo Nome do hospital, Bairro,
a integridade da base ficar comprometida e ela perder sua utilidade:
Continente;Pas;Capital
frica;Angola;Luanda
Amrica do Norte;Estados Unidos;Washington DC
Amrica Central;Mxico;Cidade do Mxico
Amrica do Sul;Brasil;Braslia
Europa;Espanha;Madri
Europa;Alemanha;Berlim
Oceania;Austrlia;Camberra
sia;Japo;Tquio
Esse arquivo possui trs colunas separadas pelo delimitador ponto e vrgula
(;): Continente, Pas e Capital, como descrito na primeira linha. Ao todo,
so oito registros. O primeiro a trade frica-Angola-Luanda e o ltimo siaJapo-Tquio. No h limite prtico para o nmero de linhas ou colunas em
um arquivo CSV. Esse nmero pode chegar a milhes ou dezenas de milhes,
dependendo exclusivamente da capacidade de processamento do computador
que vai ser utilizado na consulta. Se o mesmo arquivo CSV fosse aberto num
processador de planilhas, ele seria exibido assim:
60
Continente
Pas
Capital
frica
Angola
Luanda
Amrica do Norte
Estados Unidos
Washington DC
Amrica Central
Mxico
Cidade do Mxico
Amrica do Sul
Brasil
Braslia
Europa
Espanha
Madri
Europa
Alemanha
Berlim
Oceania
Austrlia
Camberra
sia
Japo
Tquio
Formato XML
O XML uma linguagem de marcao, assim como o HTML (usado
para construir pginas da Web), definido e mantido pelo World Wide
Web Consortium (W3C). O objetivo do XML o foco na simplicidade,
generalidade e usabilidade por toda a Internet. Embora o XML enfatize a
gerao de documentos, ele tambm usado para representar estruturas de
dados arbitrrias, para integrao entre sistemas de computadores. Um tpico
arquivo XML tem a seguinte estrutura:
61
Marcadores e contedo
Um arquivo XML possui duas caractersticas principais: marcadores e
contedo. Geralmente, as sequncias de caracteres que comeam com <
e terminam com > ou comeam com & e terminam com ; so chamadas
de marcadores. Sequncias de caracteres que no so marcadores so
consideradas contedo. No exemplo acima, <Localidade> e <Continente>,
por exemplo, so marcadores. Os nomes dos pases, continentes e capitais, so
contedo.
Tags
As tags so os marcadores que comeam com < e terminam com >. So trs os
tipos de tags:
tags de incio; por exemplo: <Localidade>
tags de trmino; por exemplo: </Localidade>
tags de elemento vazia; por exemplo: <line break />
Elementos
Os elementos so componentes do XML que comeam com uma tag de
incio e terminam com uma tag de trmino correspondente, ou consistem
apenas de uma tag de elemento vazia. A sequncia de caracteres entre as tags
de incio e trmino, se existirem, so o contedo do elemento e podem incluir
marcadores, incluindo outros elementos, que so chamados de filhos. No
exemplo acima, um elemento seria:
<Pas>Brasil</Pas>.
Atributos
Os atributos so pares de nome/valor que existem dentro da tag de incio ou
tag de elemento vazia. No exemplo acima, o elemento <Localidade> possui um
atributo nmero e um valor correspondente:
62
<Localidade nmero="8">
Formato KML
O Keyhole Markup Language (KML) uma derivao do XML para expressar
dados e visualizaes geogrficas em navegadores de mapas bidimensionais ou
tridimensionais desenvolvidos para a Internet. O formato foi adquirido pelo
Google em 2004 e tornou-se o padro usado no aplicativo Google Earth. Em
2008, o formato se tornou um padro internacional do Consrsio Geoespacial
Aberto.
O formato KML tem uma estrutura semelhante ao do XML, mas define uma
srie de caractersticas, como marcadores de lugares, imagens, polgonos,
modelos 3D e descries textuais. Cada localidade sempre apresenta uma
longitude e uma latitude. Os arquivos so distribudos em pacotes KMZ, que
so arquivos KML compactados no padro zip com uma extenso .kmz. O
contedo do pacote compactado compreende em um nico documento KML
(doc.kml) e, de forma opcional, subdiretrios contendo as imagens e outros
arquivos referenciados no KML. Um tpico documento KML se apresenta da
seguinte maneira:
63
Formato JSON
O formato JSON (JavaScript Object Notation) um formato aberto usado
como alternativa ao XML para a transferncia de dados estruturados entre
um servidor de Web e uma aplicao Web. Sua lgica de organizao tem
semelhanas com o XML, mas possui notao diferente. O formato ganhou
popularidade em servios da Web, como clientes de email e stios de compras,
pois consegue transmitir uma grande quantidade de informaes entre o
cliente e o servidor usando uma quantidade menor de caracteres.
Os arquivos JSON tambm trabalham com pares de atributos e valores e em
vez de marcadores, como no XML, utilizam delimitadores em cadeias: {}, []; e
. Um tpico arquivo JSON estruturado da seguinte forma:
64
"localidade 1": {
"Continente": "frica",
"Pas": "Angola",
"Capital": "Luanda"
},
"localidade 2": {
"Continente": "Amrica do Norte",
"Pas": "Estados Unidos",
"Capital": "Washington DC"
},
"localidade 3": {
"Continente": "Amrica Central",
"Pas": "Mxico",
"Capital": "Cidade do Mxico"
},
"localidade 4": {
"Continente": "Amrica do Sul",
"Pas": "Brasil",
"Capital": "Braslia"
},
"localidade 5": {
"Continente": "Europa",
"Pas": "Espanha",
"Capital": "Madri"
},
"localidade 6": {
"Continente": "Europa",
"Pas": "Alemanha",
"Capital": "Berlim"
},
"localidade 7": {
"Continente": "Oceania",
"Pas": "Austrlia",
"Capital": "Camberra"
},
"localidade 8": {
"Continente": "sia",
"Pas": "Japo",
"Capital": "Tquio"
}
65
"localidade 6": {
"Continente": "Europa",
"Pas": "Alemanha",
"Capital": "Berlim"
},
Repare que o valor da localidade 6 um novo conjunto de pares atributovalor. Esse novo conjunto iniciado com o delimitador { e finalizado com }.
Essa lgica de encadear conjuntos de pares pode ser repetida inmeras vezes,
criando diversos nveis para a estrutura de dados desejada.
geoJSON/topoJSON
Os formatos geoJSON e topoJSON so derivados do JSON para
representao de colees de caractersticas geogrficas simples, junto com
seus atributos no-espaciais. Dentre as caractersticas possveis de serem
armazenadas no padro geoJSON/topoJSON esto points, incluindo
endereos e localidades; line strings, incluindo ruas, rodovias e limites;
polygons, incluindo pases, estados ou demarcaes de terra; e colees
misturadas desses tipos. O diferencial do topoJSON em relao ao geoJSON
que ele armazena topologia geoespacial, gerando um arquivo final com
tamanho frequentemente menor.
-- Base de dados
CREATE DATABASE `ex_localidades`;
USE `Exemplos de Localidades`;
-- Estrutura da tabela para a tabela `localidades`
CREATE TABLE `localidades` (
`id` INT(8) UNSIGNED NOT NULL AUTO_INCREMENT,
`nome de usurio` VARCHAR(16) NOT NULL,
`senha` VARCHAR(16) NOT NULL,
PRIMARY KEY (`id`)
);
-- Dados da tabela `localidades`
INSERT INTO `localidades` VALUES ('Continente', 'Pas',
'Capital'),
('frica',
'Angola',
'Luanda'),
('Amrica
do Norte', 'Estados Unidos', 'Washington DC'), ('Amrica
Central', 'Mxico', 'Cidade do Mxico'), ('Amrica do Sul',
'Brasil',
'Braslia'),
('Europa',
'Espanha',
'Madri'),
('Europa', 'Alemanha', 'Berlim'), ('Oceania', 'Austrlia',
'Camberra'), ('sia', 'Japo', 'Tquio');
Formato Shapefile
O shapefile um formato para bases de dados geoespaciais e vetoriais em
sistemas de informao geogrfica (no ingls, GIS - Geographic Information
System). Ele foi desenvolvido e regulado pela empresa Esri. considerado
um formato aberto, apesar de proprietrio. Por ser aberto, o formato recebe
suporte de diversos aplicativos de processamento de mapas gratuitos e de
cdigo livre. O shapefile pode descrever espacialmente qualidades de vetores
(pontos, linhas e polgonos, para rios, lagos e poos, por exemplo) e cada item
normalmente possui atributos que o descrevem, como nome e temperatura.
67
68
REFERNCIAS
Referncias
69
REFERNCIAS
71
SPUK
Improving business environment through transparency in So Paulo State
Ano 2015
Secretaria de Governo
72
BY
NC ND