You are on page 1of 21

Ciência de Dados

A Estruturação dos Dados

CONTEÚDO

Dados, Informação, Conhecimento e Inteligência .............................................................. 3


Dados Estruturados e Não Estruturados ............................................................................ 5
Dados Estruturados ............................................................................................................... 5
Dados Semiestruturados ....................................................................................................... 6
Dados Não Estruturados ........................................................................................................ 6
Dados Abertos .................................................................................................................. 8
O que são dados abertos? ..................................................................................................... 8
As 3 Leis.................................................................................................................................. 8
Os 8 Princípios........................................................................................................................ 9
Quando um dado não é aberto? ......................................................................................... 10
Os 5 motivos para abertura dos dados ............................................................................... 10
Abrir dados é uma obrigação legal? .................................................................................... 11
Política de Dados Abertos ................................................................................................ 11
Legislação ......................................................................................................................... 12
Formatos e Tecnologias .................................................................................................. 14
XML ...................................................................................................................................... 14
Marcadores e Conteúdo ................................................................................................... 15
Tags ................................................................................................................................... 15
Elementos ......................................................................................................................... 15
Atributos ........................................................................................................................... 16
Declaração XML ................................................................................................................ 16
JSON ..................................................................................................................................... 17
CSV ....................................................................................................................................... 19
SQL ....................................................................................................................................... 21

2
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Dados, Informação, Conhecimento e Inteligência


− Genericamente, o termo informação é usado para referir-se a todas as maneiras de
descrição ou representação de sinais ou dados.

− Para trabalhar com Inteligência Competitiva, é preciso entender as diferenças entre


essas classes, pois elas possuem valores distintos no contexto do processo decisório.
o Os altos escalões de uma organização necessitam de informação qualitativa que
contenha um valor agregado, para que os dirigentes possam ter uma visão global
da situação.

− Já nos escalões inferiores serão necessárias informações quantitativas de baixo valor


agregado, de forma a possibilitar o desempenho das tarefas rotineiras.

− Dados
o São matéria-prima, constituem elementos da informação e incluem os itens que
representam factos, textos, gráficos, imagens estáticas, sons, segmentos de vídeo
analógicos ou digitais, etc.

− Informação
o Propriamente dita são os dados que passam por algum tipo de processamento
para serem exibidos de uma forma inteligível às pessoas que irão utilizá-los.

3
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− Conhecimento
o Pode ser definido como informações cuja relevância, confiabilidade e importância
foram avaliadas.
o Neste caso, o conhecimento é obtido pela interpretação e integração de vários
dados e informações.

− Inteligência
o É o nível mais alto desta hierarquia e pode ser entendida como a informação com
oportunidade, ou seja, o conhecimento contextualmente relevante que permite
atuar com vantagens no ambiente considerado.
o Também pode ser vista como o conhecimento que foi sintetizado e aplicado a
determinada situação para ganhar maior profundidade e consciência dela.
o Complementando, diz-se que a inteligência é a parte do conhecimento que
habilita a tomada das melhores decisões.

4
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Dados Estruturados e Não Estruturados


− Empresas e organizações se concentram muito na coleta de dados para garantir que
possam obter informações valiosas a partir deles.
o Compreender a estrutura de dados é a chave para descobrir seu valor.

− CASTRO e FERRARI (2016) destacam que, de forma simplificada, dados são valores
quantitativos ou qualitativos associados a alguns atributos.

− Com relação à estrutura, eles podem ser:

FONTE: Disponível em: <https://bit.ly/332OR9z>. Acesso em: 26 set. 2020.

Dados Estruturados
− Uma base de dados é estruturada quando os dados estão armazenados em campos fixos
em um arquivo – por exemplo, uma tabela, uma planilha ou um banco de dados.
o Assim, os dados estruturados dependem da criação de um modelo de dados,
incluindo a descrição dos objetos juntamente com suas propriedades e relações.

5
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− O modelo descreve todos os tipos de dados que serão armazenados, acessados e


processados, o que inclui definir quais campos de dados serão utilizados (por exemplo,
nome, idade, gênero, endereço, escolaridade, estado civil etc.), os tipos dos dados (por
exemplo, numéricos, nominais, alfabéticos, monetários, endereço etc.) e todas as
restrições a eles associadas.

− Uma das vantagens dos dados estruturados é a facilidade de armazenagem, acesso e


análise (CASTRO e FERRARI, 2016).

Dados Semiestruturados
− O dado semiestruturado é um tipo de dado que não possui a estrutura completa de um
modelo de dados, mas também não é totalmente desestruturado.
− Nos dados semiestruturados em geral são usados marcadores (por exemplo, tags) para
identificar certos elementos dos dados, mas a estrutura não é rígida.

− Exemplos conhecidos de dados semiestruturados são arquivos XML ou HTML, que


definem um conjunto de regras para codificar documentos em um formato que pode ser
lido por humanos e máquinas, e também e-mails, que possuem campos de remetente,
destinatário, data, hora e outros adicionados aos dados não estruturados do corpo da
mensagem e seus anexos (CASTRO e FERRARI, 2016).

Dados Não Estruturados


− Dado não estruturado é aquele que não possui um modelo de dados, que não está
organizado de uma maneira predefinida ou que não reside em locais definidos.

− Essa terminologia normalmente se refere a textos livres, imagens, vídeos, sons, páginas
web, arquivos PDF, entre outros.
− Os dados não estruturados costumam ser de difícil indexação, acesso e análise (CASTRO
e FERRARI, 2016).

6
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

De forma resumida, temos a tabela a seguir que diferencia os três tipos de dados:
Dados Estruturados Dados Semiestruturados Dados Não Estruturados
Ex.: Banco de Dados, Tabela, Ex.: XML, HTML, JSON, Ex.: Textos, Documentos,
Planilhas. RDF. Imagens, Vídeos, Áudios,
Redes Sociais.
Estrutura rígida, projetada Estrutura flexível, Sem estrutura (ou com
previamente, representação representação estrutura mínima de
homogênea. heterogênea. arquivo).
Cada campo de dados tem Cada campo de dados Mais de 80% dos dados
um formato bem definido. tem uma estrutura, mas gerados no mundo é deste
não existe uma imposição tipo.
de formato.
Dados de um mesmo O esquema é criado com
registro possuem relação a definição de elementos
entre eles. internos dos arquivos
(nós), legíveis para seres
humanos.
FONTE: Adaptado de <https://bit.ly/332OR9z>. Acesso em: 26 set. 2020.

7
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Dados Abertos

O que são dados abertos?


− Segundo a definição da Open Knowledge Internacional, em suma:
o dados são abertos quando qualquer pessoa pode livremente acessá-los, utilizá-
los, modificá-los e compartilhá-los para qualquer finalidade, estando sujeito a, no
máximo, a exigências que visem preservar sua proveniência e sua abertura.
o Isso geralmente é satisfeito pela publicação dos dados em formato aberto e sob
uma licença aberta.

− Por sua vez, quando os dados são produzidos, coletados ou custodiados por autoridades
públicas e disponibilizados em formato aberto, considera-se que são dados abertos
governamentais.

− Os dados abertos também são pautados pelas três leis e oito princípios.

As 3 Leis
− As chamadas três “leis” dos dados abertos não são leis no sentido literal, promulgadas
por algum Estado.
− São, em suma, um conjunto de testes para avaliar se um dado pode, de fato, ser
considerado aberto.
o Elas foram propostas pelo especialista em políticas públicas, ativista dos dados
abertos e palestrante de políticas públicas na Harvard Kennedy School of
Government David Eaves.
− São elas:

1. Se o dado não pode ser encontrado e indexado na Web, ele não existe;
2. Se não estiver aberto e disponível em formato compreensível por máquina, ele não
pode ser reaproveitado; e
3. Se algum dispositivo legal não permitir sua replicação, ele não é útil.

− As leis foram propostas para os dados abertos governamentais, mas pode-se dizer que
elas se aplicam aos dados abertos de forma geral, mesmo fora de ambientes
governamentais.
o Por exemplo, em empresas privadas, organizações da sociedade civil e
organismos internacionais.
8
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− Dados também podem ser abertos voluntariamente por organizações privadas, por
diversos motivos.
o Nos últimos anos, especialistas têm discutido a abertura de dados pelo setor
privado para ações que beneficiam o interesse público, os chamados
“colaborativos de dados”.

Os 8 Princípios
− Em 2007, um grupo de trabalho de 30 pessoas reuniu-se na Califórnia, Estados Unidos
da América, para definir os princípios dos Dados Abertos Governamentais.
− Chegaram num consenso sobre os seguintes 8 princípios:

1. Completos.
o Todos os dados públicos são disponibilizados.
o Dados são informações eletronicamente gravadas, incluindo, mas não se
limitando a, documentos, bancos de dados, transcrições e gravações
audiovisuais.
o Dados públicos são dados que não estão sujeitos a limitações válidas de
privacidade, segurança ou controle de acesso, reguladas por estatutos.

2. Primários.
o Os dados são publicados na forma coletada na fonte, com a mais fina
granularidade possível, e não de forma agregada ou transformada.

3. Atuais.
o Os dados são disponibilizados o quão rapidamente seja necessário para
preservar o seu valor.

4. Acessíveis.
o Os dados são disponibilizados para o público mais amplo possível e para os
propósitos mais variados possíveis.

5. Processáveis por máquina.


o Os dados são razoavelmente estruturados para possibilitar o seu
processamento automatizado.

6. Acesso não discriminatório.


o Os dados estão disponíveis a todos, sem que seja necessária identificação ou
registro.
9
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

7. Formatos não proprietários.


o Os dados estão disponíveis em um formato sobre o qual nenhum ente tenha
controle exclusivo.

8. Licenças livres.
o Os dados não estão sujeitos a restrições por regulações de direitos autorais,
marcas, patentes ou segredo industrial.
o Restrições razoáveis de privacidade, segurança e controle de acesso podem
ser permitidas na forma regulada por estatutos.

− Além disso, o grupo afirmou que a conformidade com esses princípios precisa ser
verificável e uma pessoa deve ser designada como contato responsável pelos dados.

Quando um dado não é aberto?


− Quando o dado não possui uma das oito características de dados abertos.
− Seguem alguns exemplos:
o Dados que não estão disponíveis na internet;
o Dados que estão disponíveis na internet, porém em formatos proprietários, isto
é, que necessitam de um software específico para acessá-los;
o Dados em disponíveis em Portable Document Format (PDF) ou em formato de
imagem, que não são facilmente processáveis por máquina;
o Dados que, para serem acessados, requerem a identificação do interessado;
o Dados desatualizados;
o Dados com restrições de licença, ou seja, que não podem ser livremente
compartilhados. Exemplo: licenças que não permitem o uso comercial dos dados.

Os 5 motivos para abertura dos dados


− A publicação 5 motivos para a abertura de dados na Administração Pública elaborada
pelo Tribunal de Contas da União, apresenta razões para que as organizações públicas
invistam em iniciativas de abertura de dados governamentais.

− Os cinco motivos para a abertura dos dados são:


1. Transparência na gestão pública;
2. Contribuição da sociedade com serviços inovadores ao cidadão;
3. Aprimoramento na qualidade dos dados governamentais;
4. Viabilização de novos negócios;
5. Obrigatoriedade por lei.
10
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Abrir dados é uma obrigação legal?


− A Lei de Acesso à Informação – LAI (Lei nº 12.527/2011) se aplica aos órgãos públicos
da administração direta e entes da administração indireta dos Poderes Executivo,
Legislativo, incluindo as Cortes de Contas, e Judiciário e do Ministério Público, em todas
as esferas (art. 1ª, parágrafo único).

− No que diz respeito à transparência ativa, a LAI traz consigo conceitos de dados abertos,
em especial em seu art. 8º:
o Art. 8º É dever dos órgãos e entidades públicas promover, independentemente
de requerimentos, a divulgação em local de fácil acesso, no âmbito de suas
competências, de informações de interesse coletivo ou geral por eles produzidas
ou custodiadas.
o (…)
o § 2º Para cumprimento do disposto no caput, os órgãos e entidades públicas
deverão utilizar todos os meios e instrumentos legítimos de que dispuserem,
sendo obrigatória a divulgação em sítios oficiais da rede mundial de
computadores (internet).
o § 3º Os sítios de que trata o § 2º deverão, na forma de regulamento, atender,
entre outros, aos seguintes requisitos:
o (…)
o II – possibilitar a gravação de relatórios em diversos formatos eletrônicos,
inclusive abertos e não proprietários, tais como planilhas e texto, de modo a
facilitar a análise das informações;
o III – possibilitar o acesso automatizado por sistemas externos em formatos
abertos, estruturados e legíveis por máquina;

− A lei também define as hipóteses de sigilo e de informações pessoais, que são


consideradas exceções à regra geral de que os dados devem ser abertos.

Política de Dados Abertos


− A Política de Dados Abertos do Poder Executivo Federal define regras para
disponibilização de dados abertos governamentais no âmbito do Poder Executivo
Federal.
o Ela é constituída por uma série de documentos normativos, de planejamento e de
orientação.

11
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− O órgão responsável pela gestão e monitoramento da Política é a Controladoria-Geral


da União (CGU)
o Por meio da Infraestrutura Nacional de Dados Abertos (INDA).

− Os principais objetivos da Política de Dados Abertos estão elencados no art. 1º do


Decreto nº 8.777/2016, destacando:
o Promover a publicação de dados contidos em bases de dados de órgãos e
entidades da administração pública federal autárquica e fundacional sob a forma
de dados abertos;
o Aprimorar a cultura de transparência pública; e
o Franquear aos cidadãos o acesso, de forma aberta, aos dados produzidos ou
acumulados pelo Poder Executivo Federal.

− O Plano de Dados Abertos (PDA) é um instrumento que operacionaliza a Política de


Dados Abertos, pois organiza o planejamento das ações de implementação e promoção
da abertura de dados dos órgãos.

− Sobre o monitoramento da Política, a CGU criou o Painel de Monitoramento da Política


de Dados Abertos do Poder Executivo Federal com o objetivo de permitir que a
população verifique se os órgãos da administração direta, autárquica e fundacional
estão cumprindo as disposições da Política de Dados Abertos

Legislação
− Sobre a Política de Dados Abertos:
o Lei de Acesso à Informação, em especial o seu art. 8º, e o Decreto 7.724/2012,
que a regulamenta no Poder Executivo federal
o Instrução Normativa SLTI/MP nº 4/2012
o Decreto 8.777/2016, que institui a Política de Dados Abertos do Poder Executivo
Federal
o Decreto 9.903/2019, que transfere a gestão da Política de Dados Abertos do
Poder Executivo Federal para Controladoria-Geral da União (CGU)
o Resolução nº 3 do Comitê Gestor da Infraestrutura Nacional de Dados Abertos
(CGINDA)

− Normativos que tratam de temas relacionados a dados abertos:


o Decreto nº 6.666/2008 (institui a INDE)
o Decreto nº 10.160/2019(Governo Aberto)

12
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

o Decreto 9.319, de 21 de março de 2018, que institui a Estratégia Brasileira para


Transformação Digital
o Decreto 10.332, de 28 de abril de 2020, que institui a Estratégia de Governo
Digital para o período de 2020 a 2022
o Lei nº 13.709, de 14 de agosto de 2018 - Lei Geral de Proteção de Dados Pessoais
(LGPD)
o Lei nº 14.129, de 29 de março de 2021, dispõe sobre princípios, regras e
instrumentos para o Governo Digital e para o aumento da eficiência pública

13
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Formatos e Tecnologias

XML
− O XML é uma linguagem de marcação, assim como o HTML (usado para construir
páginas da Web), definido e mantido pelo World Wide Web Consortium (W3C).
o O objetivo do XML é o foco na simplicidade, generalidade e usabilidade por toda
a Internet.

− Embora o XML enfatize a geração de documentos, ele também é usado:


o Para representar estruturas de dados arbitrárias;
o Para integração entre sistemas de computadores.

− Um típico arquivo XML tem a seguinte estrutura:

14
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Marcadores e Conteúdo
− Um arquivo XML possui duas características principais:
o marcadores e conteúdo.

− Geralmente, as sequências de caracteres que começam com < e terminam com > são
chamadas de "marcadores".
o Sequências de caracteres que não são marcadores são consideradas "conteúdo".

− No exemplo acima, <Localidade> e <Continente>, por exemplo, são


marcadores.
o Os nomes dos países, continentes e capitais, são "conteúdo".

Tags
− As tags são os marcadores que começam com < e terminam com >.
− São três os tipos de tags:
o Tags de início;
▪ Por exemplo: <Localidade>

o Tags de término;
▪ Por exemplo: </Localidade>

o Tags de elemento vazia;


▪ Por exemplo: <line-break/>

Elementos
− Os elementos são componentes do XML que começam com uma tag de início e
terminam com uma tag de término correspondente, ou consistem apenas de uma tag
de elemento vazia.
− A sequência de caracteres entre as tags de início e término, se existirem, são o conteúdo
do elemento e podem incluir marcadores, incluindo outros elementos, que são
chamados de "filhos".

− No exemplo acima, um elemento seria:

15
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Atributos
− Os atributos são pares de "nome/valor" que existem dentro da tag de início ou tag de
elemento vazia.

− No exemplo acima, o elemento <Localidade> possui um atributo "número" e um valor


correspondente:

− O nome do atributo é "número" e seu valor é "8".


− Os atributos só podem apresentar um valor entre aspas
− Cada atributo não pode aparecer mais de uma vez em cada elemento.

Declaração XML
− Os documentos XML devem começar declarando alguma informação sobre si mesmos,
como no exemplo:

CESPE
XML consiste em um padrão de representação de informação extensível que, por isso,
pode ser usado para representar tanto informação estruturada como não estruturada.
XML pode ser utilizado como linguagem padrão para a integração de fonte de dados de
diferentes formatos.
O modelo XML (extended markup language) usa estruturas de árvores hierárquicas,
combina conceitos de banco de dados com os de modelos de representação de
documentos.
XML é uma metalinguagem capaz de descrever linguagens de marcação, utilizada
também como elemento de integração entre sistemas.
A XML (extensible markup linguage) é uma linguagem que objetiva descrever o
significado dos elementos de dados de um documento, de modo que uma pessoa ou
processo computacional que leia tal documento possa interpretar os rótulos (tags) XML
presentes nesse documento e fazer associações semanticas a partir desses rótulos.
Em XML, as tags definem elementos de dados e o texto fornece o dado real representado
no documento.
Um documento XML pode conter definições para o elemento raiz e para os elementos
filhos, podendo também conter elementos vazios.

16
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

Um documento XML sempre deve ter um elemento principal, também conhecido como
root tag.
Em um XML, os dados devem estar organizados de forma hierárquica.
Uma tag em XML começa com o símbolo < e termina com o símbolo >. Pode ser de três
tipos: tag de início, como em <section>; de fim, como, por exemplo, em </section>; ou de
elementos vazios, como, por exemplo, <line-break/>.
Em cada documento XML pode haver elementos e atributos; os atributos fornecem
informações que descrevem elementos; os elementos são identificados por tags; os
nomes de tags estão inclusos entre sinais de menor e de maior; os elementos complexos
são construídos hierarquicamente a partir de outros elementos; nomes de tags são
definidos de modo a descrever o significado dos elementos de dados.

JSON
− O formato JSON (JavaScript Object Notation) é um formato aberto usado como
alternativa ao XML para a transferência de dados estruturados entre um servidor de
Web e uma aplicação Web.
o Sua lógica de organização tem semelhanças com o XML, mas possui notação
diferente.

− O formato ganhou popularidade em serviços da Web, como clientes de email e sítios de


compras, pois consegue transmitir uma grande quantidade de informações entre o
cliente e o servidor usando uma quantidade menor de caracteres.

− Os arquivos JSON trabalham com pares de atributos e valores e em vez de marcadores,


como no XML, utilizam delimitadores em cadeias: {}, []; e "".

− Um típico arquivo JSON é estruturado da seguinte forma:

17
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− O delimitador { marca o início de uma seção e o } marca seu fim.


− Os pares de valor e atributo são separados por :
− E seus valores, quando texto, ficam entre aspas ""
o Números, por exemplo, não recebem as aspas.

− No exemplo abaixo, a "localidade 6" é um atributo que recebe uma série de


valores (Continente, País e Capital):

− Repare que o valor da "localidade 6" é um novo conjunto de pares atributo-valor.

18
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

o Esse novo conjunto é iniciado com o delimitador { e finalizado com }.


o Essa lógica de encadear conjuntos de pares pode ser repetida inúmeras vezes,
criando diversos níveis para a estrutura de dados desejada.

CSV
− Os arquivos CSV (do inglês "Character-separated values" ou "valores separados por um
delimitador") servem para armazenar dados tabulares (números e texto) em texto
simples.
o O "texto simples" significa que o arquivo é uma sequência de caracteres puros,
sem qualquer informação escondida que o computador tenha que processar.

− Um arquivo CSV abriga um número de "registros", separados por quebras de linha (cada
"registro" permanece numa linha do arquivo) e cada registro possui um ou mais
"campos", separados por um delimitador, os mais comuns sendo:
o A vírgula (",")
o O ponto e vírgula (";") e
o O caractere "invisível" que surge ao se pressionar a tecla "tab".

− Arquivos separados por vírgula e ponto e vírgula normalmente recebem a extensão


"CSV" e arquivos separados por "tab" a extensão "TSV".
o Há também bases de dados nesses formatos que recebem a extensão "TXT".

− Arquivos CSV são simples e funcionam na maior parte das aplicações que lidam com
dados estruturados.
− Fazendo uma comparação com linhas e colunas numa planilha, os "registros" de um
arquivo CSV são as linhas e os "campos" são as colunas.
o Os valores dos "campos" do primeiro "registro", ou seja, da primeira linha,
normalmente são os nomes das colunas.

− Apesar de não existir um padrão internacional para o CSV, suas variações são simples o
suficiente para que os aplicativos compatíveis possam consertar facilmente as
diferenças.
− Tipicamente, é assim que um arquivo CSV é exibido quando aberto num editor de
textos:

19
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

− Esse arquivo possui três colunas separadas pelo delimitador ponto e vírgula (";"):
o Continente, País e Capital, como descrito na primeira linha.
o Ao todo, são oito registros.
▪ O primeiro é a tríade África-Angola-Luanda e o último Ásia-Japão-Tóquio.

− Não há limite prático para o número de linhas ou colunas em um arquivo CSV.


o Esse número pode chegar a milhões ou dezenas de milhões, dependendo
exclusivamente da capacidade de processamento do computador que vai ser
utilizado na consulta.

− Se o mesmo arquivo CSV fosse aberto num processador de planilhas, ele seria exibido
assim:

20
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.
Ciência de Dados
A Estruturação dos Dados

SQL
− O SQL (do inglês, "Structured Query Language" ou "Linguagem Estruturada de
Requisição") é uma linguagem de programação especialmente desenvolvida para
gerenciar dados em sistemas de bancos de dados relacionais.

− Os comandos possíveis em SQL incluem a inserção, requisição, atualização e remoção de


dados, a criação e alteração de esquemas de bancos e o controle de dados.

− O "dump" de uma base de dados normalmente resulta numa lista de comandos SQL e
permite que qualquer pessoa possa reconstruir essa base a partir do seu esquema de
dados e dos valores contidos nela.

− Um arquivo "dump" típico se apresenta da seguinte maneira:

− As bases de dados em SQL normalmente são criadas e administradas utilizando


ferramentas direcionadas a profissionais da área de TI.

− Enquanto os formatos CSV, XML e JSON podem ser criados facilmente em editores de
texto comuns, uma base SQL requer maior refinamento e conhecimento técnico.

21
www.resumosdeti.com.br

O conteúdo deste resumo é de uso exclusivo de JSMCARLOS los - E-mail: tonom49341@ubinert.com - ID: 67503 - Data: 31 de dezembro de
2023, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação e distribuição, sujeitando-se os infratores à
responsabilização civil e criminal.

You might also like