You are on page 1of 8

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3

LEONARDO DIAS 1038391


Unidade 01 Dados Semiestruturados: XML, DTD e XML Schema
Dados estruturados so dados que possuem uma estrutura bem definida e rgida. Ex.: tuplas de uma relao em
um esquema relacional.
Dados no-estruturados so dados que no possuem alguma estrutura prvia. Ex.: imagem, vdeo, adio,
pginas no formato HTML, onde aparecem tags pr-definidas definidas que especificam apenas a formatao
dos dados e no o significado dos mesmos.
Dados semiestruturados so dados que possuem uma estrutura flexvel (no rgida). Ex.: dados bibliogrficos
oriundos de fontes heterogneas, arquivos BibTex, dados da Web.
Caractersticas de dados semiestruturados so:

Possuem estrutura (esquema) irregular, implcita e no declarada;

So heterogneos, envolvendo diferentes tipos;

So auto descritivos (self-described), j que o esquema misturado com os valores dos dados;

O esquema evolui com a evoluo dos dados.


Para representar dados semiestruturados, utilizam-se grafos direcionados.

Os ns internos representam objetos complexos (atributos compostos).

Os ns externos representam objetos atmicos (atributos simples).

As arestas possuem rtulos que representam:


o Nomes de atributos compostos e simples que referenciam os objetos complexos e atmicos,
respectivamente;
o Relacionamentos entre os objetos.
XML - eXtensible Markup Language
Padro para marcao de dados na Web, com foco na descrio do contedo
A XML um subconjunto da SGML1 (Standard Generalized Markup Language)

SGML Standard Generalized Markup Language


o Uma linguagem de marcao abrangente mas complexa
o Desenvolvida por Charles F. Goldfarb
o Adequada para aplicaes envolvendo documentos grandes e complexos
o Tornou-se um padro ISO (ISO 8879) na dcada de 80
W3C
rgo responsvel pela padronizao de iniciativas ligadas Web. Ex.: HTML, XML e iniciativas relacionadas,
entro outros.
Especificaes dessas iniciativas so classificadas de acordo com seu nvel de maturidade
HTML x XML

HTML descreve o formato do documento


o HTML tem um conjunto fixo de tags e no descreve contedo

XML descreve o contedo do documento


o Usurio define suas prprias tags para criar uma estrutura
o Um documento XML no tem nenhuma instruo para apresentao

A pesquisa na HTML feita de forma mais bruta; na XML, pode-se consultar pelo nome do marcador.

Na HTML, a visualizao fixada; na XML, um mesmo documento pode ser visualizado de forma
diferentes.
XML - vantagens em relao a HTML

A estrutura do documento XML permite que ferramentas baseadas em banco de dados possam
processar e consultar seu contedo.

A XML oferece facilidades tanto para os que definem o documento como para os recebem ou
trabalham com ele.

A XML tende a ser um padro permanente.

A XML possibilita troca de dados entre aplicativos, proporcionando maior interoperabilidade.


DTD Document Type Description

A DTD um documento tipo texto que contm as regras para a elaborao de um documento XML.

Define as regras de formao dos elementos e atributos

Quais os elementos que podem aparecer em um documento

Em que ordem eles podem aparecer

Qual a hierarquia permitida para os elementos

Quais os atributos que um elemento pode conter

Pode ser definido dentro ou fora do documento XML (Interno ou Externo).

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391

Documentos XML so formados, basicamente, por elementos e atributos.


Uma DTD suporta a definio desses dois conceitos assim como a relao existente entre os elementos
contidos nos documentos e os atributos referentes a esses elementos.
SIGNIFICADO
DECLARAO
ELEMENT

Declarao de um tipo de elemento XML

ATTLIST

Declarao dos atributos associados a um elemento especfico, assim


como dos valores possveis para esses atributos.

ENTITY

Utilizadas para associar nomes com outros fragmentos do documento.


Podem ser utilizadas entidades internas, ou externas.
A utilizao na forma de &nome.
Declarao para utilizao no processamento do documento XML.

NOTATION

Declarao de Elemento:
'<!ELEMENT' S Nome S Especificao de Contedo S? '>

S significa espao e Nome corresponde ao nome do elemento. Existem regras para um nome de
elemento.
Especificao de contedo.

EMPTY (Vazio): o elemento no possui nem texto nem elementos a ele associados.

MIXED (Misto): o elemento possui texto e elementos a ele associados.

ANY (Qualquer): o elemento pode conter qualquer combinao de elementos e texto.

CHILDREN (elementos filhos): o elemento composto de outros elementos e no possui texto a ele
associado. Refere-se a esses elementos como subelementos e os elementos que possuem subelementos
sero chamados de Grupo.

Cardinalidade dos elementos


? - No mximo uma ocorrncia, * - Nenhuma ou diversas ocorrncias e + - No mnimo uma
ocorrncia

A declarao <!ELEMENT a ( b | c )>, indica que o elemento a do tipo grupo (possui filhos) e que este
formado pelo elemento b ou pelo elemento c, mas nunca por ambos.

Smbolo "|" empregado para simbolizar elementos alternativos.


Declarao de Atributo:

Uma declarao de contedo de um elemento feita pela combinao de elementos, com ou sem
smbolos de cardinalidade e de opcionalidade, aninhados por meio de parnteses.

A ordem em que os elementos devem aparecer no documento XML uma restrio encontrada em
XML e representada na DTD pela vrgula (",") existente entre os elementos.

Unidade 02 Banco de Dados Distribudos


Banco de Dados distribudos uma coleo de base de dados logicamente inter-relacionadas, distribudas por
uma rede de computadores.
Banco de Dados distribudos (BDD)
Consiste num conjunto de locais (stios), cada um dos quais mantendo um sistema de Bancos de dados local, e
um sistema de gerenciamento de bancos de dados distribudo.
Cada local est apto a proceder transaes locais e globais:

Transao local: acessam dados em um nico local;

Transao global: acessam dados em diversos locais.


Os dois tipos de banco de dados distribudos existentes so os homogneos e os heterogneos. Os
homogneos so compostos pelos mesmos bancos de dados, enquanto os heterogneos so aqueles que so
compostos por mais de um tipo de banco de dados. Em um banco de dados distribudos os arquivos podem
estar replicados ou fragmentados, esses dois tipos podem ser encontrados ao longo dos ns do sistema de
banco de dados distribudos.
A arquitetura bsica composta de aplicaes locais e aplicaes globais. As locais so aplicaes que no
requerem dados de outros lugares, e as globais so aplicaes que requerem dados de outros lugares.
Vantagens de banco de dados distribudos
Compartilhamento de dados e controle distribudo: O administrador global, o responsvel pelo sistema como
um todo, mas parte das responsabilidades so distribudas aos administradores locais que gozam de certa
autonomia.
Maior confiabilidade: O sistema funciona conforme o projeto.
Maior disponibilidade: O sistema estar disponvel por uma maior escala de tempo, pois est distribudos em
locais diferentes.
Melhor desempenho no processamento de consultas: Sub-consultas podem ser executadas em paralelo.
Maior escalabilidade: mais fcil acrescentar um n, desde que os mesmos sejam autnomos, do que substituir

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
um sistema centralizado existente por um maior.
Desvantagens de banco de dados distribudos
Custo de desenvolvimento do software: A grande complexidade de implementao de um banco de dados
distribudo torna-o mais caro.
Grande potencial para bugs: Ocorrncia de erros muito sutis na colaborao entre os ns do banco de dados
distribudo.
Aumento do overhead de processamento: Esse fator ocorre devido troca de mensagens e computao
adicional para obter a coordenao entre os ns.
Questes de projeto especficas: Por exemplo, replicao e fragmentao de dados.
Dificuldades para obter conhecimento global: Por exemplo, controle de concorrncia entre transaes
distribudas e deteco de deadlock.
Tipos de sistemas de BDD
Centralizados: autonomia total, nenhuma distribuio e nenhuma heterogeneidade.
Sistemas de bancos de dados distribudos puros: nenhuma autonomia, alta distribuio, nenhuma
heterogeneidade.
Sistema de bancos de dados Federado: alta autonomia (menor que o multibancos), alta heterogeneidade, alta
distribuio.
Sistema multiBancos de bancos: alta autonomia, alta heterogeneidade, alta distribuio.
Fragmentao
Horizontal: A tabela subdividida em um conjunto de tabelas. Cada uma delas com parte das tuplas da tabela
originria.
Vertical: As colunas de uma tabela esto divididas em N tabelas. Id-tupla.
Mista: Fragmentao Horizontal + Vertical
Vantagens

Disponibilidade;

Paralelismo aumentado minimiza movimentao entre locais;

Maior disponibilidade, controle e acesso mais rpido;


Desvantagens

Overhead na atualizao.

Sobrecarga do sistema no gerenciamento de id-tuplas e juno de tabelas.


Controle de concorrncia em banco de dados distribudos
O controle de concorrncia procura sempre buscar um equilbrio adequado entre a manuteno da
consistncia e o alto nvel de concorrncia, mas problemas podem ocorrer na gerncia de cpias mltiplas,
falhas locais em ns, falha nas ligaes de comunicao, finalizao (commit) distribuda e o
bloqueio(deadlock) distribudo.
Conceito de replicao em banco de dados
Replicao de banco de dados um meio de se copiar de forma gerenciada os dados entre servidores de
banco de dados, que podem estar em rede local ou na internet. Segundo [Ikematu 2005], o objetivo de um
mecanismo de replicao de dados permitir a manuteno de vrias cpias idnticas de um mesmo dado
em vrios sistemas gerenciadores de banco de dados (SGBD).
Vantagens da replicao
Alto desempenho: reduo na transferncia de dados e acesso a menos dados (caso rplica seja parcial);
Alta disponibilidade: caso um dado requisitado esteja indisponvel em um servidor, o mesmo pode ser acessado
por sua rplica em outro servidor;
Consistncia de dados: elimina o problema de dados inconsistentes decorrentes da integrao tardia entre
sistemas.
Desvantagens da replicao
Transparncia: acesso a recursos replicados deve ser semelhante ao de recursos no replicados;
Inconsistncia: sincronizar as rplicas a atualizar os valores para convergirem.
Tipos de replicao
Replicao sncrona: as cpias dos dados so mantidas sincronizadas e consistentes. Se uma cpia atualizada
as mudanas sero imediatamente aplicadas para todas as outras bases de dados com a mesma transao.
Replicao assncrona: as cpias dos dados ficaro temporariamente dessincronizadas. Se uma cpia
atualizada, a mudana ser aplicada e propagada para as outras cpias num segundo passo, em uma
transao separada que ocorre posteriormente.
Estrutura de um BDD
Todo n possui um Gerenciador de Transaes (GT), igual no sgbd no centralizado, sendo que os vrios GTs
cooperam entre si para a execuo das transaes. Ele responsvel por:

Manuteno do log, j que gerencia a recuperao;

Participao em controles de concorrncia.


O Gerenciador de Transaes gerencia a execuo de transaes que fazem acesso a dados armazenados
em um s local, independentemente da transao ser local ou lobal.

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
O Coordenador de Transaes (CT) coordena a execuo de vrias transaes (locais e globais) iniciadas
naquele n.
O Coordenador de Transaes responsvel por:

Iniciar a execuo de uma transao

Distribuir a transao nos ns apropriados

Coordenar a concluso da transao, com commit ou abort


TWO-PHASE COMMIT (2PC)
Para toda transao Tn iniciada em um stio Sn, aps todos os stios da rede indicarem seu trmino, o
Coordenador de Transao (CT) enviar uma mensagem: prepare T. Se a resposta for positiva por parte de
todos os stios <ready>, o CT envia mensagem de <COMMIT>, caso contrrio, de <ABORT>.
Quando existe falha em um n durante o COMMIT, ao retornar da falha, o SGBD examina seu log verificando as
transaes que estavam em execuo quando a falha ocorreu.
Se no log ele encontra a mensagem de commit ou abort, elas so executadas imediatamente.
Gerncia de falhas no TWO-PHASE COMMIT
Falha no coordenador:

Os stios ativos precisam ter um registro <ready> mas nenhum <abort> ou <commit>. Com isso, ficam
aguardando o coordenador para o destino da transao.
THREE-PHASE COMMIT

Para toda transao Tn iniciada em um stio Sn, aps todos os stios da rede indicarem seu trmino, o
Coordenador de Transao (CT) enviar uma mensagem: prepare T.

Se o CT recebe uma mensagem de abort, ou se no recebe resposta em um intervalo de tempo


determinado, ele decide abortar T.

Se o CT recebe uma mensagem de OK, ele envia uma mensagem de pr-commit a todos os ns.

Depois que CT recebe a mensagem de conhecimento dos ns em relao ao pr-commit, ele envia a
mensagem de commit, caso contrrio, envia a de abort.

Se existir falhas em um n participante, ao retornar, ir ver em sua log a mensagem de commit ou abort.

Unidade 03 - Segurana e Persistncia de dados. SGBDOO e SGBDROO


Segurana em bancos de dados:
Confidencialidade: Garantia de que a informao acessvel somente por pessoas autorizadas a terem acesso;
Integridade: A informao alterada somente pelas pessoas autorizadas;
Disponibilidade: Garantia de que as pessoas autorizadas obtenham acesso informao e aos ativos
correspondentes sempre que necessrio.
Segurana de dados, e/ou em bancos de dados, envolve: Questes ticas, polticas, relativas s aplicaes e
polticas de acesso informao SGBDs controlam o acesso aos dados atravs do controle de acesso
discricionrio. Esse controle baseado no conceito de direitos de acesso ou privilgios e a maneira de
conceder estes privilgios aos usurios. Um privilgio permite que um usurio acesse o dado de certa maneira
(por exemplo, lendo ou escrevendo o dado).
Um usurio que cria um objeto automaticamente adquire todos os direitos sobre o mesmo. A partir de ento, o
banco de dados guarda todos os privilgios que so concedidos a outros usurios e desta forma, garante que
apenas os usurios autorizados possam acessar este objeto.
Em praticamente todos os bancos de dados, o controle de acesso discricionrio implementado atravs do uso
dos comandos GRANT e REVOKE.
O comando GRANT concede privilgios sobre os objetos do banco de dados (tabelas e vises, dentre outros) a
outros usurios enquanto que o comando REVOKE revoga os privilgios concedidos. Para um melhor
entendimento do mecanismo de acesso discricionrio, importante compreender a definio de privilgios,
objetos e usurios:

Usurios: so as pessoas que esto representadas por um nome de autorizao. Os usurios podem ser
classificados em grupos de acordo com um perfil ou nvel de autorizao. Um usurio que pertence a
um grupo, implicitamente, recebe os privilgios relacionados ao grupo que ele pertence;

Privilgio: define uma permisso individual associada a um nome autorizado, habilitando-o a acessar ou
modificar um recurso do banco de dados. Os privilgios tambm podem ser concedidos a grupos de
usurios;

Objetos: os usurios necessitam de privilgios para acessar os objetos guardados no banco de dados.
Os privilgios variam de acordo com a natureza do objeto. Por exemplo, uma tabela possui uma lista de
privilgios diferente das vises. So exemplos de objetos: tabelas, vises, ndices, triggers, entre outros.
SGBDOO

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
Sistemas de Gerenciamento de Banco de Dados Orientados a Objetos (SGBDOO) podem ser definidos como
um sistema de banco de dados capaz de armazenar, alm de dados convencionais, outros tipos diferentes de
dados que no podem ser convertidos somente em arquivos lineares ou bidimensionais como tabelas, mas, sim,
em um tipo especial de objeto.
Caractersticas

A principal caracterstica de um SGBDOO sua capacidade de modelar estruturas complexas


armazenando no somente a estrutura de dados, mas tambm seu comportamento.

O desenvolvimento dos SGBDOOs teve origem na combinao de ideias dos modelos de dados
tradicionais e de linguagens de programao orientada a objetos.
O conceito de objeto empregado em um SGBDOO no nvel lgico e possui caractersticas no encontradas
nas linguagens de programao tradicionais, como operadores de manipulao de estruturas, gerenciamento
de armazenamento, tratamento de integridade e persistncia dos dados.
Os modelos de dados orientados a objetos tm um papel importante nos SGBDs porque:

So mais adequados para o tratamento de objetos complexos (textos, grficos, imagens) e dinmicos
(programas, simulaes);

Esto em acordo com tendncias em linguagens de programao e engenharia de software.


Propriedades Fundamentais

Extensibilidade: garante que o conjunto de tipos oferecidos pelo sistema permita a definio de novos
tipos e no h distino entre os tipos pr-definidos e os definidos pelo usurio.

Completude Computacional: implica que a linguagem de manipulao de um banco de dados


orientado a objetos deve exprimir qualquer funo computacional.
A orientao a objetos corresponde organizao de sistemas como uma coleo de objetos que integram
estruturas de dados e comportamento (mtodos).
Modelos de Dados Orientados a Objetos
Superficialmente, pode-se dizer que orientao a objetos corresponde organizao de sistemas como uma
coleo de objetos que integram estruturas de dados e comportamento. Alm desta noo bsica, a
abordagem inclui um certo nmero de conceitos, princpios e mecanismos que a diferenciam das demais. Seus
principais conceitos so apresentados em seguida.
Abstrao
a considerao apenas das propriedades comuns de um conjunto de objetos, omitindo os detalhes, utilizada
com frequncia na definio de valores similares e na formao de um tipo a partir de outro, em diferentes
nveis de abstrao. O uso de abstraes permite a gerao de tipos baseada em hierarquias de tipos e de
relacionamentos.
Os principais conceitos de abstrao utilizados em banco de dados so generalizao e agregao. A
generalizao corresponde associao " um" onde, a partir de propriedades comuns de diferentes
entidades, criada uma outra entidade. O processo inverso a especializao. A agregao corresponde a
associao "parte de".
Objeto
Os objetos so abstraes de dados do mundo real, com uma interface de nomes de operaes e um estado
local que permanece oculto. As abstraes da representao e das operaes so ambas suportadas no
modelo de dados orientado a objetos, ou seja, so incorporadas as noes de estruturas de dados e de
comportamento.
Um objeto tem um estado interno descrito por atributos que podem apenas ser acessados ou modificados
atravs de operaes definidas pelo criador do objeto. Um objeto individual chamado de instncia ou
ocorrncia de objeto. A parte estrutural de um objeto (em banco de dados) similar noo de entidade no
modelo Entidade-Relacionamento.
Identidade de Objeto
Num modelo com identidade de objetos, estes tm existncia independente de seus valores correntes e dos
endereos de armazenamento fsico. A identidade do objeto geralmente gerada pelo sistema. A
impossibilidade de garantir a identificao de objetos exclusivamente atravs de suas propriedades estruturais e
comportamentais motivou a definio de identificadores nicos de objetos, que persistem no tempo de forma
independente ao estado interno do objeto.
A identidade de objetos elimina as anomalias de atualizao e de integridade referencial, uma vez que a
atualizao de um objeto ser automaticamente refletida nos objetos que o referenciam e que o identificador
de um objeto no tem seu valor alterado.
Objetos Complexos
Os objetos complexos so formados por construtores (conjuntos, listas, tuplas, registros, colees, arrays)
aplicados a objetos simples (inteiros, booleanos, strings). Nos modelos orientados a objetos, os construtores so
em geral ortogonais, isto , qualquer construtor pode ser aplicado a qualquer objeto. No modelo relacional este

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
no o caso, visto que s possvel aplicar o construtor de conjuntos s tuplas e o construtor de registro a
valores atmicos.
Encapsulamento
O encapsulamento possibilita a distino entre a especificao e a implementao das operaes de um
objeto, alm de prover a modularidade que permite uma melhor estruturao das aplicaes ditas complexas,
bem como a segurana dentro do sistema. Em banco de dados se diz que um objeto est encapsulado
quando o estado oculto ao usurio e o objeto pode ser consultado e modificado exclusivamente por meio
das operaes a ele associadas.
Tipo de Objetos
O tipo de objeto pode ser visto como a descrio ou especificao de objetos. Um tipo possui duas partes,
interface (visvel para o usurio do tipo) e implementao (visvel s para o usurio construtor do tipo).
Classes
Um conjunto de objetos que possui o mesmo tipo (atributos, relacionamentos, operaes) pode ser agrupado
para formar uma classe. A noo de classe associada ao tempo de execuo, podendo ser vista como uma
representao por extenso, enquanto que o tipo uma representao intencional. Cada classe tem um tipo
associado, o qual especifica a estrutura e o comportamento de seus objetos. Assim, a extenso da classe
denota o conjunto dos objetos atualmente existentes na classe e o tipo prov a estrutura destes objetos.
Herana
Herana um mecanismo que permite ao usurio definir tipos de forma incremental, por refinamento de outros
j existentes, permitindo composio de tipos em que as propriedades de um ou mais tipos so reutilizadas na
definio de um novo tipo. De fato, ela corresponde a transferncia de propriedades estruturais e de
comportamento de uma classe para suas subclasses.
As principais vantagens de herana so prover uma maior expressividade na modelagem dos dados, facilitar a
reusabilidade de objetos e definir classes por refinamento, podendo fatorar especificaes e implementaes
como na adaptao de mtodos gerais para casos particulares, redefinindo-os para estes, e simplificando a
evoluo e a reusabilidade de esquemas de banco de dados.
Tipos de Herana
Os dois tipos de herana, simples e mltipla, so descritos a seguir:
Herana Simples: Na herana simples um certo tipo pode ter apenas um supertipo, da mesma forma uma
subclasse s herda diretamente de uma nica classe. Podemos classificar esta herana em quatro subtipos: de
substituio, de incluso, de restrio e de especializao.
Herana Mltipla: Nesta herana um tipo pode ter supertipos e os mesmos refinamentos de herana simples. H
basicamente dois tipos de conflitos referentes herana mltipla: entre o tipo e o supertipo e entre mltiplos
supertipos. O primeiro pode ser resolvido dando-se prioridade definio presente no tipo, e no a no supertipo.
Com os conflitos entre mltiplos supertipos, como uma resoluo por default pode causar heranas no
desejadas, a abordagem mais segura baseada na requisio explcita da interveno do usurio.
Mtodos e Mensagens
Um mtodo, em relao a um objeto, corresponde ao comportamento dos objetos, implementando uma
operao associada a uma ou mais classes, de forma similar aos cdigos dos procedimentos usados em
linguagens de programao tradicionais, que manipula o objeto ou parte deste. Cada objeto tem um certo
nmero de operaes para ele definida. Para cada operao pode-se ter um ou mais mtodos de
implementao associados.
As mensagens so a forma mais usada para se ativar os mtodos. Num SGBDOO os objetos se comunicam e so
ativados atravs de mensagens enviadas entre eles.
Polimorfismo
Em sistemas polimrficos uma mesma operao pode se comportar de diferentes formas em classes distintas.
Como exemplo temos a operao print que ser implementada de forma diferente se o objeto correspondente
for um texto ou uma imagem: dependendo do objeto teremos um tipo de impresso. Tem-se tambm
polimorfismo quando ocorre a passagem de diferentes tios de objetos como parmetros enviados a outros
objetos

Unidade 04 - Sistemas de Gesto Empresarial


Informao

Informao: um dos pilares da revoluo que se opera no mundo


A informao possui papel estratgico nas organizaes:

Influncia na deciso

um fator de competitividade

Acelera lucros
Inteligncia competitiva: explora informaes detalhadas do mercado e dos concorrentes

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
"um processo tico de identificao, coleta, tratamento, anlise e disseminao da informao estratgica
para a organizao, viabilizando seu uso no processo decisrio. (GOMES e BRAGA, 2004)
Data Warehouse
um banco de dados contendo dados extrados do ambiente de produo da empresa, que foram
selecionados e depurados, tendo sido otimizados para processamento de consulta e no para processamento
de transaes. (CAMPOS, 1998)
Uma cpia dos dados de transaes, estruturada especificamente para consultas e anlises (KIMBALL, 1998)
um processo de integrao de dados corporativos em um nico repositrio a partir do qual os usurios finais
podem facilmente executar consultas, gerar relatrios e fazer anlises (SINGH, 2001)
Caractersticas

Viso conceitual multidimensional.

Dimensionalidade genrica

Dimenses e nveis de agregao ilimitados.

Operaes irrestritas entre dimenses.

Tratamento dinmico de matriz esparsa.

Arquitetura cliente-servidor

Suporte para mltiplos usurios

Acessibilidade.

Transparncia

Manipulao de dados intuitiva.

Desempenho de relatrio consistente.

Recurso de relatrio flexvel.


Data Warehouse e os metadados

O perodo de desenvolvimento de aplicaes em uma organizao pode levar a termos dados


inconsistentes ou redundantes

O papel da Administrao de Dados

Os metadados constituem-se no principal recurso para a administrao de dados no ambiente Data


warehouse assumem importncia maior

Metadados: dados sobre os dados. uma abstrao dos dados.

Equivalem a dados de nvel mais alto que descrevem os dados existentes em nvel inferior

Metadados do significncia aos dados

So exemplos de metadados as descries de registros em um programa de aplicao ou o esquema


de um banco de dados descrito em seu catlogo ou ainda as informaes contidas em um dicionrio
de dados

Os metadados apoiam desenvolvedores de aplicao e os administradores do banco de dados.

Os usurios de bancos de dados operacionais interagem com o sistema atravs de interfaces prconstrudas e no conhecem os processos de manuteno de dados em sistemas gerenciadores de
bancos de dados.
Os metadados em um data warehouse podem ser divididos em trs camadas:

Metadados operacionais (nvel das aplicaes): definem a estrutura dos dados mantidos pelos bancos
operacionais, usados pelas aplicaes de produo da empresa (CAMPOS e ROCHA, 1997);

Metadados centrais do data warehouse: mantidos no catlogo do data warehouse. So orientados por
assunto e dizem respeito a como os dados transformados devem ser interpretados. Incluem definies
de agregados e campos calculados, assim como vises sobre cruzamentos de assuntos;

Metadados do nvel do usurio: mapeiam os metadados do data warehouse para conceitos que sejam
familiares, adequados e de fcil compreenso para os usurios finais.
Metadados associados podem ser classificados segundo classes de componentes

Mapeamento: descrevem as transformaes de dados operacionais at chegarem ao data warehouse.


Incluem identificao de campos fontes, mapeamentos entre atributos, converses, codificaes,
defaults, etc.;

Histrico: mantm o histrico das regras do negcio e de suas mudanas, pois as regras certas devem
ser aplicadas aos dados certos ao se considerarem evolues ao longo do tempo;

Miscelnea: sinnimos (alis), informao de status sobre estgios de desenvolvimento de partes do


data warehouse, sobre volume dos dados (para estimativas de tempo e recursos);

Algoritmos de sumarizao: mostram a relao entre os diferentes nveis de detalhe dos dados,
indicando inclusive o nvel de sumarizao mais adequado para um dado objetivo;

Padres de acesso: mantm informaes sobre frequncia e tipo de acesso aos dados.
Tipos de Linguagem

ENGENHARIA DE SOFTWARE - TECNOLOGIA DE BANCOS DE DADOS - ATIVIDADE ABERTA 3


LEONARDO DIAS 1038391
OLTP (online transaction processing processamento de transaes) bancos de dados tradicionais: consultas
simples, manuteno do banco de dados atualizado e consistente.
OLAP (online analytical processing processamento analtico) grandes volumes de dados, manuteno
delegada a processos locais e distribudos, consultas complexas.
OLAP
Tecnologia que processa os dados de um DW em estruturas multidimensionais fornecendo respostas rpidas
para consultas analticas complexas
Software que auxilia analistas de negcio a avaliar o que bom e o que mau no desempenho dos
negcios. Erik Thomsen, OLAP Solutions
OLAP X SQL
SQL tradicional inadequado para consultas envolvendo sries histricas
Consultas complexas contendo muitos AND e especialmente muitos OR na clusula WHERE tendem a ser
ineficientes
Clculos e anlises estatsticas no fazem parte de SQL convencional
Consultas temporais tm pouco suporte especfico em SQL convencional
Frequentemente so efetuadas muitas consultas correlacionadas. A OLTP no d oportunidade de otimizar
conjuntamente um grupo de consultas
Gro e Granularidade
GRANULARIDADE: se refere ao nvel de detalhes em que a unidade de dados so mantidas no data warehouse
GRO: o significado de uma linha em uma tabela de fatos
Minerao de Dados
um processo de explorao de grandes quantidades de dados procura de padres ou seja a descoberta
de novas informaes em termos de padres ou regras com base em grandes quantidades de dados
Regras de associao: associao de um dado a outro dado, ou um de comportamento a outro
comportamento. Em termos de informao, quando temos uma informao atrelada a outra. Exemplos:
Sempre que um cliente compra cerveja, tambm compra salgadinhos. Sempre que um cliente quer saber o
preo de computadores, tambm quer saber o preo de impressoras.
Padres Sequenciais: quando uma informao requerida depois de um determinado tempo que outro
dado foi pesquisado Exemplos: quem compra passagem area, logo a seguir ou em poucos dias, busca por
hotis.
rvores de classificao: so representaes simples do conhecimento, que constituem um meio eficiente de
construir indicadores ou classificadores que predizem ou revelam classes ou informaes teis baseadas nos
valores de atributos de um conjunto de dados. uma forma de se obter informao a partir de dados
estatsticos Exemplos: frequncia de visita de um cliente a uma loja, frequncia de compra, valor mdio de
vendas de um empregado
Aplicaes de Minerao de Dados

Predio no mercado financeiro

Diagnstico de falhas em linhas de produo

Descobertas mdicas

Deteco de fraudes

Anlise de tendncias de compra

Marketing direcionado