You are on page 1of 12

SAD – Sistemas de Apoio à Decisão

Projeto Físico DW e ETL Profa.: Ellen Souza

UFRPE

1 Universidade Federal Rural de Pernambuco Unidade Acadêmica de Serra Talhada

Projeto Físico do DW
Vários aspectos relacionados ao projeto físico de BDs deverão ser considerados para garantir performance no acesso às estruturas relacionais ou dimensionais:
Estimativa de Tamanho do DW/DM Criação do Data Base Criação de Espaços e Tabelas Criação das Tabelas Definição de Campos Chaves e Restrições Definição de Índices e Estruturas especiais para acesso aos DW/DM
2/23

1

Estimativa de Tamanho Tabelas Fatos Supor 5 transações de cliente dia.250. Quatro métricas.4 GB = 8.250. cada qual com 4 bytes. 15.4 GB Total = 7. Logo. cada qual com 4 bytes.000 ocorrências Supor 7 chaves na tabela Fato. ocupa 44 bytes Estimativa Final = 164.000 clientes e perspectiva de armazenamento para 6 anos 5 x 15.000 x 365 x 6 = 164.000 x 44 bytes = 7. uma vez que estes deixam certo percentual de espaço reservado para estruturas internas de controle 4/23 2 .2 GB + 1. para ter idéia do valor líquido de bytes de cada bloco. maior será a capacidade de armazenamento de estruturas recuperadas num única operação de input/output (I/O) Avaliar o overhead de cada bloco. cada linha da tabela Fato.2 GB Tabelas Dimensão e Índices Média de 20 a 25% do tamanho da Fato = 1.6GB Lembrar de Estimar as Tabelas Agregadas!! 3/23 Criação do Banco de Dados Pontos importantes a considerar na definição de BDs para DW/DM são: Analisar o valor default do bloco usado pelo SGBD para o armazenamento dos dados Quanto maior for o tamanho dos blocos.

devem ficar em espaços físicos separados Avaliar a possibilidade de distribuir os dados em unidades independentes de armazenamento com o propósito de explorar o processamento paralelo oferecido por alguns SGBDs Adotar estratégia de particionamento para DWs: Horizontal: Divisão de tabelas com muitos campos Vertical: Divisão de tabelas em segmentos (range) Data: Comum em DW/DM é a separação por Tempo 5/23 Criação das Tabelas Algumas considerações para a criação de tabelas para DW/DM Atentar para o tamanho limite (em bytes) de linhas e colunas do SGBD Atentar para a definição default de valores nulos para campos. Considerações: Dados e Índices. ou seja. evitando a sua definição (nulo) em campos de tabela Fato Lembrar do conceito de Surrogate Key (chave artificial). campo chave sem valor semântico específico 6/23 3 . se possível.Criação de Espaços e Tabelas As tabelas e índices que compõem um BD habitam um espaço lógico denominado Espaço de Tabela ou Table Space.

clusterizados e etc. 7/23 Definição de Campos Chaves e Restrições Esquema de chaves e índices de Tabelas Dimensão e Fato 8/23 4 . Isso criará um índice automático Considere a definição de restrição de chave estrangeira (FK) de fato com a chave primária (PK) de cada dimensão. incluindo todas as chaves estrangeiras das Dimensões Definir índices separados para cada FK da Fato Índices bit map.Definição de Campos Chaves e Restrições A principal definição de restrição é para as chaves primária e estrangeiras Defina chave primária (PK) para cada tabela Dimensão. B-tree. Snowflake também precisa de restrições Definir PK para tabela Fato.

paralelismo. quanto as estruturas agregadas são armazenadas nesse formato 10/23 5 . otimizadores e monitoração encontrados nos SGBDR. com características de armazenamentos especiais e ferramentas para tratamento dimensional de dados Dispõem de propriedades especiais de armazenamento como matrizes. operações com array e indexação de bitmap Não oferece recursos de debug. otimizadores. vista que a especialidade é para análise multidimensional Tanto as estruturas básicas (maior granularidade). monitoração e etc. onde o excesso de tabelas normalizadas podem comprometer a performance das buscas Esquema estrele e floco de neve 9/23 Opções de Armazenamento MOLAP: são usado gerenciadores de BDs proprietários. paralelismo. log.Opções de Armazenamento A estratégia de armazenamento do DW/DM permite as seguintes opções: ROLAP: são usados os próprios SGBDs relacionais. Exige cuidado no projeto. com as tabelas sendo implementadas com estruturas relacionais clássicas Oferece todas as vantagens de um SGBDR como debug.

um misto das estratégias ROLAP e MOLAP As estruturas relacionais são normalmente utilizadas para os dados de maior granularidade As estruturas dimensionais nativas são dedicadas ao armazenamento de agregados (menor grão) DOLAP: representa uma abordagem entre estruturas dimensionais ou relacionais. minimizando o tráfego de informações entre o ambiente cliente e o ambiente servidor 11/23 Opções de Armazenamento Opções de armazenamento/ implementação de estruturas dimensionais 12/23 6 .Opções de Armazenamento HOLAP: representa uma abordagem hibrida. transferidas do DW/DM para as estações cliente São armazenadas com o objetivo de facilitar a performance de certas análises.

Os dados precisam ser extraídos de fontes múltiplas. 2.: BDs. do inglês Extract Transform Load (Extração. heterogêneas. A transformação pode ser uma limpeza dos dados. com trimestres fiscais que terminam em datas diferentes. dados do ambiente e etc.Processo de ETL ETL.: empresas subsidiárias de uma corporação podem calendários fiscais diferentes. mercado financeiro. é o processo de extrair dados de um sistema (um banco de dados). transformá-los de alguma forma e inseri-los em outro banco de dados especial. Ex. Em português. 13/23 Processo de ETL A aquisição de dados par o DW envolve os seguintes passos: 1. podemos encontrar a sigla ETC no lugar de ETL. Transformação e Carga). tradução etc. alteração de acordo com regras de negócios. arquivos textos (flat files). tornando difícil agregar os dados financeiros por trimestre 14/23 7 . o Data warehouse (DW). Ex. Os dados precisam ser formatados visando à consistência dentro do DW.

: Os dados das tabelas Produto e Fornecedor. Ex. João Pessoa. Ex. serão agrupados na dimensão Produto. Ex. Os dados precisam ser limpos para assegurar a validade. será divido em dois campo na tabela Dimensão Cliente: PrimeiroNome. ER. ÚltimoNome. Os dados precisam ser ajustados ao modelo de dados do DW.Processo de ETL A aquisição de dados par o DW envolve os seguintes passos: 3. rede. que també contém informação de Fornecedores 16/23 8 . hierárquico para um modelo multidimensional.: O campo Nome da tabela Cliente. João Pessoa – PB Esse processo é também chamado de backflushing 15/23 Processo de ETL A aquisição de dados par o DW envolve os seguintes passos: 4. Os dados precisam ser convertidos de modelo OO.: uma mesma cidade pode aparecer com diversos nomes Joao Pessoa. A limpeza é um processo complicado e complexo que tem sido identificado como o componente com maior exigência de trabalho na construção do DW.

analisando estratégias de mapeamento entre os dados fonte e o DW/DM Planeje o processo de transformação dos dados. tabelas de mapeamento de código e etc. O volume dos dados torna a carga uma tarefa significativa. arquivos intermediários. Alguns processos de transformação são: Filtro: somente valores especificados serão considerados 18/23 9 . Ferramentas de monitoração de carga. atentando para a sequência dos processamentos. Os dados precisam ser carregados no DW.Processo de ETL A aquisição de dados para o DW envolve os seguintes passos: 5. bem como métodos de recuperação de cargas incompletas ou incorretas Atualização Incremental x Carga Total Quão atualizados os dados devem estar? O DW pode ficar fora de serviço por quanto tempo? Quais os requisitos de distribuição (replicação partição? Qual o tempo de carga? e 17/23 Processo de ETL Considerações sobre a carga das Tabelas: Planeje cuidadosamente a carga dos DW/DM.

formatos. BCP (SQL Server) Quando um certo volume de dados é atingido.Processo de ETL Considerações sobre a carga das Tabelas: Integração: quando o mesmo dado se origina de fontes diversas Condensação: redução e sumarização (modificação de granularidade).: 1. Neste momento recursos para realização de atualização incremental devem estar disponíveis 20/23 10 . como legado e cliente/servidor Considere a possibilidade de usar utilitários de carga oferecidos pelos SGBDs ou ferramentas específicas SQL*Loader (Oracle). ano Conversão: tipos. Ex. bom Derivação: dados obtidos por cálculos no processo de transformação 19/23 Processo de ETL Considerações sobre a carga das Tabelas: Considere os processos de transferência entre ambientes operacionais diferentes. unidades. obscurecimento (efeito de segurança).: data (ddmmaaaa) em três unidades separadas: dia. mês. Ex. 2. fica impraticável a carga total. 3 para ruim. médio.

Processo de ETL Considerações sobre a carga das Tabelas: Considere a possibilidade eliminar (drop) os índices antes de efetuar as cargas e recriá-los posteriormente 21/23 Projeto Construir o projeto físico do DW para os modelos dimensionais do projeto final da disciplina Coluna A. tamanho 4 bytes 22/23 11 .

Referências Leitura Obrigatória Capítulo 7 . 2001. 2005.. Leitura Sugerida Capítulo 28 .Visão geral de data warehousing e OLAP. Elmasri. Sistemas de Bancos de Dados. Axcel Books. R.Barbieri. 23/23 12 . BI – Business Intelligence. Carlos. Addison Wesley.