Processos e Ferramentas
Os processos de um Data Warehouse consistem na extracao dos dados dos
sistemas operacionais, na organizacao e integracdo desses dados de forma consis-
tente para 0 Data Warehouse e no acesso aos dados para consultas, integrados de
forma simples, facil eficiente e flexivel.
A extragio, organizacdo e integracdo dos dados devem ser realizadas com 0
propésito de garantir a consisténcia e integridade das informagdes, construindo
desta forma uma base de dados de alta qualidade e confiabilidade, que retrate
efetivamente a realidade de negécios da empresa.
Normalmente, faz-se necessério o desenvolvimento de sistemas ou avaliacao
de ferramentas para extracao de dados e atualizacao do Data Warehouse.
Esses sistemas/aplicacdes sio responsaveis pela filtragem, limpeza, sumari-
zagdo e concentracao dos dados espalhados pelas fontes externas e nos sistemas
‘operativos. Em sua maioria essas ferramentas possuem interfaces graficas e intera-
tivas que facilitam a realizacao do mapeamento de dados e a automacao do processo
de extracao, limpeza e carga, fortemente baseadas no conhecimento de linguagem
SQL, possuindo funcdes predeterminadas para sua utilizagao.
Sua elaboracao requer, dos analistas envolvidos, um razoavel conhecimento
tanto das bases de dados das quais as informacdes serao extraidas como da base na
qual serao armazenadas. Diriamos que o conhecimento necessario consiste no acesso
aos catdlogos dos bancos de dados mapeados como fontes de informagio, assim
como pleno dominio dos metadados do modelo multidimensional do Data Warehouse
ou Data Mart,
No DW, as ferramentas devem permitir um acesso intuitivo aos dados, possibi-
litando a andlise daqueles mais significativos.
0 sucesso de um DW pode depender da disponibitidade da ferramenta certa
para as necessidades de seus usurios. Para garantir essa flexibilidade, normalmente
so empregados:
= Ferramentas para pesquisa e relatérios: sao simples e oferecem uma
interface grafica para a geracao de relatérios e andlise de dados histé-
ricos. Também permitem avaliar "o que aconteceu’.
Proceso Feramentas 35Ferramentas do tipo "On-Line Analytical Processing" - OLAP: permitem
a0 usuario analisar 0 porqué dos resultados obtidos. Atualmente existe
disponivel no mercado uma variedade dessas ferramentas com diferentes
abordagens. Vamos dedicar atencao especial mais adiante aos processos
OLAP, buscando apresentar uma definicdo simples de facil entendimento,
até porque a expanséo da expresso OLAP para "On-Line Analytical
Processing" nao significa muita coisa. Observe:
= ROLAP (OLAP Relacional): ferramentas OLAP que acessam bancos de
dados relacionais.
= MOLAP (OLAP Multidimensional): ferramentas OLAP que acessam ban-
cos de dados multidimensionais por meio de cubos e hipercubos.
- HOLAP (OLAP Hibrida): ferramentas OLAP que permitem acesso tanto
‘a0s bancos de dados relacionais como aos multidimensionais
= DOLAP (OLAP Desktop): ferramentas OLAP voltadas para computadores
pessoais. Esse tipo de ferramenta vem sendo mais empregado nos
bancos de dados individuais para analises mais especificas do que as,
realizadas no DM. 0s dados, normalmente, sdo carregados a partir de
DM.
Sistemas de informagées executivas: apresentam uma visualizacdo mais
simplificada dos dados. As informacoes sdo apresentadas de forma conso-
lidada, ndo requerendo do usuério experiéncia e tempo para executar uma
analise, como é 0 caso das ferramentas OLAP.
Tecnologia Pojeto de Data WarehouseData Mining: & uma categoria de ferramentas de andlise denominada
open-end. Petmite ao usuario avaliar tendéncias e padrées nao conhecidos
entre os dados. Esse tipo de ferramenta utiliza-se das mais modernas
técnicas de computagio, como redes neurais, algoritmos genéricos e
\6gica nebulosa.
Os Dados
Nesse ambiente os dados podem ser armazenados em diferentes niveis de
agregaco, como: dados detalhados, configurando o nivel operacional; dados leve-
mente sumarizados e dados altamente sumarizados.
0s dados encontram-se em reposit6rios que constituem uma das maiores
preocupacdes desse ambiente. 0 emprego ou no de qualquer dos repositérios
apresentados a seguir depende, exclusivamente, da arquitetura a ser adotada pela
empresa, entre as que apresentaremos em capitulo a seguir. 0 DW pode apresentar os
seguintes repositérios de dados:
Operational Data Storage ou Staging Area (ODS)
Representa um armazenamento intermedidrio dos dados, facilitando a integra-
‘¢20 dos dados do ambiente operativo antes da sua atualizagéo no Data Warehouse.
Em sua proposta original, 0 ODS era um reposit6rio temporario, que armaze-
hava apenas as informacdes correntes, antes de serem carregadas para o DW, algo
como uma cépia dos ambientes de sistemas transacionais existentes na empresa.
Atualmente, alguns autores passaram a denomin-lo Armazenamento Dindmico
de Dados - Dynamic Data Storage - DDS. Esta nova concepcio difere da original
‘quanto a periodicidade de armazenamento, Ao contrario do ODS original, ele no
armazena dados apenas para a carga do DW.
0 DDS nao é volatil, seus dados sdo armazenados ao longo do tempo e sofre
alteracdes incrementais, desta forma com 0 decorrer do tempo pode se tornar 0 Data
Warehouse.
0 design do caminho fisico que os dados irdo percorrer, dos bancos de dados
de sistemas transacionais até chegarem a0 Data Warehouse, pode variar de muito
simples a muito complexo. Em um ambiente onde existem muitas fontes hetero-
géneas e um nico Data Mart, introduzir uma staging area intermediaria (também
chamada de Operational Data Store) pode adicionar alum valor, entretanto, com 0
aumento da complexidade, envolvendo varios tipos de bancos de dados, ou plata-
formas diferentes para diversas fontes de dados, a necessidade de utilizacdo de uma
staging area para integrar todos os tipos de dados em um Gnico formato toma-se
extremamente mandat6ria e critica.
Proceso ¢FeramentasSistemas
legacos
= Projto
—Mapeamento
i — Extracto
Fontes = Ceaning
enternas —Transtormagio MolopRolp
= Distbigso
0 crescimento do Data Warehouse com a incluso de novos Data Marts e a
utilizagao de staging area fica otimizado e garante a integragao das informacoes,
pois possibilita a existencia de fonte Gnica e sincronizada de dados, eliminando-se a
possibilidade de termos resultados de informacGes similares e com valores diferentes
em nosso Data Warehouse.
A abordagem incremental na construgdo de um Data Warehouse permite
também o crescimento do nimero de assuntos de um Data Mart com a utilizacéo de
integracao das tabelas comuns a assuntos inseridos no DW.
Essa implementacdo permite que a mesma tabela exista em instancias dife-
rentes de banco de dados, entretanto seu processo de extracao é tinico em relacio a
posigao de seus dados no tempo, eliminando-se a possibilidade de existéncia de
informagdes diferentes de uma mesma tabela, captada em momentos diferentes.
Por exemplo, os dados de vendas podem estar disponiveis para extracdo ape-
nas entre 1:00 a.m. e 2:00 a.m. (0 processamento das vendas € terminado e os
dados estdo em um estado estavel e sincronizado), enquanto os dados financeiros
estdo dispontveis apenas entre 4:00 a.m. e 5:00 a.m,
Uma staging area permitira ao administrador do Data Warehouse extrair os da-
dos no momento em que esto disponiveis e posteriormente integra-los. Isso facilita
as extragdes dos sistemas operacionais durante periodos fora de pico de operacies.
Por outro lado salientamos que a utilizago de uma staging area permite que 0
processo de conversao dos dados seja separado do processo de transformacao.
38 Tecnologia eProjeto de Data WarehouseDados
Sistema ssncronizados
de vencas
~Estragto
Sistema
0 ODS pode servir de base para anélises do ambiente operativo, pois sua
granularidade é normalmente compativel com os sistemas desse ambiente.
Sua funcao nao é sumarizar dados, mas agilizar 0 processo de consolidagao,
proporcionando um melhor desempenho na fase da atualizacao dos dados..
A staging area € 0 Gnico lugar para determinar os valores que vém efetiva-
mente dos sistemas legados. 0 administrador do Data Warehouse tem a oportunidade
de investigar a staging area para determinacao de onde ocorreram erros.
A staging area pode e deve ser usada para “timpar" dados “sujos” que entram
no processo de extragdo e transformagao, pois quanto mais cedo os dados forem
limpos menor é a chance de termos erros..
0 ODS nao & um componente indispensdvel em um Data Warehouse, cuja
criagio é uma deciséo de projeto. Por combinar a tecnologia de OW com os sistemas
operacionais tradicionais (OLTP), permite analises e apoio a tomada de decisies que
requeiram respostas em tempo real.
‘As empresas que optam por sua utiliza¢do normalmente empregam infor-
magées similares em diversos sistemas operacionais,
Essa dispersdo de informacdes requer um primeiro tratamento, que consiste na
consolidagdo dos dados antes de sua integragao no DW.
A figura seguinte apresenta um exemplo de aplicacdo de ODS em sistemas
bancarios. No exemplo, observa-se a existéncia do cliente Joao em trés sistemas
diferentes. As informagdes do cliente Jodo referentes aos trés sistemas sao inte-
gradas no ODS antes de serem transportadas para o DW.a @- x \
Sistema
SB. =» /
Jdoto + Inf conta-corente
Sistema + Inf, apicacbes
a + Inf poupanca
No proceso de Data Warehousing, a staging area & composta da aplicacao do
servidor de dados e os dados armazenados resultantes de extracio, transformacdo
carga.
Database
vegaco atabose
Erracto.
vranstormagao
Temos de considerar dois cenérios distintos de utitizago da staging area.
Em um primeiro cendrio os dados esto todos disponiveis em um ambiente
OLTP atual e em produgao com as mesmas caracteristicas operacionais da staging
area. Nesse cenério temos 0 seguinte fluxo:
40 Tecnologie Projet de Data Warehouse‘Transforma e move
ee staging
No segundo cenario devemos considerar a existéncia de ambientes hetero-
géneos e com dados em um mainframe, por exemplo.
Neste caso nao podemos trazer os dados no formato original para um banco de
dados relacional na staging area, e sim realizar um processo de extragao e conversio
dos dados do mainframe em flat files (arquivos sequenciais).
Esse fato provoca que tenhamos 0 processo de ETL com um elemento a mais,
um estagio do proceso como um todo no ambiente mainframe, que & a exportacdo
dos dados em um formato fiat file para envio e processamento entao pelo server da
staging area.
Deve-se considerar que se existiu um processo que gerou flat files, ele teve
como caminho uma ou duas tabelas de dados no ambiente mainframe, o que indica
que talvez seja possfvel carregar um database na staging area para esses dados serem
processados e transformados.
Entretanto, devemos considerar que os dados constantes nos flat files podem
no ser todos os que existiam na tabela origem. Neste caso carregamos e criamos
uma estrutura ER especifica com os dados levados para a staging area, de acordo com
a definicao para cada um constante da definicdo do mapeamento de dados.
Frat ie Fat ie
A complexidade existente no projeto da staging area decorre, além das
arquiteturas, da escolha da forma como os dados devem ser transferidos para ela.
Podemos ter trés alternativas:
Frocesos«FeramentasOs arquivos so gerados na origem como sequenciais e caregados na
staging area como flat files para tratamento de transformacao nesse for-
mato, gerando-se conjuntos de arquivos sequenciais que serao utilizados
para load do banco de dados do Data Mart.
= A segunda alternativa a ser analisada é utilizar esses flat files, se refle-
tirem exportacdo de tabelas, como elementos de carga de um modelo de
dados ER equivalente a aplicacéo origem, que seré carregado com todos
esses dados de tabelas, criando-se desta forma um ODS (Operational Data
Stage) 0 qual entao softeré os processos de extracdo, transformacdo e
posterior carga nos Data Marts. Essa opcio faz com que nossa staging area
seja totalmente relacional e devem ser considerados os tamanhos nao
somente dos flat files transferidos, mas das tabelas completas, pois nessa
situagao serdo transferidas informacdes que nao interessam nem serdo
utilizadas no projeto em si
= A terceira alternativa a ser analisada no projeto da arquitetura é quando
temos ambientes similares de database tanto na producao dos sistemas
quanto na staging area. Neste caso podemos nos utilizar de fiat files para
up load de c6pias das tabelas do ambiente legado no database da staging
area. Outra alternativa € a utilizacdo de backup e restore de banco de
dados para a geragio de dados na staging area.
Uma vez definida a arquitetura que vamos utilizar, dependendo do ambiente
do cliente, devemos considerar para a arquitetura que a recuperacdo de dados
historicos residentes em meio magnético de backup para periodos anteriores ao de
producéo deverd seguir os mesmos critérios para a sua inser¢do na staging area,
quando da primeira carga inicial historica do Data Mart.
Upload DataBase
Fiat Fie DataBase
Objetivo da Area Staging
Criar um ambiente intermediério de armazenamento e processamento dos
dados oriundos de aplicacdes OLTP e outras fontes, para 0 processo de extragao
transformagao e carga (ETL), possibilitando o seu tratamento, e permitindo sua pos-
terior integragao em formato e no tempo, evitando problemas apés a criagao do Data
Warehouse e a concorréncia com o ambiente transacional no consumo de recursos.
42 Tecnologia ¢ Projet de Data WarehouseMetodologia
Como qualquer outro projeto, a criagéo do ambiente intermediario (staging
area) necesita de um planejamento bem estruturado e bem documentado. Esse
planejamento deve permitir a andlise de altemativas de arquiteturas de sua imple-
mentacéo, garantir 0 caminho a seguir e 0 comprimento das fases para atingir 0
objetivo
Data Warehouse (DW)
Ea espinha dorsal desse ambiente.
Ele representa uma grande base de dados capaz de integrar, de forma concisa
confiavel, as informacdes de interesse para a empresa, que se encontram espa-
thadas pelos sistemas operacionais e em fontes externas, para posterior utitizacdo
nos sistemas de apoio & decisao.
Como mostra a figura seguinte, € importante entendermos que o Data
Warehouse & um armazém de dados histéricos, cuja finalidade & apresentar as infor-
mages que permitam identificar indicadores, evolucdo de valores ao longo de uma
grande janela de tempo.
E comum encontrarmos erros de projeto em que as necessidades levantadas
para 0 projeto do DW consideram informacies sobre o més corrente ou periodo atual,
como, por exemplo, a avaliacao dos dados referentes a uma campanha de vendas
atual.
Seria de enorme desperdicio de investimento realizarmos um Data Warehouse
‘0 volatil e para um periodo de tempo tao curto.
ssa fungdo deve ser exercida por aplicacéo especifica de ambiente transa-
cional. € gerencial sim, mas nem tudo que € gerencial deve estar em um Data
Warehouse, somente as informagdes em cardter histérico e estatistico.
Esse fato decorre da auséncia significativa de aplicacées gerenciais sobre
ambientes transacionais, sinteses acumuladas sobre as operacdes em um deter-
minado periodo.
Um Data Warehouse tem normalmente informagdes sobre assuntos de negocio
da empresa por um periodo histérico de no minimo trés anos, podendo em alguns
casos chegar até os primeiros anos de informacao, pois seu objetivo é determinar
padres de comportamento, indicadores de crescimento por tempo etc.
frocessas eFerramentasAmbiente
‘wansaconal
cientes
‘Andlise de comportament captadas
Tendencias ‘Acompanhamento
(Cresciment - ndleadores de negéco Cee
Data Mart (DM)
Representa um subconjunto de dados do DW.
Permite acesso descentralizado e atualmente serve de fonte para os dados que
compordo os bancos de dados individuais.
Qs dados do DM so direcionados a um departamento ou uma area especifica
de processos do negécio,
0 OM, normalmente, é modelado em um esquema estrela de acordo com as
necessidades especificas do usuario final.
Uma das principais vantagens de seu emprego € a possibilidade de retorno
rapido, garantindo um maior envolvimento do usuario final, capaz de avaliar os
beneficios extraidos de seu investimento.
Lesa
Tecnologia eProjeto de Data WarehouseBD Individuais ou Cubos
Esses bancos de dados permitem ao usuério armazenar,
em cardter temporério, apenas os dados de seu interesse,
reduzindo 0 escopo da informagao e acelerando seu proces-
samento. Normalmente representam um subconjunto do OM.
ssa modalidade vem merecendo destaque gracas ao
desenvolvimento de ferramentas OLAP para desktop (DOLAP).
Esses bancos de dados normalmente séo multidimensionais, ou seja, cubos de
dados para analise rapida, que trataremos em capitulo a parte neste livro.
Possuem estrutura de informaao propria, possibilitando ao usuario a criago
de novos bancos e novas anilises ad hoc.
0 Processo de Data Warehousing
De uma forma geral, a arquitetura do DW ainda esta em evolucao.
oe ata Mars
ssa evolugio pode ser considerada uma resposta a crescente complexidade
desse ambiente e as dificuldades de integracdo entre todos os componentes.
Os desenvolvedores desse ambiente devem se preocupar em integrar o DW as
diversas fontes heterogéneas e externas, os Data Marts, ODS, aplicacdes servidoras,
Web e Data Mining, entre outros tipos de ferramentas disponiveis.
ProcessoseFerramentasAs arquiteturas disponiveis dependem do tipo de utilizacdo, recursos, entre
outros fatores, assim como abordagem de implementagéo de uma arquitetura
Variagdes dessas arquiteturas estdo sendo avaliadas, porém uma arquitetura
nao inviabiliza a outra.
Entretanto, a variedade de opcdes requer uma andlise mais apurada do
problema, para avaliar a arquitetura mais adequada a empresa,
|
|
| A escolha da arquitetura e sua implementacao sdo fatores importantes na
| selegao da tecnologia apropriada para o desenvolvimento e a implantacao desse
| ambiente.
‘Atualmente, considera-se que os problemas do DW estdo mais relacionados
com a utilizacdo e implementacdo de uma arquitetura, com a metodologia de desen-
volvimento, com a administracao dos metadados do que com a tecnologia disponivel
para tudo.
46
Tecnologia ¢Projeto de Data Warchouse