You are on page 1of 12
Processos e Ferramentas Os processos de um Data Warehouse consistem na extracao dos dados dos sistemas operacionais, na organizacao e integracdo desses dados de forma consis- tente para 0 Data Warehouse e no acesso aos dados para consultas, integrados de forma simples, facil eficiente e flexivel. A extragio, organizacdo e integracdo dos dados devem ser realizadas com 0 propésito de garantir a consisténcia e integridade das informagdes, construindo desta forma uma base de dados de alta qualidade e confiabilidade, que retrate efetivamente a realidade de negécios da empresa. Normalmente, faz-se necessério o desenvolvimento de sistemas ou avaliacao de ferramentas para extracao de dados e atualizacao do Data Warehouse. Esses sistemas/aplicacdes sio responsaveis pela filtragem, limpeza, sumari- zagdo e concentracao dos dados espalhados pelas fontes externas e nos sistemas ‘operativos. Em sua maioria essas ferramentas possuem interfaces graficas e intera- tivas que facilitam a realizacao do mapeamento de dados e a automacao do processo de extracao, limpeza e carga, fortemente baseadas no conhecimento de linguagem SQL, possuindo funcdes predeterminadas para sua utilizagao. Sua elaboracao requer, dos analistas envolvidos, um razoavel conhecimento tanto das bases de dados das quais as informacdes serao extraidas como da base na qual serao armazenadas. Diriamos que o conhecimento necessario consiste no acesso aos catdlogos dos bancos de dados mapeados como fontes de informagio, assim como pleno dominio dos metadados do modelo multidimensional do Data Warehouse ou Data Mart, No DW, as ferramentas devem permitir um acesso intuitivo aos dados, possibi- litando a andlise daqueles mais significativos. 0 sucesso de um DW pode depender da disponibitidade da ferramenta certa para as necessidades de seus usurios. Para garantir essa flexibilidade, normalmente so empregados: = Ferramentas para pesquisa e relatérios: sao simples e oferecem uma interface grafica para a geracao de relatérios e andlise de dados histé- ricos. Também permitem avaliar "o que aconteceu’. Proceso Feramentas 35 Ferramentas do tipo "On-Line Analytical Processing" - OLAP: permitem a0 usuario analisar 0 porqué dos resultados obtidos. Atualmente existe disponivel no mercado uma variedade dessas ferramentas com diferentes abordagens. Vamos dedicar atencao especial mais adiante aos processos OLAP, buscando apresentar uma definicdo simples de facil entendimento, até porque a expanséo da expresso OLAP para "On-Line Analytical Processing" nao significa muita coisa. Observe: = ROLAP (OLAP Relacional): ferramentas OLAP que acessam bancos de dados relacionais. = MOLAP (OLAP Multidimensional): ferramentas OLAP que acessam ban- cos de dados multidimensionais por meio de cubos e hipercubos. - HOLAP (OLAP Hibrida): ferramentas OLAP que permitem acesso tanto ‘a0s bancos de dados relacionais como aos multidimensionais = DOLAP (OLAP Desktop): ferramentas OLAP voltadas para computadores pessoais. Esse tipo de ferramenta vem sendo mais empregado nos bancos de dados individuais para analises mais especificas do que as, realizadas no DM. 0s dados, normalmente, sdo carregados a partir de DM. Sistemas de informagées executivas: apresentam uma visualizacdo mais simplificada dos dados. As informacoes sdo apresentadas de forma conso- lidada, ndo requerendo do usuério experiéncia e tempo para executar uma analise, como é 0 caso das ferramentas OLAP. Tecnologia Pojeto de Data Warehouse Data Mining: & uma categoria de ferramentas de andlise denominada open-end. Petmite ao usuario avaliar tendéncias e padrées nao conhecidos entre os dados. Esse tipo de ferramenta utiliza-se das mais modernas técnicas de computagio, como redes neurais, algoritmos genéricos e \6gica nebulosa. Os Dados Nesse ambiente os dados podem ser armazenados em diferentes niveis de agregaco, como: dados detalhados, configurando o nivel operacional; dados leve- mente sumarizados e dados altamente sumarizados. 0s dados encontram-se em reposit6rios que constituem uma das maiores preocupacdes desse ambiente. 0 emprego ou no de qualquer dos repositérios apresentados a seguir depende, exclusivamente, da arquitetura a ser adotada pela empresa, entre as que apresentaremos em capitulo a seguir. 0 DW pode apresentar os seguintes repositérios de dados: Operational Data Storage ou Staging Area (ODS) Representa um armazenamento intermedidrio dos dados, facilitando a integra- ‘¢20 dos dados do ambiente operativo antes da sua atualizagéo no Data Warehouse. Em sua proposta original, 0 ODS era um reposit6rio temporario, que armaze- hava apenas as informacdes correntes, antes de serem carregadas para o DW, algo como uma cépia dos ambientes de sistemas transacionais existentes na empresa. Atualmente, alguns autores passaram a denomin-lo Armazenamento Dindmico de Dados - Dynamic Data Storage - DDS. Esta nova concepcio difere da original ‘quanto a periodicidade de armazenamento, Ao contrario do ODS original, ele no armazena dados apenas para a carga do DW. 0 DDS nao é volatil, seus dados sdo armazenados ao longo do tempo e sofre alteracdes incrementais, desta forma com 0 decorrer do tempo pode se tornar 0 Data Warehouse. 0 design do caminho fisico que os dados irdo percorrer, dos bancos de dados de sistemas transacionais até chegarem a0 Data Warehouse, pode variar de muito simples a muito complexo. Em um ambiente onde existem muitas fontes hetero- géneas e um nico Data Mart, introduzir uma staging area intermediaria (também chamada de Operational Data Store) pode adicionar alum valor, entretanto, com 0 aumento da complexidade, envolvendo varios tipos de bancos de dados, ou plata- formas diferentes para diversas fontes de dados, a necessidade de utilizacdo de uma staging area para integrar todos os tipos de dados em um Gnico formato toma-se extremamente mandat6ria e critica. Proceso ¢Feramentas Sistemas legacos = Projto —Mapeamento i — Extracto Fontes = Ceaning enternas —Transtormagio MolopRolp = Distbigso 0 crescimento do Data Warehouse com a incluso de novos Data Marts e a utilizagao de staging area fica otimizado e garante a integragao das informacoes, pois possibilita a existencia de fonte Gnica e sincronizada de dados, eliminando-se a possibilidade de termos resultados de informacGes similares e com valores diferentes em nosso Data Warehouse. A abordagem incremental na construgdo de um Data Warehouse permite também o crescimento do nimero de assuntos de um Data Mart com a utilizacéo de integracao das tabelas comuns a assuntos inseridos no DW. Essa implementacdo permite que a mesma tabela exista em instancias dife- rentes de banco de dados, entretanto seu processo de extracao é tinico em relacio a posigao de seus dados no tempo, eliminando-se a possibilidade de existéncia de informagdes diferentes de uma mesma tabela, captada em momentos diferentes. Por exemplo, os dados de vendas podem estar disponiveis para extracdo ape- nas entre 1:00 a.m. e 2:00 a.m. (0 processamento das vendas € terminado e os dados estdo em um estado estavel e sincronizado), enquanto os dados financeiros estdo dispontveis apenas entre 4:00 a.m. e 5:00 a.m, Uma staging area permitira ao administrador do Data Warehouse extrair os da- dos no momento em que esto disponiveis e posteriormente integra-los. Isso facilita as extragdes dos sistemas operacionais durante periodos fora de pico de operacies. Por outro lado salientamos que a utilizago de uma staging area permite que 0 processo de conversao dos dados seja separado do processo de transformacao. 38 Tecnologia eProjeto de Data Warehouse Dados Sistema ssncronizados de vencas ~Estragto Sistema 0 ODS pode servir de base para anélises do ambiente operativo, pois sua granularidade é normalmente compativel com os sistemas desse ambiente. Sua funcao nao é sumarizar dados, mas agilizar 0 processo de consolidagao, proporcionando um melhor desempenho na fase da atualizacao dos dados.. A staging area € 0 Gnico lugar para determinar os valores que vém efetiva- mente dos sistemas legados. 0 administrador do Data Warehouse tem a oportunidade de investigar a staging area para determinacao de onde ocorreram erros. A staging area pode e deve ser usada para “timpar" dados “sujos” que entram no processo de extragdo e transformagao, pois quanto mais cedo os dados forem limpos menor é a chance de termos erros.. 0 ODS nao & um componente indispensdvel em um Data Warehouse, cuja criagio é uma deciséo de projeto. Por combinar a tecnologia de OW com os sistemas operacionais tradicionais (OLTP), permite analises e apoio a tomada de decisies que requeiram respostas em tempo real. ‘As empresas que optam por sua utiliza¢do normalmente empregam infor- magées similares em diversos sistemas operacionais, Essa dispersdo de informacdes requer um primeiro tratamento, que consiste na consolidagdo dos dados antes de sua integragao no DW. A figura seguinte apresenta um exemplo de aplicacdo de ODS em sistemas bancarios. No exemplo, observa-se a existéncia do cliente Joao em trés sistemas diferentes. As informagdes do cliente Jodo referentes aos trés sistemas sao inte- gradas no ODS antes de serem transportadas para o DW. a @- x \ Sistema SB. =» / Jdoto + Inf conta-corente Sistema + Inf, apicacbes a + Inf poupanca No proceso de Data Warehousing, a staging area & composta da aplicacao do servidor de dados e os dados armazenados resultantes de extracio, transformacdo carga. Database vegaco atabose Erracto. vranstormagao Temos de considerar dois cenérios distintos de utitizago da staging area. Em um primeiro cendrio os dados esto todos disponiveis em um ambiente OLTP atual e em produgao com as mesmas caracteristicas operacionais da staging area. Nesse cenério temos 0 seguinte fluxo: 40 Tecnologie Projet de Data Warehouse ‘Transforma e move ee staging No segundo cenario devemos considerar a existéncia de ambientes hetero- géneos e com dados em um mainframe, por exemplo. Neste caso nao podemos trazer os dados no formato original para um banco de dados relacional na staging area, e sim realizar um processo de extragao e conversio dos dados do mainframe em flat files (arquivos sequenciais). Esse fato provoca que tenhamos 0 processo de ETL com um elemento a mais, um estagio do proceso como um todo no ambiente mainframe, que & a exportacdo dos dados em um formato fiat file para envio e processamento entao pelo server da staging area. Deve-se considerar que se existiu um processo que gerou flat files, ele teve como caminho uma ou duas tabelas de dados no ambiente mainframe, o que indica que talvez seja possfvel carregar um database na staging area para esses dados serem processados e transformados. Entretanto, devemos considerar que os dados constantes nos flat files podem no ser todos os que existiam na tabela origem. Neste caso carregamos e criamos uma estrutura ER especifica com os dados levados para a staging area, de acordo com a definicao para cada um constante da definicdo do mapeamento de dados. Frat ie Fat ie A complexidade existente no projeto da staging area decorre, além das arquiteturas, da escolha da forma como os dados devem ser transferidos para ela. Podemos ter trés alternativas: Frocesos«Feramentas Os arquivos so gerados na origem como sequenciais e caregados na staging area como flat files para tratamento de transformacao nesse for- mato, gerando-se conjuntos de arquivos sequenciais que serao utilizados para load do banco de dados do Data Mart. = A segunda alternativa a ser analisada é utilizar esses flat files, se refle- tirem exportacdo de tabelas, como elementos de carga de um modelo de dados ER equivalente a aplicacéo origem, que seré carregado com todos esses dados de tabelas, criando-se desta forma um ODS (Operational Data Stage) 0 qual entao softeré os processos de extracdo, transformacdo e posterior carga nos Data Marts. Essa opcio faz com que nossa staging area seja totalmente relacional e devem ser considerados os tamanhos nao somente dos flat files transferidos, mas das tabelas completas, pois nessa situagao serdo transferidas informacdes que nao interessam nem serdo utilizadas no projeto em si = A terceira alternativa a ser analisada no projeto da arquitetura é quando temos ambientes similares de database tanto na producao dos sistemas quanto na staging area. Neste caso podemos nos utilizar de fiat files para up load de c6pias das tabelas do ambiente legado no database da staging area. Outra alternativa € a utilizacdo de backup e restore de banco de dados para a geragio de dados na staging area. Uma vez definida a arquitetura que vamos utilizar, dependendo do ambiente do cliente, devemos considerar para a arquitetura que a recuperacdo de dados historicos residentes em meio magnético de backup para periodos anteriores ao de producéo deverd seguir os mesmos critérios para a sua inser¢do na staging area, quando da primeira carga inicial historica do Data Mart. Upload DataBase Fiat Fie DataBase Objetivo da Area Staging Criar um ambiente intermediério de armazenamento e processamento dos dados oriundos de aplicacdes OLTP e outras fontes, para 0 processo de extragao transformagao e carga (ETL), possibilitando o seu tratamento, e permitindo sua pos- terior integragao em formato e no tempo, evitando problemas apés a criagao do Data Warehouse e a concorréncia com o ambiente transacional no consumo de recursos. 42 Tecnologia ¢ Projet de Data Warehouse Metodologia Como qualquer outro projeto, a criagéo do ambiente intermediario (staging area) necesita de um planejamento bem estruturado e bem documentado. Esse planejamento deve permitir a andlise de altemativas de arquiteturas de sua imple- mentacéo, garantir 0 caminho a seguir e 0 comprimento das fases para atingir 0 objetivo Data Warehouse (DW) Ea espinha dorsal desse ambiente. Ele representa uma grande base de dados capaz de integrar, de forma concisa confiavel, as informacdes de interesse para a empresa, que se encontram espa- thadas pelos sistemas operacionais e em fontes externas, para posterior utitizacdo nos sistemas de apoio & decisao. Como mostra a figura seguinte, € importante entendermos que o Data Warehouse & um armazém de dados histéricos, cuja finalidade & apresentar as infor- mages que permitam identificar indicadores, evolucdo de valores ao longo de uma grande janela de tempo. E comum encontrarmos erros de projeto em que as necessidades levantadas para 0 projeto do DW consideram informacies sobre o més corrente ou periodo atual, como, por exemplo, a avaliacao dos dados referentes a uma campanha de vendas atual. Seria de enorme desperdicio de investimento realizarmos um Data Warehouse ‘0 volatil e para um periodo de tempo tao curto. ssa fungdo deve ser exercida por aplicacéo especifica de ambiente transa- cional. € gerencial sim, mas nem tudo que € gerencial deve estar em um Data Warehouse, somente as informagdes em cardter histérico e estatistico. Esse fato decorre da auséncia significativa de aplicacées gerenciais sobre ambientes transacionais, sinteses acumuladas sobre as operacdes em um deter- minado periodo. Um Data Warehouse tem normalmente informagdes sobre assuntos de negocio da empresa por um periodo histérico de no minimo trés anos, podendo em alguns casos chegar até os primeiros anos de informacao, pois seu objetivo é determinar padres de comportamento, indicadores de crescimento por tempo etc. frocessas eFerramentas Ambiente ‘wansaconal cientes ‘Andlise de comportament captadas Tendencias ‘Acompanhamento (Cresciment - ndleadores de negéco Cee Data Mart (DM) Representa um subconjunto de dados do DW. Permite acesso descentralizado e atualmente serve de fonte para os dados que compordo os bancos de dados individuais. Qs dados do DM so direcionados a um departamento ou uma area especifica de processos do negécio, 0 OM, normalmente, é modelado em um esquema estrela de acordo com as necessidades especificas do usuario final. Uma das principais vantagens de seu emprego € a possibilidade de retorno rapido, garantindo um maior envolvimento do usuario final, capaz de avaliar os beneficios extraidos de seu investimento. Lesa Tecnologia eProjeto de Data Warehouse BD Individuais ou Cubos Esses bancos de dados permitem ao usuério armazenar, em cardter temporério, apenas os dados de seu interesse, reduzindo 0 escopo da informagao e acelerando seu proces- samento. Normalmente representam um subconjunto do OM. ssa modalidade vem merecendo destaque gracas ao desenvolvimento de ferramentas OLAP para desktop (DOLAP). Esses bancos de dados normalmente séo multidimensionais, ou seja, cubos de dados para analise rapida, que trataremos em capitulo a parte neste livro. Possuem estrutura de informaao propria, possibilitando ao usuario a criago de novos bancos e novas anilises ad hoc. 0 Processo de Data Warehousing De uma forma geral, a arquitetura do DW ainda esta em evolucao. oe ata Mars ssa evolugio pode ser considerada uma resposta a crescente complexidade desse ambiente e as dificuldades de integracdo entre todos os componentes. Os desenvolvedores desse ambiente devem se preocupar em integrar o DW as diversas fontes heterogéneas e externas, os Data Marts, ODS, aplicacdes servidoras, Web e Data Mining, entre outros tipos de ferramentas disponiveis. ProcessoseFerramentas As arquiteturas disponiveis dependem do tipo de utilizacdo, recursos, entre outros fatores, assim como abordagem de implementagéo de uma arquitetura Variagdes dessas arquiteturas estdo sendo avaliadas, porém uma arquitetura nao inviabiliza a outra. Entretanto, a variedade de opcdes requer uma andlise mais apurada do problema, para avaliar a arquitetura mais adequada a empresa, | | | A escolha da arquitetura e sua implementacao sdo fatores importantes na | selegao da tecnologia apropriada para o desenvolvimento e a implantacao desse | ambiente. ‘Atualmente, considera-se que os problemas do DW estdo mais relacionados com a utilizacdo e implementacdo de uma arquitetura, com a metodologia de desen- volvimento, com a administracao dos metadados do que com a tecnologia disponivel para tudo. 46 Tecnologia ¢Projeto de Data Warchouse

You might also like