Sistemas de Apoio À Decisão para Business Intelligence

SiStemaS de
apoio à deciSão para

BuSineSS intelligence
Denise Fukumi Tsunoda
Superintendente Prof. Paulo Arns da Cunha
Reitor Prof. José Pio Martins
Pró-Reitora Acadêmica Profa. Márcia Teixeira Sebastiani
Diretor de EAD Prof. Roberto de Fino Bentes
Gerente Editorial e de Tutoria Profa. Manoela Pierina Tagliaferro
Gerente de Metodologia Profa. Dinamara Pereira Machado
Autoria Profa. Denise Fukumi Tsunoda
Supervisão Editorial Fabieli Campos Higashiyama
Análise de Conteúdo Francine Ozaki
Análise de Qualidade Betina Dias Ferreira
Edição de Texto Caroline Chaves de França e Ignácio Dotto Neto
Design Instrucional Wagner Gonçalves da Silva, Lucelí de Souza Fabro
e Luana Przybylovicz
Design de Atividades Mariana Moschkovich Athayde
Layout de Capa Valdir de Oliveira
Imagem de Capa Juliano Henrique
Edição de Arte Denis Kaio Tanaami
Diagramação Regiane Rosa
Design Gráfico Carlos Henrique Stabile
Estágio de Design Gráfico Bernardo Beghetto
Revisão Ana Luísa Pereira, Marina López Moreira
e Yohan Barczyszyn
Dados Internacionais de Catalogação na Publicação (CIP)

Biblioteca da Universidade Positivo – Curitiba – PR
T882 Tsunoda, Denise Fukumi

Sistema de apoio à decisão para business intelligence. /
Denise Fukumi Tsunoda. – Curitiba : Universidade Positivo, 2014.
144 p. : il.
Sistema requerido: Adobe Acrobat Reader.

Modo de acesso: <http://www.up.edu.br>
Título da página da Web (acesso em 29 abr. 2015).
ISBN 978-85-8486-091-3
1. Processo decisório. 2. Planejamento estratégico. I. Título.

CDU 65.012.4
*Todos os gráficos, tabelas e esquemas são creditados à autora, salvo quando indicada a referência.
Informamos que é de inteira responsabilidade da autora a emissão de conceitos. Nenhuma parte
desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos
direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal.
Copyright Universidade Positivo 2014
Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido
Curitiba-PR – CEP 81280-330
Ícones
Afirmação Curiosidade
Assista
Dicas
Biografia
Esclarecimento
Conceito
Contexto Exemplo
Sumário
Apresentação��7
A autora��8
Capítulo 1
Sistemas de apoio à decisão��9
1.1 Tomada de decisão��9
1.2 Conceitos e estrutura de sistemas de apoio à decisão��24
1.2.1 Sistemas de apoio à decisão e sistemas de informação�� 24
1.2.2 Estrutura dos sistemas de apoio à decisão�� 28
1.3 Técnicas e ferramentas��31
1.4 Considerações finais��38
Referências��40
Capítulo 2
Data warehouse��43
2.1 Fundamentos��44
2.1.1 Características�� 46
2.1.2 Organização dos dados�� 52
2.1.3 Construção�� 56
2.2 OLAP��59
2.2.1 Fundamentos de OLAP�� 60
2.2.2 Tipos de OLAP�� 61
2.2.3 Recursos de um OLAP�� 62
2.2.4 Comparação entre OLAP e OLTP�� 66
2.3 Ferramentas��67
Capítulo 3
Introdução ao KDD��71
3.1 Etapas do KDD��71
3.2 Data mining��74
3.2.1 Algoritmos/heurísticas�� 77
3.2.2 Regras de associação�� 78
3.2.3 Classificação�� 83
3.2.4 Clustering�� 95
3.3 Aplicativos��101
Capítulo 4
Visualização de resultados�� 111
4.1 Origens da visualização de dados��113
4.1.1 Gráficos�� 115
4.2 Ciclo de vida da visualização de dados��120
4.2.1 Aquisição de dados�� 120
4.2.2 Limpeza de dados�� 120
4.2.3 Análise e visualização exploratória�� 120
4.2.4 Publicação�� 120
4.3 Ferramentas de visualização��121
4.3.1 Dashboards�� 121
4.3.2 Scorecards�� 132
4.3.3 Visualização de resultados em mineração de dados�� 133
4.3.4 Tendências�� 140
Inserir Aqui o Título da Obra
7
Apresentação
Os sistemas de apoio à decisão têm se mostrado fortes aliados dos processos ge-
renciais e de tomada de decisões, pois vêm acompanhando as evoluções tecnológicas.
Atualmente, termos como big data, data warehouse, data mining, business intelligen-
ce, SAD (Sistema de Apoio à Decisão) e SIG (Sistema de Informação Gerencial) estão
se popularizando fora dos círculos de especialistas da área e podem ser encontrados
até mesmo em publicações não especializadas.
A Educação à Distância (EAD) potencializa a troca de experiências e permite que
indivíduos de diferentes áreas de atuação encontrem pontos de convergência no inte-
resse comum pelo aprendizado contínuo.
Inserir Aqui o Título da Obra
8
A autora
A Professora Denise Tsunoda é Doutora em Engenharia Elétrica e Informática
Industrial – Engenharia Biomédica (UTFPR, 2004), Mestre em Engenharia Elétrica e
Informática Industrial (UTFPR, 1996) e Graduada em Informática (UFPR, 1992). Possui
experiência na área de Bioquímica, com ênfase em Bioinformática, e atua principal-
mente nos seguintes temas: descoberta de padrões em banco de dados, mineração de
dados, computação evolucionária, algoritmos genéticos, programação genética e in-
formação e estrutura de proteínas.
Currículo Lattes:
<http://lattes.cnpq.br/8265885406314576>
Dedico esta obra ao Alex, amigo e marido,

pelas sugestões e pela compreensão
em diversas circunstâncias.
Aos meus pais, por me ensinarem que nem
sempre o caminho mais fácil é o correto
e que tudo pode ser conquistado com amor,
perseverança e justiça.
A Deus, pois sem Ele nada disso seria possível.
1 Sistemas de apoio à decisão
Este capítulo apresenta os principais conceitos relacionados aos Sistemas de
Apoio à Decisão (SAD), os processos gerenciais de tomada de decisão, os componen-
tes e características dos SADs, suas potencialidades como ferramentas de apoio admi-
nistrativo e as ferramentas analíticas frequentemente disponíveis nesses sistemas.
1.1 Tomada de decisão

A tomada de decisão é um fato rotinei-
ro na vida da maioria das pessoas, pois desde
que acordamos até o momento em que va-
mos dormir tomamos decisões. Por exemplo:
© Coloures-pic / / Fotolia
levantarei imediatamente ou esperarei mais
cinco minutos? O que consumirei no café da
manhã? Qual roupa vestirei hoje? Irei à aca-
demia? Irei ao cinema? O que almoçarei?
Muitas vezes, tomamos decisões de forma automática, por exemplo: qual pé
apoiamos primeiro ao nos levantar, qual mão utilizamos para escovar os dentes, qual
braço utilizamos para pentear os cabelos etc. E, para piorar, dependendo de fatores
externos, temos que reprogramar nossas decisões. Por exemplo: decido à noite qual
roupa utilizar para trabalhar na manhã seguinte, mas, ao acordar, percebo que o cli-
ma está completamente incompatível com a roupa escolhida, e novas decisões deve-
rão ser tomadas.
Segundo Chiavenato (2004), decisão é o processo de análise e escolha de uma entre as várias
alternativas disponíveis, ou, ainda, de qual ação deve ser tomada (ou qual curso de ação deve
ser utilizado) pelo tomador de decisão.
Analisando a questão de outra forma, podemos dizer que as decisões são influen-
ciadas por diversos fatores, fornecidos pelo ambiente e pela experiência de vida das
pessoas (influência dos aspectos culturais, crenças e valores, formação intelectual e
convívio com grupos sociais). Por isso, mesmo diante de situações iguais, que apresen-
tem alternativas idênticas, as pessoas acabam tomando decisões diferentes.
Assim, no nível individual, percebemos e analisamos situações e tomamos deci-
sões. Já no nível organizacional a complexidade aumenta, pois vários gestores estão
decidindo simultaneamente nos diferentes níveis: estratégico, tático e operacional, e
incentivam seus colaboradores a tomarem decisões em relação às tarefas a serem rea-
lizadas e metas a serem alcançadas.
Sistemas de Apoio à Decisão para Business Intelligence 10
A figura a seguir apresenta uma pirâmide organizacional (com seus três níveis) e
exemplos de decisões a serem tomadas no caso do lançamento de um novo produto.
Pirâmide organizacional
Decisões e planejamento tático:

plano de produção (quais os
métodos e tecnologias a serem
Decisões e planejamento
estratégico: criação de utilizados), plano financeiro
Nível
um novo produto. (quais as formas de captação de
estratégico
recursos), plano de marketing
(como o produto será distribuído
e comercializado), plano de
Nível recursos humanos (quais os
tático profissionais necessários para a
criação e monitoramento do novo
produto), etc.
Nível
operacional
Design Gráfico: Carlos Henrique Stabile

Decisões e planejamento operacional: quais os recursos necessários para a criação do novo
produto, quais os procedimentos a serem adotados, qual o cronograma de produção, qual o
resultado final esperado etc.
É importante observar, também, que a eficácia empresarial tem relação dire-

ta com as decisões tomadas pelos diversos gestores e deve estar em sintonia com os
objetivos da organização. Surge, então, a necessidade de fornecer aos gestores algum
instrumento de apoio para auxiliá-los na escolha da melhor alternativa.
Segundo Chiavenato (2004), tomar decisões é identificar e selecionar uma opção, entre várias al-
ternativas, para lidar com um problema específico ou extrair vantagens em uma oportunidade.
Alguns autores diferenciam tomar decisões e resolver problemas, uma vez que
este último pode requerer mais do que uma decisão a ser tomada. É importante obser-
var que, em muitos casos, um problema pode oferecer uma oportunidade a ser apro-
veitada e, normalmente, reconhecer a existência do problema é o primeiro passo para
se encontrar uma oportunidade. Por exemplo, suponha que os clientes de uma organi-
zação estejam reclamando sobre os prazos (atrasos) de entrega de seus produtos. Esse
problema pode oferecer uma oportunidade para revisar os procedimentos de logística
de entrega de mercadorias, redesenhar processos de produção ou, ainda, melhorar os
próprios serviços ao consumidor.
Segundo Chiavenato (2004) e Robbins (2006), problema é algo fora do planejado, uma discre-
pância entre o estado atual e o desejado e que pode bloquear o alcance dos resultados espera-
dos. Em alguns casos, pode ser representado como a diferença entre as metas iniciais e o que
foi alcançado.
As decisões podem ser classificadas em dois tipos: programadas (estruturadas) e

não programadas (ou não estruturadas). Decisões programadas normalmente se apli-
cam aos problemas rotineiros, com regras, procedimentos ou hábitos bem definidos.
Chiavenato (2004) menciona as características desse tipo de decisão:
• Baseadas em dados adequados.
• Baseadas em dados repetitivos.
• Tomadas em condições estáticas e imutáveis.
• Sob condições de previsibilidade.
• Baseadas na certeza.
• Podem ser computacionais.
Essas decisões são tomadas conforme políticas e regras, escritas ou não, e são
simplificações de tomadas de decisão a serem aplicadas em situações que têm a ten-
dência a se repetir. De certa forma, delimitam a ação do tomador de decisão, uma vez
que, na maioria das vezes, é a organização que determina o que será feito. Um exem-
plo de decisão programada é o lançamento de um novo produto no mercado (veículo,
vestuário, alimentício, pacotes de férias etc.).
Por outro lado, uma decisão é dita não programada quando as soluções são criadas
por um processo não estruturado para resolver um problema específico, incomum, excep-
cional e não rotineiro. Então, observe que, se um problema não surge com frequência su-
ficiente para ser resolvido por uma política, ele deve ser resolvido por uma decisão não
programada. Chiavenato (2004) menciona as características desse tipo de decisão:
• Baseadas em dados inadequados.

• Baseadas em dados únicos e novos.
• Tomadas em situações dinâmicas e mutáveis.
• Sob condições de imprevisibilidade.
• Baseadas na incerteza.
• Devem ser tomadas sob julgamento pessoal.
Em uma situação real, grande parte dos problemas enfrentados por um adminis-
trador requer uma decisão não programada e, por esse motivo, a maioria dos progra-
mas de desenvolvimento de gestores tem capacitações específicas para a tomada de
decisão não programada, programas esses nos quais se destaca que as decisões preci-
sam ser lógicas e os problemas devem ser analisados de forma sistemática.
Turban e Volonino (2013) apontam, ainda, um terceiro tipo de decisão, que cha-
mam de semiestruturada, ou seja, parte da solução possui um método bem definido
enquanto outra parte depende de inteligência, conhecimento ou experiência das pes-
soas, assim como de dados e modelos de solução.
Modelo de decisão
Processo decisório
Identificação do Formulação de Avaliação das Seleção de uma
problema soluções soluções solução
Tomada de
decisão
Planejamento Execução Controle
Modelo de
Missão Visão Valores
gestão
Modelo de tomada de decisão empresarial.

A figura anterior ilustra um modelo de decisão empresarial. Os fatores que forne-

cem suporte ao processo de tomada de decisão são: missão, visão e valores, combina-
dos com o modelo de gestão.
Estabelecer um modelo de gestão significa gerir, por meio de exemplos, para o
alcance das metas empresariais definidas. Um modelo de gestão observa em sua con-
cepção as principais determinações, vontades e expectativas organizacionais, ou seja,
determina como as atividades devem acontecer – por meio de normas e princípios que
orientam os gestores responsáveis na escolha das alternativas – para que a empresa
cumpra sua missão com eficácia.
A missão de uma organização é seu objetivo fundamental, constituindo-se na
verdadeira razão de sua existência, tendo, assim, um caráter permanente. A missão
representa o motivo ou a finalidade pela qual a empresa foi concebida e qual é sua com-
petência. Pode-se defini-la por meio de três perguntas, apresentadas por Chiavenato
(2004): “quem somos nós?”, “o que fazemos?” e “por que fazemos o que fazemos?”.
A visão corresponde ao conjunto de convicções que norteiam a trajetória da orga-
nização. Segundo Chiavenato (2004), é a imagem que a organização tem a respeito de
si mesma e de seu futuro.
Os valores organizacionais traduzem as convicções que norteiam suas condutas e
dizem respeito aos princípios empresariais, dos quais emanam as diretrizes gerais que
posicionam a empresa frente a seus clientes, fornecedores, funcionários, comunidade,
governo e ao ramo de negócio no qual deseja atuar.
Apenas a título de exemplo, a figura a seguir traz a missão, a visão e o lema da
empresa Mundo Verde (2013), do ramo de produtos naturais. Nessa figura, a visão “ser
marca mundial em bem-estar” reforça a ideia de que se deve demonstrar a direção a
ser seguida. A missão define o motivo pelo qual a empresa existe – do exemplo, é “ofe-
recer qualidade de vida, consumo responsável e sustentabilidade”.
Visão
Ser marca
mundial em
bem-estar.
Missão
Oferecer qualidade de
vida, consumo responsável e

sustentabilidade.
Nosso lema
Preserve o VERDE, o MUNDO é seu!
Fonte: MUNDO VERDE, 2013. (Adaptado).

Orientados pela missão, visão e valores, os gestores estabelecem o modelo de

gestão da empresa, que servirá de guia para a condução de suas atividades.
O tomador de decisão eficaz deve ser capaz de aprender a tomar decisões satis-
fatórias norteado pelos objetivos de sua organização. Alguns elementos são essenciais
para aumentar a racionalidade do processo:
• Buscar todo e qualquer dado ou informação de qualidade que possa ser rele-
vante para a tomada de decisão.
• Selecionar a alternativa que maximize a satisfação e a eficiência do tomador de
decisão e minimize as consequências negativas.
O’Brien e Marakas (2012) definem os atributos de uma “informação de qualidade”,
conforme figura a seguir. Nela, os fatores estão distribuídos em três dimensões:
• Tempo (oportunismo, atualidade, frequência e período).
• Conteúdo (precisão, relevância, completude, concisão, escopo e desempenho).
• Forma (clareza, detalhe, ordem, apresentação e mídia).
Fatores de uma informação de qualidade

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).

Nas figuras a seguir, cada um dos itens será detalhado.
Dimensão
de tempo
Oportunismo
Atualidade
Frequência
Período de tempo
Oportunismo
A informação deve ser fornecida
quando necessário.
Atualidade
A informação deve estar atualizada
quando for fornecida.
Frequência
A informação deve ser fornecida
quantas vezes forem necessárias.
Período de tempo
A informação refere-se a algum
período passado, presente ou futuro.

Dimensão
de conteúdo
Precisão
Relevância
Completude
Concisão
Escopo
Desempenho
Precisão
A informação não deve conter erros.
Relevância
A informação deve estar relacionada às
necessidades de informações de um receptor
específico em uma situação específica.
Completude
Toda informação necessária deve ser
fornecida.
Concisão
Somente a informação necessária deve ser
fornecida.
Escopo
A informação pode ser de escopo amplo ou
restrito, ou de foco interno ou externo.

Desempenho
A informação pode revelar.

Dimensão
de forma
Clareza
Detalhe
Ordem
Apresentação
Mídia
Clareza
A informação deve ser fornecida em formato
fácil de entender.
Detalhe
A informação pode ser fornecida de forma
detalhada ou resumida.
Ordem
A informação pode ser organizada em
sequência predeterminada.
Apresentação
A informação pode ser apresentada de forma
narrativa, numérica, gráfica ou outra.
Mídia
A informação pode ser fornecida em forma de

documento impresso, exibição de vídeo
ou outro meio.

Dependendo da decisão a ser tomada, uma dessas dimensões (ou algum de seus
componentes) será determinante para a escolha da alternativa que maximize a satisfa-
ção e a eficiência do tomador de decisão e minimize as consequências negativas. Por
exemplo, para avaliar o maior retorno sobre investimento (ROI), dadas duas ações (A1
e A2), e quais as consequências se uma delas acontecer antes da outra, é necessário
considerar tanto o ambiente externo quanto o interno.
Machado (1997, p. 86) afirma que um modelo de gestão contempla crenças e va-
lores da empresa e direciona as decisões e ações dos gestores. Assim, de posse de um
dado ou informação de qualidade, o gestor pode avaliar alguns elementos do proces-
so decisório, de modo a melhorar a racionalidade da decisão na escolha e avaliação das
alternativas disponíveis. Esses elementos serão apresentados a seguir. O importante é
que eles sejam observados pelo gestor, no entanto, não é necessário que seja seguida
qualquer ordem de prioridade:
• Estado de natureza: são as condições de incerteza, risco ou certeza que exis-
tem no ambiente de decisão e que o tomador precisará enfrentar.
• Tomador de decisão: indivíduo ou grupo que faz a opção por uma alternativa
em detrimento de diversas outras.
• Objetivos: fins ou resultados almejados com a decisão.
• Preferências: critérios que serão utilizados no momento da escolha.
• Situação: aspectos do ambiente que podem afetar o resultado da decisão, mui-
tos dos quais alheios à vontade, ao controle, ao conhecimento ou à compreen-
são do tomador de decisão.
• Estratégia: percurso que o tomador de decisão escolhe para atingir os objetivos.
• Resultado: consequência da estratégia adotada.
Ainda sobre a eficiência do tomador de decisão, Turban e Volonino (2013) apre-

sentam os papéis dos gerentes no processo decisório:
Atividades envolvidas na decisão
Ambiente externo Ambiente interno
Avaliação de informações
relevantes

Análise qualitativa Análise quantitativa
Interpretação: há um problema
ou uma oportunidade?
Não Não
Sim: entrada para tomada de decisão
Decisão: o que fazer
Fonte: TURBAN; VOLONINO, 2013. (Adaptado).
Observe que, nessa figura, tanto os ambientes interno e externo quanto as aná-
lises qualitativa e quantitativa são insumos para o reconhecimento da necessidade e
posterior tomada de decisão. Após os gerentes do processo decisório identificarem o
problema ou a oportunidade, devem observar quatro fases sistemáticas: inteligência,
proposta de modelo (design), escolha e implementação.
Fases da decisão
Fase de inteligência
REALIDADE Exame Objetivos organizacionais
Problemas Procedimentos de pesquisa
Oportunidades Coleta de dados
Identificação do problema
Classificação do problema
Formalização do problema
Fase de design
Validação do modelo Formular um modelo (suposições)
Especificar critérios de escolha
Procurar alternativas
Prever e medir resultados (simulação)
Fase de escolha
Verificação e teste da Solução para o modelo
solução proposta Análise de sensibilidade
Seleção da melhor alternativa
Planejar a implementação (ação)

Design de um sistema de controle
Sucesso Implementação da solução
Falha
Chiavenato (2004) divide o processo decisório em seis etapas. A primeira etapa, a

de identificação, procura obter uma visão geral de toda a situação, problema ou opor-
tunidade. Aqui, três aspectos merecem destaque: definição do problema, diagnóstico
das causas e identificação dos objetivos da decisão.
Na segunda etapa, a de obtenção de informações sobre a situação, o gestor es-

tuda relatórios, realiza entrevistas, observa a situação, pesquisa sobre o assunto e ve-
rifica acontecimentos anteriores. Essa fase é fundamental para que seja minimizada a
incerteza sobre determinada situação ou problema.
A terceira etapa é dedicada à ge-
ração de alternativas de ação, ou seja,
é nesse estágio que são propostas solu-
ções; mas, a princípio, elas não são ava-
liadas sob nenhum aspecto, inclusive de
© Rawpixel / / Fotolia / / Fotolia. (Adaptado).

viabilidade. Para as decisões programa-

das é sempre mais fácil o levantamento
das alternativas e a escolha da solução.
No entanto, para as decisões não progra-
madas, essa etapa adquire uma complexi-
dade bem maior, principalmente quando
não existem restrições ou qualquer outro
tipo de limitação para a escolha.
Nessa etapa, alguns administradores utilizam uma técnica conhecida por
brainstorming, na qual os membros das equipes propõem alternativas de forma espon-
tânea e qualquer senso crítico é eliminado para que sejam estimuladas as gerações de
alternativas.
Na quarta etapa, as alternativas são avaliadas e comparadas e é escolhida a ação
a ser utilizada. A ação escolhida deve minimizar as consequências negativas e maximi-
zar o ganho, evitando, por exemplo, que uma solução “excelente” para determinado
departamento produza efeitos negativos nos demais.
A quinta etapa é colocar em prática a solução ou curso de ação escolhido na quar-
ta etapa. Pode parecer uma fase fácil, mas envolve muito mais do que simplesmente
dar ordens. Os recursos devem ser escolhidos, adquiridos e alocados e o administrador
deve realizar o planejamento de orçamento de despesas e ganhos, programar ações e
preparar os meios para medir o andamento das atividades e tomar eventuais decisões
corretivas, quando for o caso.
Finalmente, no último estágio, os resultados da solução são monitorados e ava-
liados. Alguns indicadores são utilizados para, por exemplo, mostrar se o desempenho
dos colaboradores está de acordo com as expectativas, apresentar as consequências
no ambiente interno e externo à organização, as respostas dos concorrentes e identifi-
car se determinado problema foi parcialmente ou totalmente resolvido.
É importante observar que cada etapa influencia todas as demais. Dependendo

da pressão, algumas etapas são abreviadas ou até mesmo eliminadas (como as etapas
2 e 3). Por outro lado, quando não existe pressão, algumas etapas podem ser amplia-
das. Dessa forma, até que o objetivo proposto seja alcançado, cada decisão leva a ou-
tra, produzindo uma árvore de decisões.
Etapas do modelo decisório
• Identificar a essência do problema ou da oportunidade.

Identificar • Verificar quais os subproblemas ou aspectos da oportunidade.
a situação
• Ter visão holística e não apenas de parte da situação.
• Buscar dados, fatos e informações a respeito.

Obter • Buscar informações em fontes internas e externas.
informações
• Envolver o cliente, usuário ou interessado.
• Desenvolver possíveis soluções.

Formular • Usar criatividade e inovação.
soluções
• Avaliar a relação custo/benefício de cada possível solução.
• Avaliar as alternativas considerando, por exemplo: custo, tempo

Avaliar e e eficácia.
escolher
soluções • Utilizar a escala de pontos para avaliar alternativas.
• Escolher uma solução.
Colocar em • Implantar a solução escolhida.

prática a • Pensar holisticamente, e não localmente.
solução
escolhida • Ser prático para colocar a solução em ação.
• Monitorar o andamento da solução.

Avaliar • Verificar se o problema foi solucionado.
resultados
• Avaliar resultados e consequências.
Fonte: CHIAVENATO, 2004. (Adaptado).

Chiavenato (2004, p. 258) apresenta a árvore de decisão para a avaliação de alter-

nativas, conforme a figura a seguir.
Árvore de decisões de avaliação de alternativas
Descartar
alternativa
Não
A alternativa é Descartar
viável? alternativa
Não
Sim
A alternativa é Descartar
satisfatória? alternativa
Não
Sim
A alternativa

resolve o
problema?
Sim
Levar a outras
avaliações
Fonte: CHIAVENATO, 2004.
Observe que a árvore “mostra a sequência de todo o processo de decisão e o des-

dobramento de alternativas de cursos de ação e as decisões seguintes” (CHIAVENATO,
2004). Ou seja, a árvore pode ser “lida” da seguinte forma: iniciando-se no nodo-raiz
“a alternativa é viável?”: se não for viável, a alternativa será descartada. Se, por outro
lado, for viável, será analisado se “a alternativa é satisfatória” – isto é, se atende, pelo
menos de forma aceitável, aos requisitos do problema – e, se não for, será descartada.
Caso contrário, será respondida a questão “a alternativa resolve o problema?”. Se não,
esta será descartada, mas, caso contrário, teremos uma possível decisão e outras ava-
liações serão realizadas.
Vimos nesta seção a importância dos cuidados na tomada de decisão. Obser-

vamos que as fases da tomada de decisão propostas por Turban e Volonino (2013) que
abordam a decisão como um ciclo (prevendo o retorno às fases decisórias na ocorrên-
cia de falhas) e as etapas do modelo decisório de Chiavenato (2004) (identificação da
situação e avaliação de resultados) são complementares.
1.2 Conceitos e estrutura de sistemas de apoio à decisão

Atualmente, a informação, apesar de muitas vezes não ser nem tangível nem men-
surável, é considerada um dos elementos mais valiosos porque proporciona “poder” às
organizações.
1.2.1 Sistemas de apoio à decisão e sistemas de informação
© Warakorn / / Fotolia
Um Sistema de Apoio à Decisão (SAD), também chamado de Sistema de Suporte

à Decisão (SSD), segundo Turban et al. (2010), é um sistema de informação, basea-
do no computador e em outros dispositivos eletrônicos, que combina modelos e da-
dos para a proposta de soluções não estruturadas ou semiestruturadas, enquanto os
Sistemas de Informação (SIs) fornecem suporte aos problemas estruturados.
Um sistema de informação, segundo Turban et al. (2010), é aquele que coleta, processa, arma-
zena, analisa e dissemina informações para atingir objetivos organizacionais específicos.
Lacombe e Heilborn (2003, p. 451) definem o SAD como um “sistema interati-

vo” que pode dar suporte à análise da resolução de um problema específico, avaliar a
oportunidade estratégica ou ainda fornecer suporte a uma operação em andamento.
Turban e Volonino (2013) mencionam três características essenciais aos SADs:
• Fornecer interface interativa e de fácil utilização.
• Utilizar, por exemplo, modelos que permitam análise de sensibilidade ou aná-
lise what-if e simulação.
Turban et al. (2010) afirmam que um SI, como qualquer sistema, possui entradas (dados, in-
formações), realiza processamento (com o uso de tecnologias) e produz saídas (planilhas, re-
latórios). Eventualmente, um mecanismo de feedback pode ser introduzido para auxiliar no
controle do sistema.
A análise de sensibilidade é um estudo sobre os efeitos que uma determinada mudança, em uma
ou mais variáveis de entrada, causam em uma solução proposta (MOORE; WEATHERFORD, 2005).
• Exploração de bancos de dados internos e externos pode ser utilizada para

auxiliar na resolução, conforme escolha do tomador de decisão.
Para Turban et al. (2010, p. 499), algumas vantagens da utilização de modelos seriam:
• Modelos possuem custos menores quando comparados aos testes em sistemas
reais. Apenas a título de exemplo, vamos tomar um teste de um air-bag: o cus-
to associado a um acidente simulado em um computador é menor se compara-
do ao de um veículo real. Obviamente os testes em modelos não descartam os
testes em sistemas reais, apenas minimizam a necessidade de alguns deles.
• A simulação em modelos demanda menor tempo, ou seja, simulações que de-
morariam décadas na prática podem ser realizadas em segundos em mode-
los, uma vez que estes permitem que se crie ambientes ideais de simulação.
Por exemplo: no teste de um para-raios, pode ser criado um ambiente artificial
para a simulação de tempestades, o que dispensaria a necessidade de aguardar
uma tempestade real.
• As variáveis (parâmetros) dos modelos podem ser manipuladas com maior fa-
cilidade, fazendo com que o teste não interfira na rotina diária da organiza-
ção. Por exemplo, uma simulação de impactos ambientais na concepção de um
novo prédio residencial pode ser realizada com a utilização de diversas cores e
materiais distintos para as janelas, sem que isso impacte diretamente na rotina
diária da empresa responsável pela obra.
• Os custos das tentativas e erros são menores em modelos. Por exemplo, a si-
mulação das vendas de uma nova tecnologia embutida em um relógio pode ser
realizada em sistemas de previsão de vendas, até mesmo para que se possa de-
finir o público-alvo do produto e a logística adotada para sua distribuição.
• A modelagem permite a criação de ambientes herméticos de simulação, ex-
cluindo-se agentes externos que introduziriam incertezas. Esses cenários hipo-
téticos permitem a inserção controlada de incertezas e análises do tipo “o que
aconteceria se”, também conhecidas por análises what-if. Segundo Turban e
Volonino (2013), a análise what-if (“e se”) se refere ao teste de hipóteses, supo-
sições ou dados no modelo para verificar quais os impactos dessas mudanças
nos resultados. Por exemplo, se uma previsão de vendas está baseada em um
aumento de 12% na demanda de clientes, uma análise what-if pode determinar
quais os impactos nos resultados se as demandas forem diferentes (abaixo ou
acima dos 12% esperados). Um exemplo prático pode ser observado no merca-
do imobiliário, no qual, por exemplo, espera-se uma redução de 10% nos valo-
res de imóveis em algumas cidades no próximo ano. Mas quais os impactos se a
redução for maior ou menor do que os 10% previstos?
• Os modelos permitem análise e comparação de infinitas soluções alternativas.
Por exemplo: uma mesma camiseta pode ser “produzida” no computador em
diversas cores e modelos. Os possíveis clientes podem optar pela cor e modelo
de sua preferência. A resposta a essa pesquisa simples pode interferir em toda
a cadeia de produção da referida camiseta, mas com impacto mínimo na rotina
da empresa.
A tabela a seguir apresenta um resumo de alguns tipos de sistemas de informa-
ção de suporte, incluindo os sistemas de suporte à decisão. Essa tabela foi baseada nas
proposições de Turban e Volonino (2013, p. 42), excluindo-se alguns tipos de sistemas
e incluindo-se outros, de forma que ficasse adaptada à realidade brasileira.
Sistemas de informação
Sistemas de informação Colaboradores suportados Descrição Exemplo de aplicação
Fornece dados e infor-

Visualizações de resulta-
mações rotineiras para
Sistema de Informação dos de vendas e relatórios
Gestores intermediários organizar, planejar e con-
Gerencial (SIG) de vendas semanais de cada
trolar operações em áreas
vendedor.
funcionais.
Supervisão contínua de di-

Combina modelos e da-
versas obras, permitindo
dos para resolução de pro-
intervenção mais rápida em
Sistema de Apoio à Decisão Tomadores de decisão e blemas não estruturados
caso de irregularidades no
(SAD) gestores ou semiestruturados com
orçamento, bem como com-
a participação intensa de
parar os resultados espera-
usuários.
dos com os realizados.
Determinar quais os clien-

Reúne e utiliza grandes
Tomadores de decisão tes mais propensos a ad-
quantidades de dados para
e gestores, com desta- quirir um novo produto ou,
Business Intelligence (BI) análise por meio de visões
que para os gestores do ainda, os clientes mais pro-
analíticas de negócio e téc-
conhecimento pensos a passarem para a
nicas de BI.
concorrência.
Permite que os engenheiros Simulação de resistên-

CAD/CAM Engenheiros realizem o desenvolvimento cias de novos materiais em
e testes de protótipos. automóveis.
Processos jurídicos total-

Sistema de Gestão Automatiza a gestão, o ar-
Funcionários mente automatizados, mi-
Eletrônica de Documentos mazenamento e o fluxo de
administrativos nimizando o trânsito de
(GED) documentos eletrônicos.
papéis.
Base de dados com o regis-

Gestores, com desta- Apoia a coleta, a organiza-
Sistema de Gestão de tro das principais soluções
que para os gestores do ção e o uso do conhecimen-
Conhecimento (GC) para determinado tipo de
conhecimento to em uma organização.
problema em automóveis.
Permite aprendizagem so- Determinar padrões de con-

Mineração de Dados (MD) e bre casos históricos por duta e perfil de criminosos
Gestores do conhecimento
Mineração de Textos (MT) meio da descoberta de pa- em determinados bairros de
drões nas bases de dados. uma cidade.
Fornece suporte aos cola-

Sistema de Gerenciamento boradores que lidam com Permitir acesso ao cadastro
do Relacionamento com o Gestores e atendentes o cliente e precisam tomar e principais questionamen-
Cliente (CRM) decisões rapidamente, nor- tos realizados por clientes.
malmente em tempo real.

Convém destacar que todos os sistemas anteriormente mencionados reque-

rem um profissional especialista na área para especificar, desenvolver, testar e validar
a aplicação do sistema escolhido. Por exemplo, para a concepção de um sistema de
mineração de dados para a área de segurança pública, é necessário que profissionais
dessa área estejam disponíveis para a especificação e validação dos resultados.
Mineração de dados é a principal etapa do processo de descoberta de conhecimento em uma

base de dados. Nessa etapa, é realizada a busca por conhecimentos novos e úteis a partir dos da-
dos de entrada (PIATETSKY-SHAPIRO, 1990).
1.2.2 Estrutura dos sistemas de apoio à decisão

Os componentes básicos de um SAD são o banco de dados, a interface com o usuá-
rio e os usuários. Adicionalmente, uma base de conhecimento também pode ser incluída.
• Banco de dados: o SAD utiliza um banco de dados normalmente alimentado
por diversas fontes. Em alguns SADs, os bancos de dados não são preenchidos
apenas por dados digitados – alguns atributos são coletados automaticamente
por sensores, por exemplo.
• Modelo de base: agrupa modelos completos e conjuntos de regras utilizados
para a construção dos SADs. Os tipos de modelos podem ser, por exemplo: o
econômico, o logístico, o estatístico etc. Esses modelos fornecem potencialida-
des de análises estatísticas às aplicações.
• Interface com o usuário: abrange todos os aspectos de comunicação da aplica-
ção com o usuário. Uma interface bem planejada pode aumentar a produtivi-
dade do usuário e minimizar os erros.
• Usuários: um SAD é uma ferramenta concebida para ser utilizada por um
stakeholder que, pela sua estreita relação com o sistema, é considerado uma
de suas partes integrantes. As principais classes de usuários são os gerentes e
especialistas.
• Base de conhecimento: diversos problemas não estruturados e semiestrutura-
dos apresentam uma complexidade que exige perícia para suas soluções. Essa
perícia, ou expertise, pode ser fornecida por uma base de conhecimento e um
sistema especialista.
Um sistema especialista é aquele projetado para simular o conhecimento humano em uma

área específica. Por exemplo, temos sistemas especialistas em jogar xadrez, em diagnosticar
dores no tórax e em prever modificações na bolsa de valores.
A figura a seguir ilustra a relação entre os componentes de um SAD.
Fluxo de decisão
Outros sistemas
informatizados
Funções de planilhas eletrônicas

Gerenciamento Modelo de Modelos lineares
Dados
de dados gestão Modelos customizados
(internos e externos)
Internet
Gestão do
conhecimento
Data warehouse

Interface com
Base de o usuário
conhecimento
Melhores práticas
Problemas
Usuário
Solução

Alguns aspectos da figura anterior merecem destaque: o usuário, ao se deparar

com um problema (P), utiliza a interface (IU) para ter acesso ao módulo de gestão do
conhecimento e ao processo de gerenciamento dos dados. Estes, por sua vez, têm liga-
ções com os dados internos e externos, modelos de gestão, outros sistemas que possam
ter relevância nessa tomada de decisão e, eventualmente, com o data warehouse (DW) e
a base de conhecimento (BC) da organização. Após a solução do problema (SP) ter sido
encontrada, ela é adicionada à base de conhecimento como “melhores práticas” e fica
disponível para consultas em futuras ocorrências idênticas ou similares.
A próxima figura é um esquema simplificado dos componentes de um SAD e seus
relacionamentos. O problema representado é o seguinte: um cliente, com mais de dez
anos de relacionamento com a empresa e com os pagamentos em dia, ultrapassou em
5% o limite de gastos no cartão de crédito. O sistema utiliza o módulo de gestão para
buscar na base de conhecimento (BC) uma possível melhor prática já cadastrada. Caso
ainda não exista, os outros módulos de gerenciamento de dados e modelo de gestão
são utilizados para a tomada de decisão, que poderia ser, considerando-se o perfil do
cliente, aumentar seu limite em 10%.
Exemplo de SAD
Outros sistemas
informatizados
Dados: cadastro Funções de planilhas eletrônicas

do cliente: nome,
endereço, data de Gerenciamento Modelo de Modelos lineares
nascimento, fatura de dados gestão Modelos customizados
atual.
Internet
Gestão do
DW: histórico: id, conhecimento
gastos realizados,
datas e valores dos
pagamentos.
BC: quais os principais IU: limite de gastos no

procedimentos já cartão ultrapassado em 5%
adotados em casos
idênticos ou similares.
Melhores práticas
SP: usuário com
mais de dez anos de
cadastro, pagamentos em
dia, limite aumentado
em 10%.
Usuário
Solução

1.3 Técnicas e ferramentas

A literatura apresenta diversas técnicas quantitativas que podem ser utilizadas
para auxiliar o processo de tomada de decisão. Robbins (2006) resumiu algumas des-
sas técnicas em um quadro.
Técnica Descrição resumida
Esse indicador financeiro enfatiza a relação entre receita, custos e lucros e ajuda os toma-
dores de decisão a determinar se um determinado volume de vendas resultará em prejuí-
Análise do ponto
zo ou em lucro. A análise do ponto de equilíbrio requer que o tomador de decisão conheça o
de equilíbrio
preço da unidade do produto vendida (P), o custo variável por unidade (CV) e os custos fixos
totais (CFT).
Retorno sobre o Esse critério mede a produtividade dos recursos ou lucros como uma porcentagem do capi-
investimento tal investido e viabiliza comparações entre empresas de ramos iguais ou diferentes.
A análise incremental ou marginal ajuda os tomadores de decisão a otimizar lucros ou mini-

Análise marginal mizar custos. A análise marginal lida mais com o custo adicional do que com o custo médio
de uma determinada decisão.
Utilizada para ajudar os tomadores de decisão a licitar contratos, fazer acordos trabalhis-
tas e planos de expansão. Essa técnica emprega modelos matemáticos para analisar conse-
Teoria dos jogos quências de decisões. O tomador de decisão esboça especificamente como serão tomadas
as decisões e atribui probabilidades a todos os resultados possíveis. A análise se concentra
em prever se será alcançado um acordo e, se este ocorrer, qual será sua natureza específica.
Essa técnica utiliza métodos gráficos ou algébricos para otimizar a alocação de recursos.
Programação
Ela supõe que pelo menos duas atividades competirão por recursos escassos e que existe
linear
uma relação linear entre o problema e o objetivo.
Técnica usada para balancear o custo de uma fila de espera comparado ao custo de manu-
Teoria da fila tenção dessa fila. Para determinar quantas bombas são necessárias nos postos de gasolina,
por exemplo, a teoria da fila pode ajudar a maximizar o serviço e minimizar o custo.
Fonte: ROBBINS, 2006, p. 60. (Adaptado).
Técnicas quantitativas para o processo de tomada de decisão.
Essas técnicas podem ser utilizadas em análises simples com o uso de planilhas
eletrônicas. No entanto, já temos disponíveis aplicativos e ferramentas mais sofistica-
dos que podem auxiliar a decisão, como as ferramentas de Business Intelligence (BI).
As primeiras ferramentas de business intelligence de que se tem relato aparece-
ram no início dos anos 1970 e tinham como característica o uso intenso da programa-
ção linear, o que elevava os custos de análise e desenvolvimento. No entanto, com a
adoção dos bancos de dados, dos computadores pessoais, das interfaces gráficas, das
comunicações e, principalmente, das redes locais pelas organizações dos mais diversos
segmentos de atuação, os desenvolvedores de soluções começaram a colocar no mer-
cado produtos direcionados para os tomadores/analistas de decisão com melhores fun-
cionalidades e interfaces mais amigáveis.
Business intelligence é um mode-

lo conceitual para suporte à decisão que
combina arquiteturas (estruturas físi-
cas e lógicas de sistemas), ferramentas
de análise e bancos de dados. Os objeti-
vos incluem permitir acesso interativo aos
dados, proporcionar ferramentas de ma-
nipulação e fornecer aos gerentes e ana-
listas de negócio condições de análise e
© Rawpixel / / Fotolia
tomada de decisão (TURBAN et al., 2009,
p. 27). Alguns benefícios sobre o uso e a
aplicação do BI nas organizações são:
• buscar o máximo retorno possível sobre o investimento, criando projetos de
tecnologia alinhados às metas estabelecidas pela organização;
• compreender as tendências (métodos preditivos) dos negócios, melhorando a
consistência (certeza) no momento de decisão de estratégias e ações a serem
tomadas;
• facilitar a identificação de riscos, permitindo que estratégias de contingência
sejam criadas e disseminadas;
• realizar planejamento corporativo mais amplo, com a participação do maior
número possível de colaboradores, mesmo que por meio de tecnologias como
wiki, fóruns, chats etc.;
Banco de dados operacional é uma coleção de itens de dados armazenados de forma orga-
nizada para facilitar a recuperação de dados e informações (TURBAN et al., 2010).
• facilitar o acesso e distribuir informação de modo mais amplo e amigável para

aumentar o envolvimento dos colaboradores da organização;
• minimizar o tempo de oferta de dados estratégicos para análise da ocorrência
real da transação ou evento dentro da empresa.
No começo da década de 1990, a maioria das grandes organizações já dispunha
de Centros de Informação (CI) que, em sua maioria, se restringiam a “estocar” os da-
dos e ofereciam pouca disponibilidade de informação. Ainda assim, auxiliavam na to-
mada de decisão com a geração de “relatórios e gráficos gerenciais”.
Com o avanço da tecnologia da informação e o aumento da competitividade empre-

sarial, as organizações passaram a investir em ferramentas que pudessem oferecer infor-
mações precisas e no momento certo para definir ações para a melhoria do desempenho
no mundo dos negócios.
Assim, no início dos anos 1990, surgiu o Data Warehouse (DW), cujo objetivo era
o armazenamento de dados de forma integrada em um único repositório. Sob a ótica
da maioria dos gestores, é importante que a empresa que deseja utilizar ferramentas
de análise de dados e informações disponha de um repositório específico para reunir
os dados já transformados em informações. Esse repositório não precisa ser necessa-
riamente um DW; pode ser desenhado de forma personalizada (para assuntos ou áreas
específicas) ou um banco de dados operacional dedicado ao armazenamento dos da-
dos que serão utilizados na realização das análises e projeções.
Segundo Turban et al. (2010), wiki é uma ferramenta que permite que usuários criem e editem li-
vremente o conteúdo de uma página web por meio de um navegador.
Fórum é um ambiente virtual que serve de apoio para que se possa discutir temas específicos.
Sua interface é assíncrona, por meio de quadro de mensagens, direcionadas a pessoas com
acesso autorizado. As mensagens são estruturadas de forma hierárquica e destacam os assun-
tos das discussões (UFBA, 2007).
Chats são salas de discussão on-line sobre determinado assunto. Também conhecidas como sa-
las de bate-papo, têm como principal característica a comunicação síncrona, ou seja, a possibili-
dade de se enviar e receber mensagens de forma imediata (UFBA, 2007).
Atualmente, a diversidade de produtos de BI é grande e continua em constante

evolução e crescimento tecnológico. As ferramentas de BI têm em comum a caracte-
rística de facilitar a transformação de grandes volumes de dados e informações em um
formato que pode auxiliar os diversos níveis de uma empresa na tomada de decisões.
Entre as diversas opções de formato, destacamos as seguintes:
© Sergey Nivens / / Fotolia. (Adaptado).

Algumas planilhas eletrônicas implementam funcionalidades de BI. Os dados

podem ser classificados, organizados e utilizados para a elaboração de relatórios e
scorecards. Também podem ser empregados recursos analíticos para a visualização e
exploração dos dados.
Scorecard é uma ferramenta que fornece a representação visual dos indicadores-chave de desem-
penho (indicadores selecionados que auxiliam as empresas a medir e gerenciar seu desempenho).
Área de tarefa Recursos Descrição
Dados nativos são dados que não possuem liga-

ção externa. Isso é normalmente utilizado para
Obter dados Dados nativos análises estatísticas de dados atualizados ma-
nualmente. Por exemplo: registro de boletins de
ocorrência em delegacias especializadas.
Dados externos são dados que residem em outro

computador e são acessados por meio de cone-
xões externas. Essas fontes externas podem ser
arquivos txt, formato nativo de outras planilhas,
Obter dados Dados externos
sites e outros. Por exemplo: obtenção de ende-
reço pela internet quando digitado o Código de
Endereçamento Postal (CEP) em um campo de
cadastro.
Um modelo de dados é um conjunto de dados

que contém várias tabelas. Esses modelos são
utilizados para a união de fontes de dados dis-
tintas, com o objetivo de geração de relatórios,
Trabalhar com dados Modelos de dados scorecards e painéis. Por exemplo: reunir dados
como nome e data de nascimento (base de dados
de cadastro) ou compras realizadas em um perío-
do (base de dados de vendas) para oferta de no-
vos produtos para esse cliente.
A análise de tendência é um conjunto de ferra-

mentas de análise de dados que permite que
sejam realizadas simulações para se verificar
Trabalhar com dados Análise de tendências qual(is) o(s) resultado(s) obtido(s). Por exemplo:
utilizando-se métodos matemáticos e estatís-
ticos, verificar qual é o reflexo da alteração do
dól’ar no orçamento mensal da organização.
Os relatórios podem incluir tabelas e gráficos

Criar relatórios Relatórios
(pizza, coluna, linha, barra e radar, entre outros).
Scorecards são tipos especiais de relatórios que

apresentam se o desempenho obtido está (ou
não) alinhado aos objetivos em uma ou mais
métricas. Os scorecards normalmente utilizam
os indicadores-chave de desempenho (KPIs),
que comparam valores atuais a valores previs-
Criar relatórios Scorecards tos, e usam um indicador gráfico, como cores
ou símbolos, para mostrar, de forma gráfica, o
desempenho.
Algumas planilhas permitem que você utilize
KPIs já disponíveis em um banco de dados, mas
também crie os seus.
Exemplos de recursos em planilhas eletrônicas.

Dashboard é uma ferramenta que fornece uma visão abrangente e ao mesmo tempo
resumida do desempenho dos negócios de uma organização. Com uma representação grá-
fica semelhante ao painel de um carro, mostra medidas de desempenho, tendências e ex-
ceções e integra informações de diferentes áreas de negócios (TURBAN et al., 2010)
A solução viabiliza a exploração, visualização e gestão de dados e informações e a
geração de relatórios como forma de monitorar o desempenho e identificar oportuni-
dades de crescimento. Algumas das potencialidades desse tipo de análise podem aju-
dar profissionais de negócio, usuários de TI e desenvolvedores nos seguintes aspectos:
• Transformar dados em relatórios acionáveis, ou seja, transformar dados em re-
latórios que permitam simulações.
• Responder aos questionamentos do negócio, por exemplo: o que acontece se
as vendas diminuírem em 50%.
• Melhorar o processo decisório por meio de apresentações interativas que per-
mitam simulações em tempo real, por exemplo, em dashboards.
• Viabilizar a visão de informações personalizadas, precisas e atualizadas. Nem
todos os usuários devem receber a mesma informação da mesma forma. Por
exemplo: um gestor da área de vendas pode preferir realizar simulações utili-
zando uma planilha enquanto um diretor da mesma área pode preferir a utiliza-
ção dos sliders (como committed e upside).
Agora, vamos abordar um produto que pode se considerado uma ferramenta de
suporte à decisão, o MicroStrategy Business Intelligence corporativo, que nos auxi-
liará a ilustrar alguns conceitos já abordados. Na referida ferramenta existe uma fun-
cionalidade de entrada de dados conhecida como business intelligence de ciclo fechado
(closed-loop), que permite que executivos e demais profissionais passem do insight di-
retamente para a ação de negócios.
1. Coleta
de dados
2. Modelagem
de dados
Ciclo fechado BI
5. Ação
3. Relatório

4. Análise
Fonte: MICROSTRATEGY, 2013. (Adaptado).
Os gestores, por exemplo, podem interagir com os relatórios inserindo dados,

aprovando solicitações, ajustando previsões e adicionando comentários. Essas ações
são enviadas aos sistemas transacionais em tempo real, dando início a determinados
processos e, eventualmente, acelerando as atividades de negócios.
A figura a seguir exemplifica um dashboard da base de vendas de uma empresa fictí-
cia. Observe que o gauge representa o desempenho corporativo; o gráfico de linhas, per-
mite visualizar qual região está tendo melhor desempenho (nesse caso, o Sul); o gráfico de
bolhas permite a análise de agrupamentos e evidencia que a venda de eletrônicos, ainda
que não seja tão alta em quantidade, é a que tem o maior retorno financeiro. A ilustração
também apresenta uma tabela, que mostra que o maior número de livros vendidos no pe-
ríodo em análise é de arte e arquitetura.
Essa potencialidade é interessante, pois uma mesma tela pode permitir diversas aná-
lises sobre um mesmo problema. Por exemplo: observamos que na análise de categorias
os livros têm o maior volume de vendas. Essa mesma subcategoria está detalhada na ta-
bela ao lado, na qual se observa que, de todos os livros, os mais vendidos são de ciência e
tecnologia.
Em posse dessa informação, decisões estratégicas podem ser adotadas: cam-

panhas para promoção de livros na área de literatura (considerando que o volume de
vendas é o menor observado) ou, ainda, convidar especialistas da área de ciência e tec-
nologia para lançamentos de suas obras nessa empresa.

Fonte: MICROSTRATEGY, 2013. (Adaptado).
Exemplo de um dashboard.
1.4 Considerações finais

No ambiente de alta competitividade no qual as empresas estão inseridas, é funda-
mental que o conhecimento, os dados e as informações utilizados como suporte à toma-
da de decisão tenham qualidade e pontualidade, atributos que podem representar não
apenas o lucro ou a perda, mas também o sucesso ou a falência de toda a organização.
Em 2010, a Avanade®, uma empresa que oferece soluções de tecnologia de ne-
gócios, publicou o resultado de uma pesquisa que demonstrou que, apesar de as em-
presas estarem preocupadas com o acúmulo de dados, 46% dos executivos tomam
decisões incorretas porque se apoiam em informações imprecisas ou desatualizadas. O
estudo, intitulado The Business Impact of Big Data, envolveu 543 empresas de grande
porte em 17 países da América do Norte, Europa e Ásia (AVANADE, 2010).
Big data pode ser definido como um enorme conjunto de dados que requer ferramentas pre-
paradas para lidar com grandes volumes, de forma que toda e qualquer informação possa ser
encontrada, analisada e aproveitada em tempo aceitável para tomada de decisão (HILBERT,
2013).
Ainda em 2011, a IDC (International Data Corporation), uma das principais empre-
sas de pesquisa de mercado norte-americana, publicou um relatório segundo o qual o
volume de dados nas empresas dobra a cada 18 meses e as projeções do Gartner sinali-
zam que as bases de dados deveriam aumentar 650% até 2016 (SOARES, 2011).
Segundo Olavsrud (2014), os três Vs (volume, velocidade e variedade) do big data
continuarão crescendo em 2014 e novas ferramentas de análise (inclusive SADs) serão
necessárias para explorar essa grande massa de dados. Olavsrud prevê que novas solu-
ções de banco de dados, análise e visualização irão surgir no mercado.
Na avaliação do vice-presidente da Avanade, Tyson Hartman, as companhias não
estão conseguindo gerenciar seus dados de maneira satisfatória, pois a quantidade de
informações não estruturada está aumentando e a falta de controle está impactando
nos resultados dos negócios. Prova disso é que a pesquisa realizada ainda apontou que
56% dos executivos entrevistados relevaram “sobrecarga de informações” no dia a dia
e 61% disseram que precisariam de acesso direto e rápido para reduzir as incertezas
das decisões (AVANADE, 2010).
Percebe-se que é necessário identificar como, em qual contexto e por quem de-
terminada informação será utilizada e o que ela deve apresentar como características
básicas: exatidão, formato e confiabilidade. Em outras palavras, a tecnologia por si só
não é suficiente para agregar valor aos negócios das organizações; é preciso tecnolo-
gia, dados, informações, conhecimentos e, principalmente, pessoas capacitadas.
Como vimos, as soluções de SAD automatizadas são diversas e a escolha depen-
de das necessidades de cada organização, considerando-se, entre outros aspectos: va-
lor disponível a ser investido, compatibilidade da ferramenta com o atual fornecedor
do banco de dados da organização, compatibilidade da ferramenta com eventuais sis-
temas legados, os relatórios esperados e manutenção e suporte da ferramenta, além
de outros aspectos de análise de sistemas.
Referências
AVANADE. Global Survey: the business impact of big data. Disponível em: <http://www.
avanade.com/Documents/Research%20and%20Insights/Big%20Data%20Executive%20
Summary%20FINAL%20SEOv.pdf>. Acesso em: 22/07/2014.
BRASIL FOODS. Site da empresa. Disponível em: <http://www.brasilfoods.com/ri/siteri/
web/conteudo_pt.asp?idioma=0&conta=28&tipo=32151>. Acesso em: 30/09/2013.
CHIAVENATO, I. Administração nos Novos Tempos. Elsevier: Rio de Janeiro, 2004.
HILBERT, M. Big Data for Development: from information to knowledge societies.
Janeiro de 2013. Disponível em: <http://papers.ssrn.com/sol3/papers.cfm?abstract_
id=2205145>. Acesso em: 08/02/2014.
LACOMBE, F.; HEILBORN, G. Administração: princípios e tendências. São Paulo: Saraiva,
2003.
MACHADO, A. C. Sistema de Informações para Gestão Econômica no Comércio
Varejista: estudo dos principais modelos de decisões envolvidos. Dissertação. Faculdade
de Economia, Administração e Contabilidade da Universidade de São Paulo. São Paulo:
1997.
MICROSOFT. Recursos de BI no Excel e nos Serviços do Excel (SharePoint Server 2013).
Disponível em: <http://technet.microsoft.com/pt-br/library/jj219751.aspx>. Acesso em:
07/10/2013.
MICROSTRATEGY. Business Intelligence para a Empresa. Disponível em: <http://www.
microstrategy.com.br/software/business-intelligence/>. Acesso em: 08/10/2013.
MOORE, J. H.; WEATHERFORD, L. R. Tomada de Decisão em Administração com
Planilhas Eletrônicas. 6. ed. Porto Alegre: Bookman, 2005.
MUNDO VERDE. Site da empresa. Disponível em: <http://www.mundoverde.com.br/mis-
sao-e-visao/>. Acesso em: 30/04/2014.
O´BRIEN, J. A.; MARAKAS, G. M. Administração de Sistemas de Informação. 15. ed. São
Paulo: McGraw-Hill, 2012.
OLAVSRUD, T. Big Data: veja 10 tendências para 2014. In: Computerworld. Janeiro de
2014. Disponível em: <http://computerworld.com.br/tecnologia/2014/01/06/big-data-veja-
-dez-tendencias-para-2014/>. Acesso em: 08/02/2014.
PIATETSKY-SHAPIRO, G. Knowledge Discovery in Real Databases: a report on the
IJCAI-89 Workshop. AI magazine, v. 11, n. 4, p. 68, 1990.
ROBBINS, S. P. Administração: mudanças e perspectivas. São Paulo: Saraiva, 2006.
SANTOS, E. S.; PONTE, V. Modelo de Decisão em Gestão Econômica. In: Caderno de

Estudos ou Revista Contabilidade & Finanças. Disponível em: <http://www.scielo.br/
scielo.php?pid=S1413-92511998000300004&script=sci_arttext>. Acesso em: 08/02/2014.
SAP. Sap Crystal. Disponível em: <http://www.sap.com/brazil/solutions/sap-crystal-solu-
tions/it-users/index.epx>. Acesso em: 07/10/2013.
SOARES, E. Quase Metade das Empresas Usa Dado Errado para Tomar Decisão. 2011.
Disponível em: <http://computerworld.com.br/gestao/2011/03/28/quase-metade-das-em-
presas-usa-dado-errado-para-tomar-decisao/>. Acesso em: 22/07/2014.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do ne-
gócio. Porto Alegre: Bookman, 2009.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
UFBA. Oficina de Moodle Online: projeto formação de professores para a docência onli-
ne. 2007. Disponível em: <http://www.moodle.ufba.br/mod/resource/view.php?id=12356>.
Acesso em: 08/02/2014.
2 Data warehouse
© everythingpossible / / Fotolia
Este capítulo tem como objetivo apresentar os benefícios dos data warehouses
e data marts, que operam integradamente com os sistemas de informações geren-
ciais para fornecer suporte a níveis mais precisos e coerentes de decisões de negócios.
São explorados também os principais conceitos e ferramentas vinculados aos data
warehouses, notadamente a modelagem multidimensional de dados e os servidores
OLAP, com suas características, fundamentos, tipos e recursos.
Data mart é uma versão reduzida dos data warehouses, com menor custo. Em outras palavras,
podemos dizer que um data mart é um pequeno data warehouse projetado para uma unidade es-
tratégica de negócio ou departamento (TURBAN et al., 2010).
Segundo Turban et al. (2009), data warehouse é um tipo de Banco de Dados (BD)
preparado para dar suporte a aplicações de tomada de decisão ou para agregar dados
oriundos do BD operacional para fins de análise, entre os quais destacamos a análise
de tendências de mercado e o suporte ao planejamento e à tomada de decisão.
O principal benefício trazido pelo data warehouse é a integração e a organização
dos dados de toda a empresa em um formato específico. Esse formato de organização
de dados obedece ao modelo multidimensional, que dá a oportunidade de avaliar si-
multaneamente um mesmo fato sob diferentes pontos de vista e possibilita a desco-
berta de comportamentos e eventos ocultos no grande volume de dados.
2.1 Fundamentos
O primeiro disco rígido foi inventado em
1956 pela IBM (modelo 350, parte do compu-
tador IBM 305 RAMAC) e deu início ao pro-
cesso de armazenagem de dados. Esse
dispositivo servia basicamente para o
armazenamento de dados operacio-
nais (aqueles que são gerados du-
rante um processo de atividade-fim,
como um registro telefônico, uma
venda, uma compra, um depósito
bancário etc.). Por exemplo, os regis-
tros de uma venda eram armazena-
dos para propósitos contábeis e fiscais
e continham dados brutos gerados du-
rante os processos da atividade-fim da

© Sara Berdon / / Fotolia. (Adaptado).
organização.
Rapidamente se observou um processo de arma-
zenagem massiva de dados, atingindo o nível em que havia mais dados sendo registra-
dos do que a capacidade de interpretá-los. Esse processo durou décadas e representou
um avanço substancial em termos de tecnologia de negócios.
Comparando aos dias de hoje, podemos observar uma enorme discrepância no

uso da tecnologia de computação. No passado (por volta de 40 anos atrás), o propó-
sito era o mero processamento dos dados, realizado por meio de programas isolados.
Hoje a agressividade do mundo dos negócios requer mais e a tecnologia de compu-
tação visa dar suporte para a tomada de decisões em níveis gerencial e estratégico.
Atualmente, procura-se usar a tecnologia de informação para tornar a empresa mais
inteligente.
Os dados continuam a ser gerados em volume avassalador e sua análise requer
estratégias sofisticadas. Nesse contexto, surgem duas tecnologias que oferecem ferra-
mentas para apoio à alta administração: data warehouse e OLAP.
O data warehouse (armazém de dados) procura integrar, transformar e armazenar
informação em uma disposição e organização que permita sua análise. Semelhante às
bases de dados operacionais, o data warehouse também é uma base de dados, embora
apresente características próprias de organização, que em geral assumem os modelos

estrela, floco de neve ou a combinação dos dois.
As bases operacionais visam registrar dados operacionais, ou seja, os dados gera-
dos durante os processos operacionais de uma organização. Esses dados são armaze-
nados em uma estrutura que privilegia a execução das diversas operações de negócio
que transcorrem enquanto a empresa está em funcionamento. Por serem dedicadas
ao processamento de transações, são muitas vezes chamadas de On-Line Transaction
Processing (OLTP). São sistemas dedicados a registrar as transações contidas em de-
terminado domínio e com vistas a satisfazer algum processo de negócio.
O data warehouse é um repositório de dados especial, que mantém estreita rela-
ção com as outras bases de dados existentes em uma organização.
O ambiente que integra um data warehouse obedece a uma arquitetura já estabe-
lecida. Nele podemos ver que a entrada desse repositório de fatos e dimensões é o re-
sultado de um processo chamado ETL (do inglês extract, transform, load – ou “extrair,
transformar, carregar”), que funciona como um tradutor de diversas bases de dados
para um padrão consistente.
O ETL opera em diversas bases operacionais, cujos dados são gerados quando os
processos da empresa estão em atividade. Diversos sistemas armazenam seus dados
em variadas formas, convenções e padrões. Como o data warehouse é um repositório
que faz uso de todos esses dados, eles precisam ser inteiramente compatibilizados, e o
ETL executa essa tarefa.
© Nmedia / / Fotolia
A partir do data warehouse construído e alimentado com os dados operacionais

tratados pelo ETL, as saídas são formas variadas, voltadas à análise sofisticada, que
ajudam na tomada de decisões mais inteligentes (decisões que revertam em benefí-
cios), munida de dados mais precisos e valiosos obtidos a partir da análise cruzada de
diversos eventos identificados.
Por exemplo, um supermercado poderia efetuar o processo de ETL sobre suas ba-
ses de dados operacionais de compras e vendas e constituir um data warehouse que
lhe permitisse uma melhor predição de volume de demanda de determinados produtos
em certas épocas do ano. E, com essa informação, poderia aprimorar seu controle de
estoque e elevar margens de lucro.
O data warehouse é preenchido com dados traduzidos ou gerados a partir dos da-
dos operacionais. Ou seja, não se trata da entrada de dados a partir de usuários. Esses
dados são organizados com o propósito claro de permitir a análise e a consulta, não o
registro puro e simples para processamento.
Há algumas características marcantes em um data warehouse (KIMBALL; ROSS,
2002):
1 Conteúdo não volátil.
2
Orientado por assunto.

© garrifrotto / / Fotolia. (Adaptado).
3 Integrado.
2.1.1 Características
Uma base de dados operacional sofre a inclusão de novos dados, em alguns ca-
sos, a todo momento. Por exemplo, uma operadora de telefonia celular registra uma li-
gação ou o envio de uma mensagem de texto (SMS) no momento em que ocorre, para
efeitos de cobrança posterior. Quando uma ligação é encerrada, o registro que arma-
zena seu início precisa ser atualizado para conter a duração total da ligação, visto que
com base nesse dado (duração) será realizada a cobrança. Nota-se, então, que a base
de dados operacional pode sofrer alterações nos dados que armazena. Como os dados
podem ser atualizados, são considerados voláteis.
Ou seja, um registro que foi em dado momento incluído poderá ser posterior-
mente alterado ou excluído.
Observe-se que não faz diferença se um sistema de segurança impede algumas
pessoas de alterarem ou excluírem dados da base. Se ela foi projetada para admitir
(mesmo que em situações especialíssimas) essas operações, podemos afirmar que es-
ses dados são voláteis.
Os dados reunidos em um data warehouse não são voláteis. Uma vez armazena-
dos, não mais sofrerão alterações e poderão existir por muitos anos (TANLER, 1998).
Quando atingirem uma idade que torne seu valor desprezível para as análises, poderão
ser removidos. Por esse motivo, os dados são marcados com um selo temporal (times-
tamp), com o qual se poderá avaliar sua idade e seu valor analítico.
Um data warehouse é composto por dados operacionais consolidados e sumariza-
dos e representa uma fotografia de um momento da organização. Assim como em um
filme, que é formado por diversas fotografias em sequência, o data warehouse armaze-
na diversos momentos de um organismo empresarial, visando permitir a comparação
desses momentos para a realização de análises comportamentais com vistas à geração
de informação.
Quando observamos um único fotogra-
ma de um filme, temos uma ideia limitada do
todo. Apenas um momento congelado no tem-
po. Mas quando vários fotogramas são coloca-
dos em movimento, o filme dinâmico nos dá
uma noção muito mais vívida e rica dos aconte-
cimentos e permite até mesmo que possamos
compreender as origens da situação para, as-
sim, supor possibilidades de futuro.
O mesmo ocorre em um data warehouse.
Seu conteúdo não é volátil por tratar-se de um
conjunto de registros históricos que poderão
ser altamente otimizados para efeitos de con-
© ra2 studio / / Fotolia
sulta. Esse aspecto histórico do conteúdo do

data warehouse é normalmente referido como
time-variant (variável ao longo do tempo).
Em uma base operacional, os dados são organizados de forma a facilitar a opera-
ção das aplicações que os produzem e processam. Podemos dizer que os critérios para
organização dos dados são basicamente técnicos e tecnológicos. As tabelas são criadas
e relacionadas para que as aplicações que as utilizam possam realizar sua operação de
forma rápida, segura e correta. Normalmente também incluem outros critérios tecnoló-
gicos como escalabilidade e manutenibilidade, além de boas práticas geralmente provi-
das pelas disciplinas da engenharia de software.
Escalabilidade é a capacidade que um sistema apresenta de manter sua operação em um nível

de qualidade considerado aceitável mesmo quando submetido ao crescente aumento na carga
de trabalho.
Manutenibilidade é a capacidade do produto de software ser modificado. As modificações

podem incluir correções, melhorias ou adaptações do software devido a mudanças no ambiente e
em seus requisitos ou especificações funcionais (NBR ISO/IEC 9126-1).
Em um data warehouse, por outro lado, o objetivo principal é a consulta e a aná-

lise para descobrir informações e novos conhecimentos. Nesse sentido, a organização
dos dados é fortemente influenciada pelo tipo de questionamento a que será subme-
tido. Por exemplo, se a organização está interessada em conseguir melhores decisões
no que tange a seu fluxo de caixa, o data warehouse será organizado para armazenar
os dados que descrevem esses fluxos e relacioná-los com outros dados vinculados, de
forma a rastreá-los mais rapidamente.
O projeto de um data warehouse está focado primeiramente em necessidades de
negócio (KIMBALL; ROSS, 2002). Por esse motivo, conceitos e variáveis relacionados à
área de negócio e ao modelo comercial e financeiro da organização certamente terão
forte influência nessa estrutura, que será dedicada a prover o mais rapidamente possí-
vel os cruzamentos de dados mais importantes para a tomada de decisões inteligentes.
Uma organização é composta por di-
versas divisões, departamentos, seções ou
setores. Geralmente, cada uma dessas uni-
dades menores terá algum tipo de suporte
computacional, realizado na forma de apli-
cações desenvolvidas especificamente para
otimizar seus processos operacionais.
Por exemplo, no setor de RH encon-
© vizafoto / / Fotolia
traremos um sistema de folha de paga-

mento que visa fornecer facilidades para a
elaboração e o controle dos pagamentos
dos funcionários. Já no departamento financeiro haverá um sistema de contas a pagar

e a receber, visando dar suporte às operações que envolvem o fluxo de caixa da empre-
sa. Geralmente, cada um desses departamentos opera de forma independente e, as-
sim, faz uso de aplicações e bases de dados também independentes.
O data warehouse tem um objetivo integrado, pois visa fornecer subsídios para
a alta administração. Nesse nível estratégico, a organização tem que ser vista como
um sistema completo e integrado de partes articuladas. As perguntas e análises terão
um escopo sistêmico, ou seja, versarão sobre toda a empresa, não apenas suas par-
tes. Quando uma empresa constrói um data warehouse, integra nele os dados de di-
versos departamentos, com o objetivo de realizar análises que evidenciem relações de
desempenho existentes entre os diversos departamentos com vistas a um ganho cor-
porativo. Um Data Warehouse é integrado, isto é, é um repositório derivado de dados
originados de todos os departamentos da empresa. Possui, portanto, um escopo sistê-
mico e possibilita análises que envolvam todas as áreas.
Assim, um data warehouse apresenta um desafio particular em sua implementa-
ção: armazenar dados operacionais provenientes de diversas fontes, não necessaria-
mente compatíveis (KIMBALL; ROSS, 2002).
Documentos Análise de cenários

eletrônicos Data mart
1
Data mart Análise estatística

Sistemas legados 2
Data mart Análise

ETL 3 multidimensional
Sistemas OLTP Data mart

4 Relatórios
Data mart
n
Arquivos isolados Planejamento
Fontes de dados Data warehouse Aplicações de negócios

central
Os dados de origem precisarão ser compatibilizados, padronizados e submeti-

dos a convenções para que possam ser inseridos no data warehouse de maneira con-
sistente. Essa etapa geralmente é uma das mais complexas no início do projeto de
qualquer data warehouse e poderá representar a diferença entre o sucesso e o fracasso
do empreendimento. O processo responsável por essa compatibilização é chamado de
Extract-Transform-Load, ou simplesmente ETL.
É concebível, também, que se construa uma versão mais limitada de um data
warehouse, que contenha unicamente dados de determinada área. É possível, por
exemplo, construir um “mini data warehouse” do departamento financeiro com vistas
ao suporte apenas nas tomadas de decisões mais inteligentes dessa área. A ideia será
a mesma: reunir dados derivados de todos os registros operacionais (de natureza fi-
nanceira, nesse caso) e, assim, dar ao departamento financeiro condições de melhorar
suas estratégias. Esse “mini data warehouse” é conhecido como data mart.
Uma forma alternativa de descrever um data mart é considerá-lo uma porção ou sub-
conjunto de um data warehouse. Assim, um data warehouse pode também ser entendido
como um conjunto de data marts que, ao mesmo tempo que compõe o data warehouse,
também constitui visões parciais, dedicadas ao uso dos diversos departamentos.
Por ter um escopo mais restrito, o custo de construção de um data mart é signifi-
cativamente menor que de um data warehouse, o que muitas vezes é um dos motivos
que justificam seu desenvolvimento.
Por exemplo, uma empresa composta por diversos departamentos (financeiro, de
compras, estoque etc.), cada um com seu próprio data mart, poderá construir um data
warehouse que integre todos eles com vistas a potencializar ainda mais os benefícios
que já são oferecidos.
De uma forma geral, os itens de dados presentes dentro de um data warehouse
são conhecidos como fatos. Um fato descreve um evento de interesse registrado e é
caracterizado por uma métrica, que é um valor que descreve uma propriedade numéri-
ca de um fato (KIMBALL; ROSS, 2002).
Chamando...
Chamando...
Chamando...
© PureSolution / / Fotolia. (Adaptado); © Happy Art / / Fotolia. (Adaptado).

Chamando...
Chamando...

Chamando...
Por exemplo, consideremos uma empresa de telefonia celular e os registros de li-

gações de seus clientes. Em um dado minuto, por exemplo, são gerados mil registros
de ligação na base operacional. Dessas mil ligações, 820 foram conectadas com suces-
so, mas 180 encontraram o sistema sobrecarregado e não puderam ser completadas.
Esses mil registros da base operacional, quando transportados para o data warehouse
(ou data mart), produzirão três fatos, que são a ocorrência de ligações, das quais algu-
mas foram completadas com sucesso e outras foram rejeitadas. A métrica, nesse caso,
é a quantidade de ligações que se enquadram em cada fato:
• Quantidade de ligações total: 1.000.
• Quantidade de ligações completadas: 820.
• Quantidade de ligações rejeitadas: 180.
Imediatamente notamos que os mil registros operacionais não foram inteiramen-

te transportados para o data warehouse, mas sim um resumo essencial do que real-
mente é importante para efeitos de análise de disponibilidade do sistema. Esses são os
fatos brutos (raw facts), e já permitem certo grau de análise e conclusão, mas podem
ser muito enriquecidos quando organizados em dimensões.
Dimensão é um agrupamento de fatos com vistas à filtragem, agrupamento ou
rotulação. Frequentemente, as dimensões apresentam um grande número de atribu-
tos textuais que explicam, no vocabulário da cultura da organização, o significado da
dimensão.
Em nosso exemplo, os fatos relacionados ao volume de ligações feitas, completa-
das e rejeitadas podem ser agrupados em termos do horário em que ocorrem e assim
produzir uma dimensão chamada horário, que permitiria avaliar em quais momentos
do dia a infraestrutura telefônica fica mais sobrecarregada.
Outra dimensão chamada bairro po-
deria ser criada para dispor os mesmos fa-
tos organizados segundo os bairros em
que as ligações foram originadas e, assim,
permitir avaliar quais estão mais bem pro-
vidos de antenas e quais estão menos.
Temos então duas dimensões isoladas (dois
agrupamentos diferentes para os mesmos
fatos) que poderão ser cruzadas para per-
mitir uma conclusão importante: qual bair-
© vizafoto / / Fotolia
ro está menos provido de antenas e em que

momento do dia esse problema se mostra
mais crítico.
Há ainda a possibilidade de criar uma nova dimensão que agrupe os fatos por re-
torno financeiro, ou seja, quanto de lucro cada ligação avaliada fornece. Juntando-se
essa dimensão às outras duas, podemos decidir se os bairros com maiores problemas
são os mais ou menos rentáveis e se devemos ou não investir neles prioritariamente.
Percebemos que os fatos são sempre os mesmos, mas as diversas dimensões pro-
duzem interpretações diferentes e seu cruzamento fornece condições para uma deci-
são estratégica mais sofisticada, que é a motivação primária do data warehouse.
2.1.2 Organização dos dados

A forma de acessar os fatos e as dimensões é o principal fator para o sucesso ou in-
sucesso de um data warehouse e tem um efeito direto e imediato nos resultados.
A forma como os dados estão organizados terá impacto significativo na capacida-

de de análise do conteúdo do data warehouse. Há duas grandes vertentes ou modelos
para a organização de dados em um data warehouse:
• Organização dimensional, proposta por Ralph Kimball (KIMBALL; ROSS, 2002).
• Organização normalizada, proposta por Bill Inmon (INMON, 2005).
Na abordagem de Ralph Kimball, os dados estão organizados segundo os fa-
tos e dimensões, que são diretamente derivados da área de negócios que fará uso do
data warehouse/data mart. Por isso, esse modelo tende a prover uma organização de
compreensão intuitiva para o usuário, pois sua terminologia e seus conceitos são os
mesmos usados para construir os fatos e as dimensões. Outra vantagem é que essa or-
ganização costuma apresentar um bom desempenho nas consultas, o que certamente
contribui com os resultados esperados.
Ralph Kimball é PhD em Engenharia Elétrica pela Stanford University. Desde 1982 desenvol-
ve pesquisas e conceitos vinculados ao data warehouse e é o autor da proposta de organização
multidimensional.
Quando organizados dimensionalmente, os fatos assumem o que se chama de

conformação em esquema estrela (star schema). Esse esquema distribui os dados em
tabelas de fatos (que registram as métricas relativas aos eventos de interesse) e ta-
belas de dimensão (que constituem atributos relacionados aos fatos). Nesse caso,
os fatos apresentam uma série de chaves estrangeiras para as diversas dimensões.
Graficamente, temos uma tabela de fatos rodeada e relacionada com inúmeras tabelas
de dimensão, o que lembra a imagem de uma estrela.
Dim_Data Dim_Filial
Id Id
Data Endereço
DiaDaSemana País
Ano Gerente
Fato_Vendas
Id_Data
Id_Filial
Id_Produto
VolumeVendido
Dim_Produto
Id
Exemplo de tabelas no esquema estrela. Descritivo
Marca
Categoria
Com as tabelas-fato relacionadas às tabelas-dimensão, temos a possibilidade de

executar consultas com joins envolvendo fatos e dimensões, o que virá a produzir as
diversas interpretações desejadas.
Join é uma operação muito utilizada em sistemas de banco de dados relacionais, que consiste
em vincular linhas de duas ou mais tabelas por meio de algum atributo comum entre elas.
Esse modelo requer que as regras de normalização das tabelas que compõem o
banco de dados sejam relaxadas, o que produzirá um esquema de banco de dados não
normalizado.
Normalização de dados é o processo de aplicar um conjunto de regras que norteiam a organi-

zação dos dados em um banco de dados relacional. Essas regras promovem a armazenagem
consistente e eficiente dos dados, pois reduzem sua redundância (CODD, 1970).
A principal vantagem da organização dimensional é a possibilidade de criação

de consultas mais simples e com melhor tempo de resposta. Por outro lado, a falta de
normalização entre as tabelas cria a duplicação de dados e a possibilidade real de pro-
blemas de consistência. As funcionalidades para garantia de integridade entre os da-
dos têm menos espaço para aplicação. Isso quase nunca é um problema, porque em
geral os dados são inseridos no data warehouse por meio de operações em lote auto-
matizadas que, se programadas com cuidado, evitarão as inconsistências.
O modelo de Bill Inmon respeita de forma estrita as regras de normalização de
bancos de dados relacionais. Como resultado, o que se tem é um conjunto maior de ta-
belas e uma grande quantidade de relacionamentos entre elas. Não existem duplica-
ções ou inconsistências, mas determinados conceitos poderão ser separados em mais
de uma tabela por efeito das regras de normalização.
William (Bill) H. Inmon é um cientista da computação americano a quem se atribui a criação

dos sistemas de data warehouse. Foi ele quem classificou esse tipo de sistema como orientado
por assunto, não volátil, variante no tempo e integrado.
O aspecto positivo dessa abordagem é o fato de ter à disposição todas as ferra-

mentas fornecidas pelos sistemas gerenciadores de banco de dados que asseguram a
consistência dos dados, pois a base de dados respeita as regras de normalização.
Após a normalização dos dados, a distribuição gráfica das tabelas em um diagra-
ma lembra (para alguns) a imagem de um floco de neve (snowflake schema), o que ori-
ginou seu nome.
Tabela-detalhe Tabela-detalhe Tabela-detalhe Tabela-detalhe
Tabela-dimensão Tabela-dimensão
Tabela-fato
Tabela-detalhe

Tabela-dimensão
Exemplo de tabelas no esquema floco de neve.
A grande quantidade de tabelas e relacionamentos pode fazer com que algumas

consultas fiquem complexas o suficiente para exigir que o modelo entidade-relacio-
namento (E-R) correspondente seja conhecido pelos usuários. Além disso, essas con-
sultas serão menos intuitivas porque a organização dos dados obedece aos critérios
técnicos, e não de negócios.
Nesse modelo, tabelas de detalhe aparecem para conter os dados que de outra
forma estariam duplicados em diversas tabelas de dimensão. Ao sofrer a normaliza-
ção, o modelo cresce em complexidade, mas diminui a duplicação de dados.
2.1.3 Construção
A construção de um data warehouse tem um objetivo claro: ajudar a empresa a
tomar decisões mais inteligentes, embasadas em análises de cruzamentos dos dados
que foram sumarizados a partir de registros operacionais de vários sistemas.
Por tratar-se de uma ferramenta sistêmica, o processo de construção de um data
warehouse pode ser caro, demorado e muito complexo. Os detalhes desse proces-
so têm relação direta com as condições financeiras e tecnológicas da organização no
momento em que o projeto é iniciado. Basicamente, existem dois grandes modelos de
trabalho:
• Modelo bottom-up, proposto por Ralph Kimball (KIMBALL; ROSS, 2002).
• Modelo top-down, proposto por Bill Inmon (INMON, 2005).
Ralph Kimball (KIMBALL; ROSS, 2002) propôs um método de desenvolvimento
de data warehouses conhecido como bottom-up, ou seja, um modelo ascendente. É as-
sim chamado porque se inicia pelo desenvolvimento de data marts dedicados a áreas
de negócio específicas. Entende-se como ascendente porque os data marts prelimina-
res funcionam como pilares para a construção do data warehouse. Como se inicia pelos
fundamentos e então se atinge o topo, é um método que vai de baixo para cima.
Uma virtude evidente dessa abordagem é permitir um avanço progressivo e ga-
nhos em capacidade de análise e inteligência, que se mostram tão logo o primeiro data
mart fique pronto. Também tem o benefício de servir como projeto piloto e dar condi-
ção de experimentação em uma escala mais restrita, em um universo mais controlado.
Por exemplo, um data mart da área de vendas pode ser escolhido para iniciar o proces-
so. Dificuldades tecnológicas e culturais já serão sentidas e poderão ser tratadas mais
rapidamente, servindo de experiência para as etapas posteriores.
Em contrapartida, esse método de
trabalho permite apenas uma visão parcial
das situações que serão vivenciadas no de-
senvolvimento dos próximos data marts.
É possível que a equipe de vendas esteja
culturalmente mais preparada para fazer
uso dessa ferramenta e que as aplicações
usadas por essa equipe forneçam mais fa-
cilmente seus dados operacionais para a
© evildark / / Fotolia
alimentação do data mart do que os ou-

tros setores. Ao se experimentar com certo
departamento, pode ser que várias diferenças existentes nos outros departamentos não
sejam percebidas, o que certamente vai gerar dificuldade inesperada e frustrações.
Outro fator impactante é que, ao se construir o data mart sem colocá-lo sob a pers-
pectiva de um sistema integrado (data warehouse), este pode ser organizado para operar
muito bem isoladamente, mas não quando estiver integrado a outros data marts.
Um artefato fundamental para essa abordagem é a construção do barramento, ou
bus, que é o ponto de encontro entre os vários data marts e é constituído por um con-
junto de dimensões de conformidade. Essas dimensões (que serão comuns a todos os
data marts) estabelecerão um conjunto de padrões que permitirá que cada data mart
seja acessado pelo data warehouse.
Assim, desde o primeiro data mart já deverá existir a preocupação com dimen-
sões de conformidade, que deverão ser as mesmas para os próximos data marts. É
possível que a construção do segundo data mart mostre que certas dimensões de con-
formidade não estão em condições de servi-lo tão bem quanto serviram ao primeiro
data mart. Será o caso de adaptar essas dimensões, o que invariavelmente provocará a
necessidade de manutenção no data mart que já estava em atividade.
OLTP Documentos Outras fontes

eletrônicos
ETL
Data mart Data mart Data mart

1 2 3
Barramento de dimensões de conformidade
Processo de construção bottom-up do data warehouse.

A resistência em mudar produtos já terminados e em operação (os diversos data

marts) terá que ser vencida em favor de uma visão sistêmica (o futuro data warehouse).
O esforço poderá ser grande, mas, com o barramento em perfeito funcionamento, o
data warehouse proverá o cruzamento de dimensões pertencentes a diferentes depar-
tamentos, o que representa um ganho de valor inestimável para as análises que serão
realizadas.
O modelo proposto por Bill Inmon (INMON, 2005) aborda o data warehouse com-
pleto como o primeiro objetivo, para depois desdobrar os diversos data marts na forma
de visões do conteúdo corporativo. Novamente existe o data warehouse estabelecido
sobre um conjunto de data marts, que operam como pilares.
Nessa estratégia, o processo de construção parte do data warehouse e termina nos
data marts. Por esse motivo, essa abordagem é chamada de cima para baixo (top-down),
ou descendente.
Documentos
OLTP Outras fontes
eletrônicos
ETL
Data warehouse corporativo

Data mart Data mart Data mart

1 2 3
Desenvolvimento top-down.
Esse modelo é baseado em um esquema de dados totalmente normalizado e so-

lidamente construído, para depois desenvolver as diversas dimensões que estarão dis-
ponibilizadas pelos data marts. O data warehouse é o núcleo do que se chama Fábrica
de Informações Corporativas (Corporate Information Factory – CIF), que fornece a estru-
tura lógica que conecta todas as dimensões em todos os data marts.
Como ponto forte, esse modelo mostra-se robusto e bastante adaptável a mu-
danças na estrutura do negócio. A produção de novas dimensões sobre os dados já es-
truturados é uma tarefa relativamente simples.
A principal desvantagem da abordagem descendente é seu tempo de desenvolvi-
mento. Os resultados do produto somente são perceptíveis após a conclusão de todo o
trabalho.
2.2 OLAP
Dado que um data warehouse é uma base de dados, as informações nele armazena-
das podem ser analisadas por meio de linguagens de consulta, como SQL. Os dados estão
todos armazenados e relacionados, mas isso não quer dizer que a elaboração das queries
(consultas) seja simples.
As pressões mercadológicas exigem resultados rápidos e de fácil interpreta-
ção. E, em resposta a essa demanda, existem as ferramentas de OLAP (TURBAN;
VOLONINO, 2013).
O on-line analytical processing (processamento analítico interativo), ou simples-
mente OLAP, apresenta-se como um recurso que coopera com o data warehouse e
procura aumentar as oportunidades e estratégias de análise de dados para, com isso,
evidenciar relações e fatos presentes na enorme massa de dados armazenados.
Diferentemente de uma base de dados relacional composta de tabelas relacionadas
por meio de campos simples que funcionam como chaves estrangeiras, uma base OLAP
é constituída por agrupamentos de dados (fatos) diretamente conectados a outros agru-
pamentos de dados (dimensões). Enquanto a estruturação de uma base de dados rela-
cional tem propósito geral, para acomodar diversos tipos de aplicação, a estrutura de
uma base OLAP é dedicada ao processo de análise multidimensional.
Os dados são gerados a partir da interação dos usuários finais com os diversos
sistemas de informação em operação e posteriormente são importados, filtrados
(dado que nem todos os dados são relevantes, os menos importantes são deixados de
lado) e inseridos no data warehouse, onde deixarão de ser dados operacionais e passa-
rão a ser analíticos.
Diversas são as oportunidades de pôr um OLAP em operação. Um supermerca-

do, por exemplo, pode construir um OLAP para avaliar o fluxo de estoque de produtos
ao longo do tempo para avaliar as melhores épocas para investir em certos produtos.
Outro exemplo poderia envolver uma empresa de consultas públicas, que alimentaria
sua base de dados com as diversas respostas obtidas em seus questionários e poderia
fazer análises de tendências em certas épocas do ano e em diferentes regiões do país,
para assim perceber as diferenças de tendências em face de condições diversas.
2.2.1 Fundamentos de OLAP

Como sabemos, um data warehouse é composto por uma série de tabelas-fato,
que constituem o registro de métricas sobre eventos relevantes a respeito dos proces-
sos de negócio. Esses fatos estão vinculados a dimensões que são características e de-
talhes dos fatos sob determinado ponto de vista. A análise dessas dimensões se torna
interessante quando existe o cruzamento de diversas delas, permitindo observar suas
influências em conjunto (GORDON; GORDON, 2006).
Por exemplo, poderíamos organizar uma tabela cruzada (cross table) baseada nos
fatos registrados pela empresa de telefonia celular. O fato poderia ser a quantidade de
ligações rejeitadas. Uma forma potencialmente interessante para um analista realizar
avaliações poderia ser dada pela tabela a seguir:
Bairro 1 Bairro 2 Bairro 3 Bairro 4

Manhã 128 54 0 45 Design Gráfico: Carlos Henrique Stabile
Tarde 67 98 13 425
Noite 3 0 0 12
Exemplo do cruzamento de duas dimensões de dados.
Percebemos aqui o cruzamento de duas dimensões (bairro e período) em um

dado mês e a totalização das ligações rejeitadas pelo sistema telefônico em diversos
locais da cidade, em diferentes períodos. Naturalmente, duas dimensões produzirão
uma estrutura tabular, que geometricamente poderia ser chamada de plano, que à se-
melhança do plano da geometria também apresenta duas dimensões.
Períodos do dia

Meses
Bairros
Cubo OLAP construído pela superposição de várias tabelas.
Podemos agora imaginar que várias dessas tabelas podem ser geradas, uma para
cada dia, e superpostas ao longo dessa terceira dimensão. Estaríamos assim adicio-
nando um terceiro eixo e todas essas métricas ganhariam a forma de um cubo.
O conceito central dessa ferramenta é o cubo OLAP. Um cubo OLAP é uma orga-
nização simultânea de diversas dimensões. Se imaginarmos o cruzamento de três des-
sas dimensões, teremos condição de visualizar os fatos organizados na forma de um
cubo geométrico, o que origina o nome dessa estrutura.
No entanto, a tecnologia nos permite extrapolar para modelos com mais dimensões.
Por causa dessa capacidade, esse cubo OLAP é muitas vezes chamado de hipercubo.
Em geometria, um hipercubo é um análogo multidimensional de um quadrado (duas dimensões)

e um cubo (três dimensões), ou seja, uma figura geométrica abstrata que apresenta as mesmas
propriedades matemáticas das outras duas formas, mas com mais de três dimensões.
A análise com mais de três dimensões não pode ser graficamente representada,
mas o modelo abstrato pode ser construído e processado e seus resultados podem ser
analisados.
2.2.2 Tipos de OLAP

As primeiras implementações de OLAP operavam unicamente sobre uma estru-
tura multidimensional (esquema estrela) e, por esse motivo, eram muitas vezes chama-
das de OLAP multidimensional ou MOLAP (Multidimensional OLAP) (TURBAN, 2010).
Posteriormente, os data warehouses passaram a ser construídos também com

uma organização de dados relacional (esquema floco de neve), o que veio a originar
uma implementação OLAP relacional, chamada de ROLAP (Relational OLAP).
Correntemente, as duas estratégias de organização de dados são aplicadas con-
juntamente, levando a um sistema híbrido denominado OLAP híbrido ou HOLAP
(Hybrid OLAP). A estratégia híbrida procura reunir virtudes dos dois outros modelos,
ou seja, o ótimo tempo de resposta do MOLAP com a escalabilidade do ROLAP.
Há também o Desktop OLAP (DOLAP, OLAP de mesa) e o Web OLAP (WOLAP,
OLAP na web), e outras modalidades ainda podem surgir. Essas variações de OLAP vi-
sam adequar o produto a diferentes restrições tecnológicas, como custos ou arquitetu-
ra de rede.
No entanto, em todos esses casos estamos falando de diferentes implementa-
ções dos mesmos conceitos que visam aos mesmos propósitos.
2.2.3 Recursos de um OLAP

Em uma ferramenta OLAP, o importante é a flexibilidade para realizar transfor-
mações e caminhamentos (deslocamentos para a observação de fatos a partir de ou-
tros relacionados) sobre os diversos fatos organizados em suas diversas dimensões.
Essas transformações, que tornam o OLAP tão produtivo, podem ser operadas inte-
rativamente sem um prévio planejamento, desde que os cubos já estejam construídos.
Partindo do cubo OLAP construído, uma ferramenta OLAP permite sua ex-
ploração interativa e a obtenção de resultados e avaliações de forma progressiva
(ANZANELLO, 2013), por meio de um conjunto de operações comumente presentes.
As dimensões são geralmente organizadas hierarquicamente. Por exemplo, pode-se
ter um conjunto de fatos que registram a contagem de rejeições telefônicas e um con-
junto de dimensões que as relacionam a períodos de tempo e bairros. Uma dimensão
de acumulação mensal pode ser detalhada em uma dimensão semanal.
A figura a seguir ilustra graficamente um caso em que o cubo original apresen-
ta uma dimensão chamada Meses, que está dividida em uma subdimensão chamada
Semanas.
Períodos do dia
Meses
Períodos do dia
Bairros

Semanas
Bairros
Avanço progressivo em nível-detalhe por meio de drill-down.
Em nosso exemplo da empresa de telefonia que avalia a tabela cruzada, tínha-
mos a contagem de ligações rejeitadas acumuladas por período do dia (manhã, tarde e
noite), distribuídas por bairros e ao longo do tempo. Com o cubo construído, o analis-
ta poderá selecionar um conjunto de fatos dentro de determinado mês e, conforme a
necessidade, avançar em uma análise mais granular, navegando para uma visualização
semanal dentro daquele mês. Essa análise em detalhamentos progressivos é chamada
de drill-down.
Por outro lado, em muitos casos, o que realmente interessa na análise é uma
quantificação genérica de um conjunto de fatos, que atuará como um resumo ao longo
de uma dimensão. As totalizações podem responder não somente na forma de soma-
tórios ou médias, mas em outras fórmulas definidas pelo analista.
No exemplo da tabela cruzada organizada em um cubo ao longo de vários meses,
um analista poderia realizar uma totalização de certos dados específicos. Por exemplo,
totalizar a contagem de rejeições ao longo de um dado mês, mas considerando apenas
um bairro em particular e em um determinado período do dia (das 16 às 20 horas, por
exemplo).
Assim, gera-se um conjunto de dados que não estavam previamente armazena-
dos no cubo, mas que puderam ser calculados a partir deste. Essa operação é chamada
de roll-up.
Se tomarmos o cubo formado pelas diversas tabelas cruzadas de ligações rejei-

tadas e selecionarmos uma delas, referente a um dado mês, estaremos extraindo uma
fatia do cubo. Essa operação é chamada de slicing (fatiamento).
Períodos do dia
Meses
Períodos do dia
Bairros
Um dado
mês

Bairros
Extração de um subconjunto planar do cubo por meio de um slicing.
Por exemplo, o analista poderia estar interessado em avaliar duas fatias do cubo
em questão – uma referente ao mês de dezembro e outra referente ao mês de janei-
ro – e, assim, avaliar a influência desses meses sobre o problema das rejeições. Como
o cubo é constituído por uma (por assim dizer) sucessão de diversas tabelas (uma para
cada dia), o analista extrairia duas tabelas (duas fatias, na terminologia OLAP), que
posteriormente compararia para identificar eventuais relações ocultas.
Um analista poderia se sentir atraído por um subcubo do cubo principal, isto é,

um conjunto de dimensões e, dentro destas, por um recorte de apenas alguns dados.
Por exemplo, poderia selecionar alguns bairros de maior interesse (uma dimensão) em
um intervalo de meses específico (que seria um recorte de outra dimensão) e assim
avaliar as rejeições de ligações em alguns bairros em um dado período. A geração de
um cubo a partir de outro é chamada de dicing.
Períodos do dia
Meses
Períodos do dia

Bairros Meses
jun., jul.
e ago.
Bairros X, Y e Z
Extração de um subcubo por meio de um dicing.
A tabela cruzada de ligações rejeitadas foi organizada em linhas de bairros e co-

lunas de períodos do dia. Quando sobrepostas ao longo de meses, geramos um cubo.
No entanto, pode ser interessante avaliar a distribuição das métricas em outra or-
dem de dimensões. Por exemplo, poderíamos ter uma tabela cruzada envolvendo bair-
ros em linhas e períodos do dia em colunas (as duas dimensões foram rotacionadas
em 90 graus entre si) e manter os meses como uma terceira dimensão (profundida-
de). Estaríamos, então, efetuando uma rotação no cubo para uma observação diferen-
te dos mesmos dados. O nome dessa operação é pivoting.
Períodos do dia
Bairros
Meses

Bairros
Meses
Períodos do dia
Rotação do cubo por meio de um pivoting.
2.2.4 Comparação entre OLAP e OLTP

As operações OLAP são frequentemente realizadas sobre um data warehouse,
visto que este já apresenta os dados resumidos, agregados e organizados em fatos,
medidas e dimensões.
Os dados utilizados para a realização de operações OLAP estão organizados para
satisfazer a um processo de análise, realizado por um analista de negócios.
O quadro a seguir apresenta um comparativo entre os sistemas OLAP e OLTP.
Uma aplicação OLAP apresenta uma variedade de diferenças quando comparada com
uma aplicação OLTP. Essas diferenças são todas motivadas pelos objetivos inerente-
mente diversos que cada tipo de aplicação apresenta.
Tais diferenças são suficientes para colocar as aplicações OLAP em uma catego-
ria específica. Podemos concluir, então, a partir dessas comparações, que a principal dife-
rença existente entre esses sistemas é que eles são muito próximos e ao mesmo tempo
diferentes.
Critério OLTP OLAP
Operação típica Transação Análise
Granularidade Atômico Agregado

Temporalidade dos dados Os mais atualizados Histórico
Recuperação Poucos registros Muitos registros
Quantidade de usuários Muitos Poucos
Orientação Registros Conjuntos de registros
Consulta Predefinida Dinâmica (ad hoc)
Fonte: TURBAN, 2013.
Comparativo entre OLTP e OLAP.
2.3 Ferramentas
Com a popularização do conceito de OLAP e das promessas associadas a ele, di-
versos fornecedores de tecnologia de software passaram a desenvolver e oferecer
produtos voltados para esse tipo de mercado. Em geral, esses produtos procuram en-
quadrar-se como fornecedores de ferramentas de business intelligence. Algumas dessas
ferramentas suportam diversos tipos de organização de dados, como MOLAP, ROLAP
e HOLAP, simultaneamente.
Frequentemente esses produtos permitem a criação de um dashboard com os
mostradores desejados pelo usuário e seu monitoramento por meio de navegadores da
internet, o que confere uma grande facilidade de acesso às informações.
Por questão de conveniência para o usuário e também como um apelo comercial,
é frequente que produtos na área de BI permitam a integração com ferramentas do
tipo office (suítes de aplicativos de utilidade), visando assim aproveitar a cultura dos
clientes para difundir seus recursos.
Alguns produtos oferecem linguagens de consulta especializadas em explorar os
cubos OLAP, como a linguagem MDX (MultiDimensional eXpressions). Do ponto de vis-
ta de programação, existem também APIs disponíveis para linguagens C, Visual Basic,
Java e Pearl, entre outras.

Vimos que o data warehouse é o resultado do esforço concentrado no uso da tecno-
logia para fornecer dados que embasem decisões inteligentes por parte de organizações.
Decisões inteligentes são aquelas que produzem benefícios para a organização, diminuin-
do os erros e aumentando os acertos.
Ainda que seja um banco de dados, o propósito de um data warehouse difere dos
sistemas do tipo OLTP em diversos aspectos de seu projeto (não volatilidade dos da-
dos, variância no tempo, integração, modelo floco de neve ou estrela), implementação
(abordagem top-down ou bottom-up) e manutenção.
Hoje em dia, esse tipo de sistema ainda
é predominantemente construído sobre siste-
mas de banco de dados relacionais, visto que
são os mais difundidos. No entanto, a nature-
© Alexander Raths / / Fotolia
za particularmente diversa da organização e

das relações dos dados (notadamente o con-
ceito de dimensão e fato) faz com que esses
sistemas apresentem limitações e empecilhos
técnicos que tornam a construção, a manutenção e a seleção dos cubos OLAP mais ca-
ras do que o desejado.
Com o advento dos sistemas no-SQL, abre-se um universo de possibilidades a ser
explorado no futuro. No entanto, é certo que o data warehouse já apresenta um lugar
de destaque nas tecnologias de inteligência de negócios para as próximas décadas e se
tornará progressivamente mais presente nas organizações.
Sistemas de banco de dados no-SQL apresentam uma organização de dados diferente dos rela-
cionais, dando suporte a agrupamentos de dados não homogêneos, além de não exigirem a exe-
cução de comandos por meio da linguagem SQL.
Já as ferramentas de OLAP apresentam-se como um colaborador para viabilizar e

valorizar o uso do rico conteúdo dos data warehouses. As duas ferramentas em conjun-
to oferecem as bases para novas formas de colocar a tecnologia a serviço dos negócios
e garantem vantagem competitiva às organizações.
O propósito de ferramentas OLAP é dar aos usuários a oportunidade de construir
interativamente consultas, gráficos e relatórios, efetuando caminhamentos sobre os da-
dos presentes nos cubos construídos.
A implantação de um data warehouse requer que certas questões sejam respon-
didas. Por exemplo: se uma empresa quer ver resultados muito rapidamente para seu
investimento, poderá preferir uma abordagem bottom-up e começar com alguns data
marts, mas deverá compreender que estes terão que ser adaptados à medida que o
data warehouse for constituído.
Também precisa saber quais questões estratégicas de seu negócio deseja ter res-
pondidas e assim selecionar a bases OLTP que poderão dar origem às diversas dimen-
sões do data warehouse (ou do data mart).
As dimensões escolhidas têm importância fundamental, pois é sobre elas que o
OLAP irá atuar. A escolha incorreta das dimensões levará à construção de cubos com
pouco retorno informacional, o que colocará em risco todo o resultado do projeto.
Referências
ANZANELLO, C. A. OLAP: conceitos e utilização. Universidade Federal do Rio Grande do
Sul. Disponível em: <http://www.softsystemit-ead.com.br/phocadownload/BI/Conceitos%
20OLAP.pdf>. Acesso em: 01/10/2013.
CHEN, P. The Entity-Relationship Model: toward a unified view of data. ACM Transactions
on Database Systems, v. 1, p. 9-36, março de 1976.
CODD, E. F. A Relational Model of Data for Large Shared Data Banks. Communications of
ACM, v. 13, p. 377-387, junho de 1970.
GORDON, S. R.; GORDON, J. R. Sistemas de Informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Building the Data Warehouse. 2. ed. Indiana: Wiley, 2005.
KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: the complete guide to dimensional
modeling. 2. ed. Indiana: Wiley, 2002.
SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de Banco de Dados. 5. ed.
Rio de Janeiro: Elsevier, 2006.
TANLER, R. Intranet Data Warehouse. Rio de Janeiro: Infobook, 1998.
3 Introdução ao KDD
A literatura da área, até o momento, não apresenta um consenso quanto aos ter-
mos utilizados para caracterização das atividades de busca de padrões em conjun-
tos de dados. Entre as diversas denominações encontradas, destacamos: information
recovery, information retrieval, knowledge discovery in database (KDD), data mi-
ning (DM), knowledge extraction, information discovery, data archaeology, information
harvesting e data pattern processing. Esses termos, embora possuam significados dis-
tintos, são muitas vezes tratados como sinônimos.
Neste capítulo vamos abordar a mineração de dados (data mining), uma das eta-
pas do KDD (Knowledge Discovery in Database).
KDD é um processo de pesquisa e identificação de padrões em dados armazena-
dos em bases de dados muitas vezes dispersas e até então inexploradas. O objetivo é
a geração de conhecimento potencialmente útil para aumentar os ganhos, reduzir os
custos, aumentar a competitividade ou melhorar o desempenho do negócio.
O termo foi proposto em 1989 para referir-se às etapas que produzem conheci-
mentos a partir de dados e, principalmente, à etapa de mineração dos dados, que é a
fase que transforma dados em informações (FAYYAD et al., 1996).
Esse processo é interativo e iterativo e envolve uma série de etapas que requerem
do usuário capacidade de análise e tomada de decisão.
Em resumo, o KDD envolve a descoberta e a interpretação de padrões nos dados
por meio da repetição dos algoritmos e da análise de seus resultados.
3.1 Etapas do KDD

Segundo Fayyad et al. (1996), desde a
coleta de dados até a descoberta de conhe-
cimento, o KDD segue um processo iterativo
composto de sete etapas básicas:
1.ª – Integração: definição do tipo de
conhecimento que se pretende descobrir.
Pressupõe a compreensão do domínio da apli-
cação, bem como do tipo de decisão que ne-
cessita desse conhecimento. Nessa etapa,
© venimo / / Fotolia
muitas vezes é necessária a participação do

usuário final do conhecimento descoberto.
Diversas fontes de dados, frequentemente
heterogêneas e de diversas origens, podem ser combinadas em uma fonte de dados

comum que será utilizada para descoberta de conhecimento. Por exemplo: podemos
utilizar dados oriundos de bases de dados de vendas, estatísticas da internet e padrões
do Instituto Brasileiro de Geografia e Estatística (IBGE), entre outros.
2.ª – Seleção: fase na qual os dados relevantes ao problema são identificados e pas-
sados para as próximas fases do processo. Por exemplo: nem todos os dados cadastrais
são relevantes para a descoberta de padrões.
3.ª – Limpeza de dados: nessa etapa são realizadas ações para adequar os dados
à ferramenta de mineração: formatação, remoção de ruídos e escolha de estratégias
para processamento de campos de dados ausentes. Por exemplo: campos de dados au-
sentes podem ser preenchidos com a média ou com o valor mais comum.
4.ª – Transformação: tem como objetivo a localização de características úteis
para melhor representação dos dados para atingir o objetivo da tarefa. Assim, há uma
redução do número de instâncias a serem consideradas para o conjunto de dados. Por
exemplo: dependendo do problema, a data de nascimento pode ser transformada em
faixa etária.
5.ª – Mineração de dados (data mining): nessa etapa, os métodos a serem uti-
lizados para a descoberta dos padrões são selecionados e executados. Em alguns ca-
sos é necessário um ajuste meticuloso de parâmetros ao problema. Por exemplo:
uma mesma base de dados pode ser minerada utilizando-se tanto o método C4.5
(QUINLAN, 1993) quanto o Prism (CENDROWSKA, 1987).
6.ª – Interpretação e avaliação dos padrões minerados: nessa fase, de acordo
com o problema, os padrões identificados são avaliados, segundo medidas predefini-
das ou com o auxílio de especialistas na área do problema. Eventualmente, pode haver
a necessidade de retornar às etapas anteriores para ajustes.
7.ª – Implantação ou apresentação do conhecimento descoberto: nessa fase, o
conhecimento descoberto é apresentado ao usuário em uma linguagem acessível para
que este possa entender e interpretar os resultados obtidos.
Apesar da apresentação didática em diversas etapas, é comum a combinação de al-

gumas delas em um único passo. Por exemplo, a limpeza e a integração dos dados po-
dem acontecer em conjunto, como um pré-processamento para a criação da base de
dados na qual será realizada a mineração. A seleção de dados e a transformação tam-
bém podem ser unificadas, com a consolidação dos dados como o resultado da seleção.
Ou, ainda, a seleção pode ser realizada com os dados transformados.
KDD.
Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação
Dados Dados
Dados Dados
Dados
Sistemas de Apoio à Decisão para Business Intelligence
Dados Dados Dados Dados
Dados Dados Dados Dados Padrões Conhecimento

pré-processados transformados
Fonte: FAYYAD, 1996. (Adaptado).
Descoberta de conhecimento em bases de dados.

A figura a seguir (FAYYAD, 1996) destaca apenas cinco etapas do processo de
73
a. Seleção: consiste na análise dos dados existentes e seleção dos que serão utiliza-
dos para a descoberta de padrões.
b. Pré-processamento: consiste no tratamento e preparação dos dados para serem
utilizados na mineração. Nessa etapa são identificados e retirados valores inváli-
dos, inconsistentes ou redundantes.
c. Transformação: nessa etapa geralmente são aplicadas técnicas para adequar os
dados ao problema. Por exemplo, do endereço completo é extraído apenas o bair-
ro ou a região dentro da cidade.
d. Mineração: consiste na busca por padrões por meio da aplicação de métodos
específicos.
e. Interpretação: consiste na análise dos resultados da mineração e na geração de
conhecimento para o usuário.
Entre os diversos tipos de descoberta de conhecimento citados por Agrawal,
Imielinski e Swami (1993), destacaremos dois: classificação e associação.
3.2 Data mining

O KDD utiliza métodos da mineração de dados para extrair (ou descobrir) conhe-
cimento em conjuntos de dados. Mineração de dados (Data Mining – DM) é uma das
principais etapas de um processo de KDD. Consiste na construção de modelos para a
descoberta automática de novos fatos e relacionamentos entre dados a partir da apli-
cação iterativa, e muitas vezes interativa, de métodos de busca.
Segundo Fayyad et al. (1996), a mineração de dados é uma das etapas do processo
de descoberta de conhecimento em banco de dados e consiste em algoritmos que desco-
brem padrões em um conjunto de dados.
A mineração de dados, por ser a principal etapa do processo de descoberta de conhecimento

em base de dados (KDD), muitas vezes é utilizada como nome de todo o processo. Por isso são
comuns frases como “minerar a base de dados”.
O termo minerar pressupõe a busca por algo precioso. Minerar dados pressupõe o
“garimpo” em bases de dados em busca de algo que possa oferecer vantagem competi-
tiva às organizações. A mineração pode, então, ter como objetivo descrever ou prever o
comportamento futuro.
A descrição busca por padrões que expliquem resultados ou valores obtidos em
determinados dados ou negócios, e a previsão, com base em registros históricos, tenta
antecipar o comportamento de algum fenômeno ou variável de interesse.
Métodos de mineração de dados de análise preditiva são tentativas de se criar,

com o auxílio de um sistema informatizado, uma espécie de “bola de cristal” que apre-
sente uma visão do futuro, prevendo o resultado de um evento ou situação. No en-
tanto, diferentemente da “bola de cristal”, essas ferramentas utilizam como entrada
dados históricos para a descoberta de padrões e relações.
Os métodos descritivos descrevem a base por meio dos padrões encontrados e
também analisam bases de dados históricas.
Os dois métodos são utilizados para examinar de forma automática grandes
quantidades de dados com diferentes variáveis por meio de alguns métodos: agrupa-
mento, árvores de decisão, análise de cestas de compras, modelagem de regressão,
redes neurais e algoritmos genéticos, entre outros.
Tarefas de mineração
de dados
Análise preditiva Análise descritiva
Regras de Design Gráfico: Carlos Henrique Stabile

Classificação ... Regressão Agrupamento ...
associação
Tipos de análise de mineração de dados.

Na busca por indícios que possam relacionar atributos, dados ou fatos, diferentes
estratégias podem ser utilizadas para minerar/garimpar as bases de dados, dentre as
quais destacamos: classificação, agrupamento (clustering), regras de associação e re-
gressão. A seguir, vamos apresentar em detalhes os algoritmos/heurísticas de três des-
sas ferramentas: classificação, agrupamento (clustering) e regras de associação.
A classificação tem como objetivo a divisão do conjunto de dados de entrada em
classes ou categorias. Características identificadas em cada classe podem ser utiliza-
das para a realização de predições para conjunto de dados ainda não classificados. As
classes podem ser binárias (como 0 e 1) ou complexas, como as diversas famílias do
reino animal. Essa é uma das técnicas mais utilizadas, uma vez que classificar é uma
tarefa bastante comum entre os seres humanos: classificamos relações (colegas de tra-
balho, familiares, amigos etc.), elaboramos protocolos de comportamento em dife-
rentes lugares e ambientes (quem entra antes, quem senta antes, quem levanta antes
etc.) e criamos preconceitos segundo estereótipos, entre outros exemplos.
© Julien Eichinger / / Fotolia

Em termos práticos, podemos ter classes binárias – se uma pessoa comprará ou não
um produto (veículo, tênis, camiseta, arroz etc.) – ou complexas (quais cores devem ser
utilizadas em um novo tênis). Um método de classificação pode descobrir, por exemplo,
para qual perfil de pessoa devo direcionar a campanha do lançamento de um novo carro
no mercado nacional, de forma que muitas decisões serão orientadas pelos padrões des-
cobertos durante essa classificação. Uma heurística bastante utilizada para essa tarefa é
a C4.5, apresentada por Quinlan em 1993, que é uma variação do método ID3, proposto
pelo mesmo autor em 1986.
Agrupamento (clustering) consiste na busca por similaridades nos dados de entrada,
de forma que seja possível a definição de um conjunto finito de classes ou categorias que os
contenha e descreva. A principal diferença entre agrupamento e classificação é que no pri-
meiro não se tem conhecimento prévio sobre o número de classes possíveis nem a possível
pertinência dos exemplos usados na modelagem, enquanto na classificação isso está defi-
nido no atributo “meta”. Aqui vale a observação de que alguns métodos de agrupamento
utilizam como parâmetro de entrada o número de grupos que serão descobertos, mas não
como eles serão compostos.
A descoberta de grupos homogêneos de clientes é uma das possíveis aplicações e
pode ser utilizada para a definição da estratégia de marketing ou negócio a ser adotado por
determinada empresa. Por exemplo, pode ser utilizada para definir um bairro para a aber-
tura de uma panificadora ou, ainda, para selecionar quais os produtos a serem comerciali-
zados nesse estabelecimento, considerando o perfil dos clientes da região.
A descoberta de regras de associações representa padrões encontrados nos da-

dos de entrada, normalmente conjuntos de itens que ocorrem em conjunto. Os méto-
dos de associação podem ser utilizados para encontrar regras, tais como: “se alguém
compra carne e abacaxi, então também compra batata, com uma certeza de 75%”.
Tem como propósito a identificação de padrões de correlação no conjunto de dados
de entrada. Um algoritmo para descoberta de regras de associação é o Apriori, apre-
sentado por Agrawal na ACM SIGMOD Conference em 1993, e é o mais utilizado, com
suas diversas variações.
A regressão consiste na busca por uma função que represente, com a maior apro-
ximação possível, o comportamento apresentado pelo fenômeno pesquisado. A re-
gressão mais conhecida é chamada de linear simples e utiliza uma reta para minimizar
o erro médio entre todos os valores considerados. Uma aplicação de regressão linear é
apresentada por Medeiros e Bianchi (2009) para a previsão de demanda com vistas a
melhorar o planejamento da produção em uma empresa.
Estão disponíveis diversas técnicas/algoritmos/heurísticas que podem ser utiliza-
das na implementação dessas tarefas. O quadro a seguir apresenta algumas delas.
Tarefa Algoritmo
Classificação Árvores de decisão, algoritmos genéticos, redes neurais
Agrupamento Métodos estatísticos
Associação Métodos estatísticos, teoria de conjuntos
Regressão Métodos de regressão e redes neurais
3.2.1 Algoritmos/heurísticas
Aqui vale uma diferenciação entre algoritmo e heurística. Um algoritmo é um
conjunto definido de instruções computacionais que ocorrem em sequência, utilizado
para obter um determinado resultado a partir de dados fornecidos. As heurísticas tam-
bém são algoritmos, mas que se aplicam a problemas complexos que demandariam
muito tempo para serem resolvidos de forma exata. Ou seja, uma heurística nem sem-
pre encontra a melhor solução para um problema, mas a encontra dentro de um tempo
aceitável.
No cotidiano, um algoritmo “simples” pode ser uma linha de montagem de um
carro, por exemplo, e uma heurística pode ser o trajeto a ser seguido do trabalho para
casa considerando os congestionamentos. Observe que, nesse exemplo de heurística,
existe um componente de decisão que foge a um simples conjunto de passos a serem
seguidos.
3.2.2 Regras de associação

Regra de associação é um relacionamento da forma “se X, então Y”, ou ainda
“X Y”, sendo que X e Y são conjuntos de itens cuja interseção (X Y) é o conjunto
vazio. Nessa representação, o X é dito antecedente e o Y o consequente da regra. Cada
regra de associação é associada a um fator-suporte, denominado FSup, e a um fator de
confiança, FConf.
© Andrey Kuzmin / / Fotolia. (Adaptado).

A tarefa de descobrir regras de associação consiste em extrair de uma base de da-

dos todas as regras com FSup e FConf maiores ou iguais aos FSupMin e FConfMin, pre-
viamente especificados pelo usuário.
Observe que a definição dos fatores mínimos serve para introduzir uma medida
capaz de distinguir as associações que interessam, dado que as regras geradas em for-
ma binária elevam em muito o espaço de busca de qualquer algoritmo minerador.
A descoberta de regras de associação é geralmente executada em dois passos.

1. Um algoritmo determina todos os conjuntos de itens que têm FSup
maior ou igual ao FSupMin especificado pelo usuário. Esses conjuntos são
chamados conjuntos de itens frequentes.
2. Para cada conjunto de itens frequentes, todas as possíveis regras can-
didatas são geradas e testadas utilizando como parâmetro o FConfMin.
Uma regra candidata é gerada por algum subconjunto de itens de um con-
junto de itens frequentes como antecedente da regra e os itens rema-
nescentes do conjunto de itens frequentes como consequente da regra.
Apenas regras candidatas com FConf maior ou igual ao FConf especifica-
do pelo usuário são dadas como saída do algoritmo.
O algoritmo APRIORI é apresentado da seguinte forma:
F1 = {frequent 1-itemsets}
for (k = 2; Fk−1 = Ø; k ++) do begin
Ck = apriori-gen(Fk−1); //New candidates
foreach transaction t ∈ D do begin
Ct = subset(Ck , t); //Candidates contained in t
foreach candidate c ∈ Ct do
c.count ++;
end
Fk = {c ∈ Ck |c.count ≥ minsup };end
© kromkrathog / / Fotolia. (Adaptado).
Answer= ∪k Fk
Fonte: WU; KUMAR, 2009, p. 64.

Para a geração de regras (Apriori-gen), o algoritmo é o seguinte:
H1 = Ø / /Initialize
foreach; frequent k−intemset fk , k ≥ 2 do begin
A = (k − 1)-itemset ak-1 such that ak−1 ⊂ fk;
foreach ak-1 ∈ A do begin
conf = support(fk)/support(ak−1);
if (conf ≥ minconf) then begin
output the rule ak−1 ⇒ (fk − ak−1)
with confidence = conf and support = support(fk);
add (fk − ak−1) to H1;
end
end
call ap-genrules(fk , H1);
end
Procedure ap-genrules(fk: frequent k-intemset, Hm : set of m-item

consequents)
if (k > m + 1) then begin

Hm+1 = apriori-gen(Hm);
foreache hm+1 ∈ Hm+1 do begin
conf = support(fk)/support(fk − hm+1);
if (conf ≥ minconf) then
output the rule fk – hm+1 ⇒ hm+1
with confidence = conf and support = support (fk);
else
delete hm+1 from Hm+1;
end
call ap-genrules(fk, Hm+1);

end

Para analisarmos um exemplo de aplicação do algoritmo Apriori, vamos analisar

cestas de compras de um supermercado para a descoberta de padrões de associações
entre oito itens, com o objetivo de elaborar estratégias de vendas desses produtos
(promoções do tipo “pague dois e leve três” ou “leve dois e ganhe 20% de desconto em
outro”) ou, ainda, apenas alterar a distribuição dos produtos dentro do estabelecimen-
to (aproximando ou afastando alguns deles). Assim, suponha que o próximo quadro in-
dique quem comprou os oito produtos em análise: escova, sabão em pó, arroz, luva,
saco de lixo, trigo, feijão e manteiga. No quadro a seguir, queremos descobrir as regras
de associação com FSupMin = 0,4 e FConfMin = 0,7:
Sabão Saco de
ID Escova Arroz Luva Trigo Feijão Manteiga
em pó lixo
1 NÃO SIM NÃO SIM SIM NÃO NÃO SIM
2 SIM NÃO SIM SIM SIM SIM NÃO NÃO
3 NÃO SIM NÃO SIM SIM NÃO SIM NÃO
4 SIM SIM NÃO SIM SIM NÃO NÃO SIM
5 NÃO NÃO SIM NÃO NÃO NÃO NÃO NÃO
6 NÃO NÃO NÃO NÃO SIM NÃO SIM NÃO
7 NÃO NÃO NÃO NÃO NÃO NÃO NÃO NÃO
8 SIM NÃO SIM NÃO SIM NÃO NÃO NÃO
9 NÃO SIM NÃO SIM NÃO SIM SIM SIM
10 NÃO SIM SIM SIM SIM NÃO SIM NÃO
SupInd 0,3 0,5 0,4 0,6 0,7 0,2 0,4 0,3
Dados de entrada para o algoritmo Apriori.

Após o cálculo do suporte individual (SupInd) e a retirada das colunas que não
apresentaram suporte acima do estabelecido (FSupMin = 0,4), temos a nova situação:
ID Sabão em pó Arroz Luva Saco de lixo Feijão
1 X X X
2 X X X
3 X X X X
4 X X X
5 X
6 X X
7
8 X X
9 X X X
10 X X X X X
Conjunto de dados após o primeiro cálculo de suporte.

Na combinação de dois elementos, temos os seguintes suportes e confianças das

regras:
Regra Suporte Confiança
Se sabão em pó, então arroz 0,1 0,2
Se sabão em pó, então luva 0,5 1,0
Se sabão em pó, então saco de lixo 0,4 0,8
Se sabão em pó, então feijão 0,3 0,6
Se arroz, então luva 0,2 0,5
Se arroz, então saco de lixo 0,3 0,8
Se arroz, então feijão 0,1 0,3
Se luva, então saco de lixo 0,5 0,8
Se luva, então feijão 0,3 0,5
Se saco de lixo, então feijão 0,3 0,4
Cálculo de suporte e confiança da combinação de dois elementos.

A combinação de três produtos apresenta os suportes e confianças das regras:
Regra Suporte Confiança
Se sabão em pó, então luva e saco de lixo 0,4 0,8
Se luva, então sabão em pó e saco de lixo 0,4 0,7
Se saco de lixo, então sabão em pó e luva 0,4 0,6
Se luva e saco de lixo, então sabão em pó 0,4 0,8
Se sabão em pó e saco de lixo, então luva 0,4 0,2
Se sabão em pó e luva, então saco de lixo 0,4 0,8
Cálculo de suporte e confiança da combinação de três elementos.
Nas combinações de dois elementos foram encontradas as seguintes regras:

a) Para o conjunto de itens frequentes: sabão em pó, luva, com FSup = 0,5.
• Se sabão em pó, então luva, FConf = 1.
b) Para o conjunto de itens frequentes: sabão em pó, saco de lixo, com FSup = 0,4.
• Se sabão em pó, então saco de lixo, FConf = 0,8.
c) Para o conjunto de itens frequentes: luva, saco de lixo, com FSup = 0,5.
• Se luva, então saco de lixo, FConf = 0,8.
Nas combinações de três elementos componentes das regras, para o conjunto de

itens frequentes (sabão em pó, luva e saco de lixo), que apresentam FSup = 0,4, foram
encontradas as seguintes regras:
• Se sabão em pó, então luva e saco de lixo, FConf = 0,8.
• Se luva, então sabão em pó e saco de lixo, FConf = 0,7.
• Se luva e saco de lixo, então sabão em pó, FConf = 0,8.
• Se sabão em pó e luva, então saco de lixo, FConf = 0,8.
Dessa forma, poderíamos sugerir que o sabão em pó, a luva e o saco de lixo fos-
sem colocados em uma promoção conjunta ou, pelo menos, ficassem próximos uns
dos outros. Outra possibilidade seria a combinação desses produtos com outro que
não tem grande volume de vendas.
3.2.3 Classificação
O princípio da classificação é descobrir relacionamentos entre os atributos previsores
e o atributo “objetivo” ou “meta”, de modo a descobrir um conhecimento (ou regra) que
possa ser utilizado para prever uma classe para uma tupla (que nesse caso pode ser enten-
dida como condição) desconhecida, isto é, que ainda não possui uma classe definida.
As formas mais comuns de representação de conhecimento dos algoritmos de clas-
sificação são regras e árvores. Os algoritmos ID3 e C4.5, por exemplo, geram como re-
sultados árvores de decisão, enquanto outros, como Prism e Part, geram regras de
classificação. Outra opção seria a representação por meio de tabelas de decisão imple-
mentada, por exemplo, pelo algoritmo Decision Table. Modelos matemáticos, de regres-
são e redes neurais, também representam resultados de algoritmos como SMO, Linear
Regression e Rede Neural, entre outros.
Raiz
Ramo Ramo Ramo
Nó Nó Nó
Ramo Ramo Ramo Ramo Ramo Ramo
. . . .
. . Folha Folha . .
. . . .
Estrutura de uma árvore de decisão.
Observe que na estrutura da árvore aparecem três tipos de nós: raiz (de onde par-
tem os ramos), nós intermediários (ficam entre a raiz e as folhas) e as folhas (de onde
não partem ramos). Os nós ou nodos representam os atributos e os ramos traduzem as
decisões. Cada nó interno da árvore de decisão testa um atributo, cada ramo corres-
ponde ao valor do atributo e cada folha atribui uma classificação (decisão).
Para ilustrar a classificação, Freitas e Lavington (1998) apresentam o seguinte
exemplo: suponha que uma editora de livros publicou um livro chamado Um guia para
restaurantes franceses na Inglaterra. O livro é publicado em inglês, francês e alemão, de
acordo com o país onde é vendido. Suponha também que a editora tem um banco de da-
dos contendo dados sobre seus clientes nos três países: Inglaterra, França e Alemanha.
Seria interessante utilizar esses dados para prever que tipo de clientes estariam
mais interessados em comprar esse novo livro e concentrar os esforços de vendas nes-
ses clientes.
ID Sexo País Idade Comprar
1 Masculino França 25 Sim
2 Masculino Inglaterra 21 Sim
3 Feminino França 23 Sim
4 Feminino Inglaterra 34 Sim
5 Feminino França 30 Não
6 Masculino Alemanha 21 Não
7 Masculino Alemanha 20 Não
8 Feminino Alemanha 18 Não
9 Feminino França 34 Não
10 Masculino França 55 Não
Fonte: FREITAS; LAVINGTON, 1998.

Dados de publicação de livro.
Algumas regras descobertas no quadro anterior são:

Se (PAÍS = Alemanha), então COMPRAR = NÃO.
Se (PAÍS = Inglaterra), então COMPRAR = SIM.
Se (PAÍS = França e IDADE <= 25), então COMPRAR = SIM.
Se (PAÍS = França e IDADE > 25), então COMPRAR = NÃO.
O conhecimento descoberto é frequentemente representado na forma de regras
SE-ENTÃO. Essas regras são interpretadas da seguinte maneira:
“SE os atributos preditivos de uma tupla satisfazem as condições no antecedente
da regra, ENTÃO a tupla tem a classe indicada no consequente da regra”.
Um dos métodos mais utilizados para classificação foi apresentado por Quinlan
(1993) e é inspirado no algoritmo ID3 (QUINLAN, 1986). Esse método procura inferir
árvores de decisão por meio da utilização de uma abordagem recursiva de particiona-
mento da base de dados de entrada. Como critérios para a criação das diversas subár-
vores, o método utiliza o cálculo de entropia, conceito apresentado por Shannon e
estudado em disciplinas como Teoria da Informação.
O C4.5, assim como a maioria dos algoritmos de indução de árvores de decisão,
está dividido em duas fases: construção da árvore e simplificação (poda).
Na fase de construção, a árvore é gerada pelo particionamento sucessivo e recur-
sivo dos dados de treinamento (base de dados de entrada). O conjunto de treinamento
é subdividido em duas ou mais partições, dependendo do conjunto de valores de cada
atributo. Esse processo recursivo é repetido até que todos ou a maioria dos exemplos
em cada partição tenham uma classe associada.
Nessa fase, dois pontos merecem destaque: a avaliação do atributo que será utili-
zado para a divisão da árvore em cada ponto e a criação de partições usando o melhor
ponto (atributo). No C4.5, por exemplo, o critério utilizado é o ganho de informação.
São calculados os ganhos de informação dos atributos previsores e aquele que obtiver
o maior ganho será utilizado para a divisão da árvore.
O algoritmo C4.5 é o seguinte:
Input: an attribute-valued dataset D

1: Tree = {}
2: if D is “pure” OR other stopping criteria met then

3: terminate
4: end if
5: for all attribute a ∈ D do

6: Compute information-theoretic criteria if we split on a
7: end for
8: abest = Best attribute according to above computed criteria

9: Tree = Create a decision node that tests abest in the root
10: Dv = Induced sub-datasets from D based on abest
11: for all Dv do

12: Treev = C4.5(Dv)

13: Attach Treev to the corresponding branch of Tree
14: end for
15: return Tree
Para demonstrar o funcionamento do algoritmo C4.5, vamos propor um exercício

de previsão de movimento em um shopping. O quadro a seguir apresenta o movimen-
to de pessoas em um shopping (pouco-P, médio-M ou muito-Mu), considerando como
atributos previsores o dia da semana (DDS), que, nesse caso, pode ser sexta, sábado
ou domingo; a chuva (se está ou não chovendo) e o clima (quente ou frio).
ID Dia da semana Chuva Clima Movimento
1 Sexta Não Quente Pouco
2 Sábado Sim Frio Pouco
3 Sábado Sim Quente Pouco
4 Sexta Sim Frio Pouco
5 Domingo Não Frio Pouco
6 Sexta Não Quente Muito
7 Sábado Não Frio Muito
8 Sexta Não Quente Pouco
9 Sexta Sim Quente Muito
10 Sexta Sim Frio Pouco
11 Sexta Não Quente Médio
12 Sábado Não Frio Médio
13 Domingo Não Quente Médio
Dados de entrada para o C4.5 (padrão de movimento em shopping).

Calcula-se a entropia do conjunto de dados de treinamento com a fórmula dada
por Shannon (X = jMPjIj = – j = 1MPlog2P) por Shannon:
m
H (x) = Σj – 1 PjIj =Σj – 1 Pj log2 Pj
Para calcular essa entropia, apenas o atributo meta é utilizado (o que se quer pre-
ver, nesse exemplo, é o “Movimento”). Considerando-se que, das 13 linhas, 7 contêm
a definição “Pouco”, o cálculo deve ser o seguinte: 7/13. Com a definição “Médio” fo-
ram observados 3 registros em 13 linhas, portanto, 3/13. E, finalmente, com a definição
“Muito” também foram observados 3 registros em 13 linhas: 3/13. Assim, aplicando es-
ses dados à fórmula de Shannon, temos o seguinte cálculo:
Pouco Médio Muito
H(S) = – 7 × log2 7 – 3 × log2 3 – 3 ×log2 3

13 13 13 1 3 13 13
© by-studio / / Fotolia. (Adaptado).
H(S) = 1,4573 bit

Passamos então ao cálculo do ganho de informação do atributo “dia da semana”

(DDS):
H(Sexta) = 1,3788
H(Sábado) = 1,5
H(Domingo) = 1
Ganho(DDS) = 0,09946
Calculamos o ganho de informação do atributo “chuva”:
H(Não) = 1,5613
H(Sim) = 0,7219
Ganho(Chuva) = 0,2188
E o ganho de informação do atributo “clima”:
H(Quente) = 1,5567
H(Frio) = 1,2516
Ganho(Clima) = 0,04139
Finalizando o primeiro nível da árvore, temos os seguintes ganhos:
1.º Chuva
© redkoala / / Fotolia; © azaze11o / / Fotolia; © kanate / / Fotolia. (Adaptado).
2.º Dia da semana

3.º Clima
No passo seguinte (segundo nível da árvore), a tabela principal é dividida utilizan-

do-se o atributo “chuva” conforme a próxima figura.

Chuva
Não Sim
Problema de movimento em shopping – raiz da árvore.

Iniciaremos o segundo nível com o quadro da chuva = não:
Segundo nível da árvore para chuva = não

ID Dia da semana Clima Movimento
1 Sexta Quente Pouco
5 Domingo Frio Pouco
6 Sexta Quente Muito
7 Sábado Frio Muito
8 Sexta Quente Pouco
11 Sexta Quente Médio
12 Sábado Frio Médio
13 Domingo Quente Médio
Calculamos a entropia do conjunto para essa tabela:
H(S) = 1,5613
E os ganhos para dia da semana (DDS) e clima:
Ganho(DDS) Ganho(Clima)
H(Sexta) = 1,5 H(Quente) = 1,5219
H(Sábado) = 1 H(Frio) = 1,5850
H(Domingo) = 1
Ganho(DDS) = 0,3113 Ganho(Clima) = 0,3113

O maior ganho é o do dia da semana e a árvore passa a ser representada da se-

guinte forma:
Chuva
Não Sim

DDS
Domingo
Sexta Sábado
Problema de movimento em shopping – chuva = não

O maior ganho é o do DDS, que é utilizado para a divisão da tabela. Iniciando pelo
DDS = sexta:
Terceiro nível da árvore para chuva = não e DDS = sexta
ID Clima Movimento
1 Quente Pouco
6 Quente Muito
8 Quente Pouco
11 Quente Médio
Percebe-se que a classe da maioria é “pouco” e é essa a decisão na folha da

árvore.
Chuva
Não Sim
DDS
Domingo
Sexta Sábado
Problema de movimento em shopping – chuva = não, DDS = sexta.

Para o DDS = sábado:
Terceiro nível da árvore para chuva = não e DDS = sábado

ID Clima Movimento
7 Frio Muito
12 Frio Médio
Percebe-se que não existe uma classe da maioria e a decisão será realizada pela
maioria da tabela anterior mais próxima.
Chuva
Não Sim
DDS

Domingo
Sexta Sábado
P P
Problema de movimento em shopping – chuva = não, DDS = sábado.

Finalmente, para DDS = domingo:
Terceiro nível da árvore para chuva = não e DDS = domingo

ID Clima Movimento
5 Frio Pouco
13 Quente Médio
Fica evidente a decisão: quando o clima é frio, há pouco movimento no shopping,

e quando está quente, o movimento é médio.
Chuva
Não Sim
DDS
Domingo
Sexta Sábado
P P Clima

Frio Quente
P M
Problema de movimento em shopping – chuva = não, DDS = domingo.

Vamos considerar, agora, chuva = sim:
Segundo nível da árvore para chuva = sim

ID Dia da semana Clima Movimento
2 Sábado Frio Pouco
3 Sábado Quente Pouco
4 Sexta Frio Pouco
10 Sexta Frio Pouco
9 Sexta Quente Muito
Calculamos a entropia do conjunto:
H(S) = 0,7219
E os ganhos dos atributos “DDS” e “clima”:

Ganho(DDS) Ganho(Clima)
H(Sexta) = 0,9183 H(Quente) = 1
H(Sábado) = 0 H(Frio) = 0,0000
H(Domingo) = 0
Ganho(DDS) = 0,1710 Ganho(Clima) = 0,3219

Problema de movimento em shopping – chuva = sim.
Chuva
Não Sim
DDS Clima
Domingo Frio Quente
Sexta Sábado
P P Clima

Frio Quente
P M
O maior ganho é do clima.

Passamos então à divisão da tabela pelo atributo “clima”. Iniciando com o clima =
frio:
Terceiro nível da árvore para chuva = sim e clima = frio
ID Dia da semana Movimento
2 Sábado Pouco
4 Sexta Pouco
10 Sexta Pouco
Observe que todas as instâncias apresentam “pouco” no atributo “meta”.
Chuva
Não Sim
DDS Clima
Domingo Frio Quente

Sexta Sábado
P P Clima P
Frio Quente
P M
Finalmente, consideramos clima = quente:
Terceiro nível da árvore para chuva = sim e clima = quente

ID Dia da semana Movimento
3 Sábado Pouco
9 Sexta Muito
Fica evidente a decisão: quando o dia da semana é sábado, existe pouco movi-
mento no shopping, e quando o dia da semana é sexta, o movimento é grande.
Chuva
Não Sim
DDS Clima
Domingo Frio Quente
Sexta Sábado
P P Clima P DDS
Frio Quente

Sexta Sábado
P M Mu P
Problema de movimento em shopping – chuva = não, DDS = sábado.

A árvore pode ser utilizada para, por exemplo, classificar novas instâncias:
ID Dia da semana Chuva Clima Movimento
1 Sábado Não Quente ??
2 Domingo Não Frio ??
3 Sexta Sim Quente ??
Novas instâncias para serem classificadas.

As classificações de exemplos desconhecidos podem ser realizadas simplesmente

caminhando-se pela árvore de decisão criada. Para os exemplos mencionados:
ID Dia da semana Chuva Clima Shopping
1 Sábado Não Quente Pouco
2 Domingo Não Frio Pouco
3 Sexta Sim Quente Muito
Classificação das novas instâncias utilizando a árvore de decisão.

Para o ID = 1, por exemplo, para a condição: dia da semana = sábado, chuva = não
e clima = quente, então há pouco movimento no shopping.
3.2.4 Clustering
Essa tarefa também é conhecida por agrupamento e é utilizada para particionar
as instâncias de uma base de dados em grupos de tal forma que os componentes de
cada grupo apresentem propriedades comuns que os diferenciem dos elementos dos
outros grupos. Observe que, mesmo instintivamente, as pessoas visualizam os dados
segmentados em grupos, como tipos de plantas ou animais.
A análise de clusters envolve a organização de um conjunto de padrões (normal-
mente representados por vetores de atributos ou pontos em espaços multidimensio-
nais) em grupos, considerando alguma medida de similaridade.
Podemos perceber que instintivamente temos a tendência de agrupar elementos
que possuem características semelhantes, ou seja, compartilham alguma propriedade,
e são justamente essas propriedades que permitem a criação de rótulos para cada gru-
po. Por exemplo, podemos agrupar frutas (estação, peso, cores etc.), verduras (esta-
ção, maço, peso, cores etc.), clientes (esportista, sedentário, homem, mulher, criança,
idoso etc.) e pessoas (baixa, alta, obesa, magra, mulher, homem etc.), entre outros.
Existem diversas técnicas e métodos de clustering disponíveis: K-Means, Fuzzy
K-Means, K-Modes e K-medoid, entre outros.
Segundo Carlantonio (2001), os requisitos que os algoritmos de clustering preci-
sam ter para que tenham melhor desempenho são:
a. Descobrir clusters com formato arbitrário: o formato dos grupos, consideran-
do-se o espaço euclidiano, pode ser esférica, linear, alongada, elíptica, cilíndri-
ca etc.
n
A distância euclidiana é calculada com a fórmula Dp,q = Σi = 1 (pi – qi) , enquanto a de Manhattan
2
n
(também conhecida por city block) é calculada com a fórmula Dp,q = Σi = 1 |pi – qi |.
b. Identificar grupos de tamanhos variados: conforme dito no item a, alguns mé-

todos encontram grupos com formatos, tamanhos e densidades similares. No
entanto, grupos de tamanhos variados também são úteis para, por exemplo, a
identificação de exceções.
Diversos tipos de medidas de distância podem ser encontrados em uma obra intitulada
Encyclopedia of Distances, de Deza e Deza (2009).
c. Aceitar diversos tipos de variáveis de entrada: alguns métodos aceitam apenas

variáveis numéricas, enquanto outros apenas categóricas. Quanto maior for a
aceitação do método, por variáveis de diversos tipos – por exemplo: intervala-
das, binárias, nominais (categóricas), ordinais, escaladas em proporção ou, ain-
da, combinações livres desses tipos de variáveis –, mais próximo da realidade
ele estará, pois em um mesmo problema podemos encontrar variáveis de tipo-
logias variadas.
d. Ser insensível à ordem de apresentação das instâncias: a ordem das variáveis
de entrada não deve influenciar a qualidade dos grupos descobertos.
e. Trabalhar com objetos que apresentem qualquer número de atributos (dimen-
sões): os métodos devem permitir trabalhar com objetos com altas dimensões
(ou diversos atributos) e fornecer resultados inteligíveis.
f. Fornecer resultados interpretáveis e utilizáveis: essa é uma característica desejável de
qualquer método de mineração de dados. Os resultados obtidos devem ser facilmen-
te interpretados e utilizáveis.
g. Ruídos: a presença de ruídos não deve influenciar na qualidade dos grupos
obtidos.
h. Aceitar restrições: os métodos devem ser capazes de encontrar grupos de dados
que satisfaçam as restrições especificadas.
i. Número de clusters: encontrar o número ideal de clusters de um conjunto de objetos
é uma tarefa árdua, ao ponto de alguns métodos exigirem que o número de grupos
seja previamente definido.
É interessante observar que nenhuma técnica de agrupamento atende a todos es-

ses requisitos anteriormente listados e que estes são compilações de diversos autores.
Os métodos mais utilizados são os hierárquicos e de particionamento.
Carlantonio (2001) menciona ainda que a decomposição hierárquica pode ser re-
presentada por um dendograma, no qual uma árvore é gerada de forma interativa e di-
vide a base de dados em subconjuntos menores até que cada subconjunto seja apenas
um objeto. Nesse tipo de representação, cada nodo da árvore representa um grupo da
base de dados e pode ser criado de duas formas:
a. Abordagem bottom-up ou aglomerativa (agglomerative clustering): cada item
de dado é considerado um grupo de dados que são recursivamente unidos até
produzir um agrupamento final. Essa abordagem é composta pelos seguintes
passos:
• Inicialmente, cada objeto corresponde a um grupo.
• A cada iteração, os objetos ou grupos mais próximos são agrupados.
• Esse processo é repetido até que todos os objetos fiquem em um único grupo
ou um critério de parada previamente definido seja atingido (número máximo
de iterações, por exemplo).
b. Abordagem top-down ou divisão (divisive clustering): o conjunto de todos os
dados é considerado como um grupo que é recursivamente dividido para pro-
duzir uma conformação final. Nessa abordagem, os seguintes passos são
executados:
• Inicialmente, todos os objetos são alocados em um mesmo grupo.
• A cada iteração, os grupos são divididos em grupos menores.
• Esse processo é repetido até que cada grupo contenha um único objeto ou um
critério de parada previamente definido seja atingido (número máximo de ite-
rações, por exemplo).
O K-Means é um método de particionamento executado de acordo com os se-
guintes passos (FONTANA; NALDI, 2009):
• Passo 1: os primeiros k “centros” dos aglomerados/agrupamentos são escolhi-
dos aleatoriamente.
• Passo 2: cada objeto é atribuído ao grupo associado com o centro mais próxi-
mo (rotulação).
• Passo 3: é calculado um novo centro para cada grupo (média dos valores de to-
dos os objetos – centroide).
• Passo 4: os passos 2 (com os novos centros) e 3 são repetidos até que não haja
mudança nos centros ou outro critério de parada seja atingido (por exemplo,
número máximo de iterações).
As figuras a seguir representam a aplicação dos dois primeiros passos do
K-Means, supondo uma base de dados com 20 instâncias, com dois atributos contí-
nuos, e considerando k = 3 (ou seja, três grupos: azul, vermelho e cor-de-rosa).

Inicialização das médias Atribuição dos rótulos
K-Means – inicialização e atribuição de rótulos.
Na sequência, as médias (pontos médios) de cada grupo são atualizadas, conside-

rando-se a nova configuração dos grupos.
Atualização das médias Nova atribuição de rótulos e

atualização das médias
Atualização dos pontos médios e atribuição de rótulos.

Em um exemplo prático, suponha uma base de dados de um supermercado com

apenas 15 linhas (instâncias) e dois atributos: valor da compra e quantidade de itens
comprados. Gostaríamos de criar três grupos de clientes: ouro, prata e bronze, para
direcionar melhor a próxima promoção do supermercado. Para essa aplicação, vamos
utilizar o K-Means. Como é apenas um exemplo teórico, vamos utilizar a ferramenta li-
vre Weka para a mineração e análise dos resultados.
1 51 12
2 49 15
3 47 18
4 46 22
5 50 18
6 80 32
7 74 32
8 69 31
9 75 33
10 85 38
11 108 65
12 128 57
13 131 50
14 123 39
15 142 50
Dados de entrada para o K-Means.

Com esses dados, o K-Means criou três grupos com as seguintes coordenadas
para os centroides:
Grupo
Base completa 0 1 2
Atributo
(15) (5) (5) (5)
Valor da compra 83,8667 48,6 76,6 126,4
Quantidade de
34,1333 17 33,2 52,2
itens
Classe Ouro Ouro Prata Bronze

Em uma análise rápida, percebemos que os clientes “ouro” possuem valor de com-
pra “em torno” de 48,60 e uma quantidade “em torno” de 17 itens (valor médio por pro-
duto de 2,86 un.). Os clientes “prata” possuem um valor de compra maior e a quantidade
de itens também superior, diminuindo o valor médio de cada produto para 2,31 un. Já os
clientes “bronze” possuem tanto valor de compra quanto quantidade de itens superio-
res aos outros dois, e o valor médio dos produtos de 2,42 un.
Utilizando essa análise, o estabelecimento poderia então criar estratégias para
que os clientes “bronze” e “prata” passem a consumir os produtos que, normalmente,
os clientes “ouro” estão comprando.
Fonte: WEKA, 2014.
Resultado do K-Means
cluster 0 (azul) = grupo Ouro
cluster 1 (vermelho) = grupo Prata
cluster 2 (verde) = grupo Bronze
Perceba que, na análise de agrupamentos, os grupos são construídos com base na

semelhança entre os elementos. Em seguida, um avaliador deve analisar os grupos for-
mados e decidir se as semelhanças são significantes e relevantes.
Vale destacar que a análise de agrupamentos pode ser utilizada como uma técnica
preliminar, quando nada ou pouco se sabe sobre os dados.
3.3 Aplicativos
Diversas ferramentas para mineração de dados estão disponíveis na internet,
dentre as quais destacamos: RapidMiner, Linguagem R e Weka. A seguir, apresentamos
alguns pacotes de aplicativos freeware e shareware para mineração de dados listados.
Visite o site Kdnuggets, uma das principais fontes de pesquisa na área de mineração de dados.
Ferramentas para mineração de dados

Ferramenta Descrição
ADaM – Algorithm Development and Mining Software usado para mineração de dados em bases de sensoriamento remoto e
Version outros dados científicos.
Alteryx Project Edition Versão freeware do Alteryx, oferece a capacidade de análise e recursos de com -
partilhamento, mas apenas para resolver um problema de negócios ou comple -
tar um único projeto.
ELKI – Environment for Developing KDD – Ambiente em Java que inclui agrupamento, detecção de outlier e outros algorit-
applications supported by index-structures mos para descoberta de conhecimento em base de dados.
Gnome Data Mining Tools Pacote de aplicativos que inclui os métodos Apriori, árvores de decisão e classi -
ficadores bayesianos.
SCaVis – Scientific Computation and Ambiente de computação científica, análise e visualização de dados. Projetado
Visualization Environment para cientistas, engenheiros e estudantes.
KEEL Inclui algoritmos de extração de conhecimento, pré-processamento, aprendiza -
do de regras evolucionário e sistemas fuzzy.
KNIME Plataforma de trabalho gráfica amigável para todo o processo de análise (acesso
a dados, transformação de dados, investigação inicial, análises preditivas, visua -
lização e comunicação).
MiningMart O projeto visa às novas técnicas que dão acesso direto às informações armaze -
nadas em bancos de dados, data warehouses e bases de conhecimento. O objeti -
vo principal é a integração de dados e a gestão do conhecimento. Gratuito para
aplicações não comerciais.
ML-Flex Pacote de software de código aberto projetado para permitir o processamen -
to flexível e eficiente de dados para as análises de aprendizagem de máquina
(classificação).
Orange Ferramenta open source para análise e visualização de dados.
PredictionIO Ferramenta open source para desenvolvedores e engenheiros de dados para a
criação de predições, como descoberta de conteúdo.
RapidMiner Ferramenta open source para a descoberta de conhecimento e mineração de
dados.
Rattle Pacote para mineração de dados que utiliza a Linguagem R, gráficos, agrupa -
mento e modelagem.
Tanagra Oferece uma interface GUI e métodos de acesso, análise estatística, seleção de
atributos, classificação, agrupamento, visualização e associação.
Weka Coleção de algoritmos de aprendizado de máquina para tarefas de mineração de
dados. Desenvolvido em Java, está disponível para diversas plataformas.
Observe que estão disponíveis diversas opções de software, entre as quais apre-
sentaremos em detalhes uma delas, o Weka (Waikato Environment for Knowledge
Analysis), uma ferramenta open source desenvolvida em Java e disponibilizada, atuali-
zada e mantida pela Universidade de Waikato, na Nova Zelândia.
Machine learning é um ramo da inteligência artificial cuja ocupação é construir e estudar siste-
mas que possam aprender a partir de dados.
Interface da ferramenta Weka
Fonte: WEKA, 2014.
A ferramenta possui opções de importação de dados, por exemplo, de algumas

planilhas eletrônicas, e também possui um formato de arquivo próprio, com a extensão
ARFF. Para mostrar um exemplo desse formato, vamos utilizar uma tabela clássica em
mineração de dados sobre a previsão de ocorrência de um jogo, considerando como atri-
butos previsores a aparência do dia (ensolarado, nublado ou chuvoso), temperatura (atri-
buto contínuo), umidade (atributo contínuo) e vento (se existe ou não), com o método
J4.8, que é uma implementação em Java com algumas modificações do C4.5.
Aparência Temperatura Umidade Vento Jogou?

Ensolarado 85 85 Fraco Não
Ensolarado 80 90 Forte Não
Nublado 83 86 Fraco Sim
Chuvoso 70 96 Fraco Sim
Chuvoso 65 70 Forte Não
Nublado 64 65 Forte Sim
Ensolarado 72 95 Fraco Não
Ensolarado 69 70 Fraco Sim
Ensolarado 75 70 Forte Sim
Nublado 72 90 Forte Sim
Dados de jogo.
Esses dados, no formato ARFF, assumiriam a seguinte forma:

@relation jogo
@attribute aparencia {ensolarado, nublado, chuvoso}

@attribute temperatura real
@attribute umidade real
@attribute vento {sim, nao}
@attribute jogo {sim, nao}
@data
ensolarado,85,85, nao,nao
ensolarado,80,90, sim,nao
nublado,83,86, nao,sim
chuvoso,70,96, nao,sim
chuvoso,65,70, sim,nao
nublado,64,65, sim,sim
ensolarado,72,95, nao,nao
ensolarado,69,70, nao,sim
ensolarado,75,70, sim,sim
nublado,72,90, sim,sim
nublado,81,75, nao,sim
chuvoso,71,91,TRUE,nao
Observe que são apenas três palavras reservadas:

a. Relation: nome da base de dados.
b. Attribute: atributos da base de dados com seus respectivos tipos de dados.
c. Data: contém todas as instâncias da base de dados.
Carregando-se a base no Weka, aparece a seguinte janela:
Fonte: WEKA, 2014.
Observe que são apresentadas informações gerais sobre a base de dados em

questão. Por exemplo, sabemos que a base de dados possui 14 instâncias e que o atri-
buto “jogo” possui 9 instâncias SIM e 5 instâncias NÃO.
Nessa figura, devemos prestar atenção ao método de teste que será utilizado:
a. Use training set: utilizaremos os dados de treinamento para criação e validação
do modelo.
b. Supplied test set: utilizaremos os dados de treinamento para criação do mode-

lo, mas forneceremos uma base para que os testes sejam realizados.
c. Cross-validation: utilizaremos validação cruzada para a criação e validação do
modelo.
d. Percentage split: nessa opção fornecemos um percentual que representa quan-
to da base será utilizado para a criação do modelo e quanto será utilizado para
teste.
Executando-se o método J48 com a opção “use training set”, obtemos o seguinte
resultado:
Fonte: WEKA, 2014.

Resultado da mineração de dados com o J48.
Aparência
= ensolarado = nublado = chuvoso
umidade sim (4.0) vento
<= 75 > 75 = sim = não

sim (2.0) não (3.0) não (2.0) sim (3.0)
Fonte: WEKA, 2014.
Árvore resultante da aplicação do J48 sobre a base de jogo.

Vimos que o KDD é um processo iterativo, no qual o conhecimento descoberto é
apresentado ao usuário, e que permite que as medidas de avaliação sejam melhoradas,
a mineração de dados seja refinada e novos dados sejam selecionados ou, ainda, inte-
grados à base de dados atual com o objetivo de alcançar resultados diferentes, algu-
mas vezes mais apropriados ao domínio do problema.
A mineração de dados, uma das principais etapas do KDD, possui tarefas e mé-
todos clássicos. Uma pesquisa realizada em 2010 pela Rexer Analytics com 735 mi-
neradores de dados em mais de 60 países apontou que as árvores de decisão são os
métodos mais utilizados.
Este capítulo teve como propósito apresentar as opções que uma empresa tem de
agregar valor para seus negócios a partir de conhecimentos escondidos em seus dados
e estimulá-la para que dê cada vez maior importância a seus dados, obtidos em suas
operações diárias mas, geralmente, utilizados somente para relatórios simplistas.
Levando-se em consideração a concorrência de mercado cada dia mais inten-
sa nas mais diversas áreas, se as empresas não buscarem e adotarem estratégias,
não apenas para manter a qualidade dos dados, mas principalmente para extrair co-
nhecimento deles, estarão reduzindo cada vez mais suas chances no mercado em que
atuam.
Uma pesquisa realizada pela Rexer Analytics em 2011 (4th Data Miner Survey
Report) com 735 “mineradores de dados” em 60 países apontou que 69% utilizam ár-
vores de decisão, 60% análise de agrupamentos e 25% regras de associação (REXER
ANALYTICS, 2011).
Em 2013, a pesquisa foi realizada com 1259 “mineradores de dados” em 75 paí-

ses e apontou que 70% dos usuários utilizam Linguagem R, 34% IBM SPSS, 32%
RapidMiner, 31% SAS e 29% Weka (REXER ANALYTICS, 2013).
Finalmente, observamos que o poder das aplicações de mineração de dados alia-
do às análises visuais permite iniciativas de marketing com foco na otimização do re-
lacionamento das organizações com o consumidor. Por exemplo, a prospecção pode
apontar quais iniciativas junto a clientes potenciais teriam melhores resultados, to-
mando como base os atuais clientes. O cross-selling, por sua vez, pode identificar entre
os atuais clientes os potenciais compradores de uma nova linha de produtos e as aná-
lises de retenção poderiam apontar clientes abordados de forma deficiente pelos con-
correntes e prospectar campanhas para atraí-los.
Referências
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of Items
in Large Databases. In: Proceedings of the 1993 ACM SIGMOD Conference, p. 207-216,
1993.
AGRAWAL, R. et al. Automatic Subspace Clustering on High Dimensional Data for Data
Mining Applications. In: Proceedings of the ACM SIGMOD Conference on Management
of Data, p. 94-105, Seattle, Washington, USA, June, 1998.
CARLANTONIO, L. M. Novas Metodologias para Clusterização de Dados. Dissertação,
Engenharia Civil, COPPE, Universidade Federal do Rio de Janeiro, 2001. Disponível em:
<http://wwwp.coc.ufrj.br/teses/mestrado/inter/2002/teses/di%20CARLANTONIO_
LM_02_t_M_int.pdf>. Acesso em: 28/09/2013.
CENDROWSKA, J. PRISM: an algorithm for inducing modular rules. In: Intl. J. Man-
Machine Studies, n. 27, p. 349-370. 1987. Disponível em: <http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.294.7800&rep=rep1&type=pdf>. Acesso em: 08/02/2014.
DEZA, M. M.; DEZA, E. Encyclopedia of Distances. Heidelberg: Springer Dordrecht, 2009.
ESTER, M. et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. In: Proceedings of the 2nd International Conference on
Knowledge Discovery in Databases and Data Mining (KDD-96), p. 226-231, Portland,
Oregon, USA, August, 1996.
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
FONTANA, A.; NALDI, M. C. Estudo de Comparação de Métodos para Estimação de
Números de Grupos em Problemas de Agrupamento de Dados. Universidade de São
Paulo. 2009. Disponível em: <http://www.icmc.usp.br/CMS/Arquivos/arquivos_enviados/
BIBLIOTECA_113_RT_340.pdf>. Acesso em: 08/02/2014.
FREITAS, A. A.; LAVINGTON, S. H. Mining Very Large Databases with Parallel
Processing. Kluwer Academic Publishers, 1998.
HAN, J.; KAMBER, M. Cluster Analysis. In: Data Mining: concepts and techniques, 1. ed.,
chapter 8, New York, USA, Academic Press, 2001.
HOUAISS, A.; VILLAR, M. de S. Dicionário Houaiss da Língua Portuguesa. Rio de Janeiro:
Objetiva, 2001.
MEIDEROS, F. S. B.; BIANCHI, R. C. A Aplicação do Método Regressão Linear Simples na
Demanda de Produtos Sazonais: um estudo de caso. In: Disciplinarum Scientia. Série:
Ciências Sociais Aplicadas, S. Maria, v. 5, n. 1, p. 35-53, 2009.
MORRISON, J. Human Nose can Detect 1 Trillion Odors. In: Scientific American.
Disponível em: <http://www.scientificamerican.com/article/human-nose-can-detect-1-tril-
lion-odors/>. Acesso em: 23/03/2014.
NG, R. T.; HAN, J. Efficient and Effective Clustering Methods for Spatial Data Mining. In:
Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), p.
144-155, Santiago, Chile, September, 1994.
QUINLAN, J. R. Induction of Decision Trees. Machine Learning, v. 1, n. 1, p. 81-106, 1986.
______. C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann
Publishers, 1993.
REXER ANALYTICS. Data Mining Algorithms Survey 2010. Disponível em: <http://myda-
tamine.com/data-mining-algorithms-survey-2010/>. Acesso em: 08/02/2014.
______. 2013 Data Miner Survey Highlights. Disponível em: <http://agiltools.com/
blogsp/wp-content/uploads/2013/12/2013-Rexer-DM-Survey-PAW-Deck.pdf>. Acesso em:
08/02/2014.
TSUNODA, D. F. Abordagens Evolucionárias para a Descoberta de Padrões e
Classificação de Proteínas. Tese. UTFPR: Curitiba, 2004.
UNIVERSITY OF WAIKATO. WEKA: versão 3.7.11. 2014. Disponível em: <http://www.
cs.waikato.ac.nz/ml/weka/downloading.html>. Acesso em: 08/08/2014.
WU, X.; KUMAR, V. The Top Ten Algorithms in Data Mining. Chapman & Hall/CRC, 1. ed.,
2009.
4 Visualização de resultados
Inicialmente, os dados eram registrados em computadores para fins puramen-
te operacionais e serviam para dar suporte às atividades do dia a dia das empresas.
Atualmente, os dados assumiram valor estratégico e representam um importante dife-
rencial competitivo. A análise dos dados está diretamente relacionada à inteligência dos
negócios, o que exige ferramentas especializadas e sofisticadas para sua manipulação.
Cubo de decisão
Design Gráfico: Bernardo Beghetto
Dados brutos podem ser organizados de diferentes maneiras para análise e re-
presentação. Uma maneira de organização é a multidimensionalidade, cuja principal
vantagem é permitir que os dados sejam organizados de acordo com a preferência de
cada gestor. Assim, diferentes visualizações podem ser criadas de modo fácil e rápido
(TURBAN et al., 2009). A multidimensionalidade envolve três fatores: dimensões, me-
didas e tempo.
Exemplos dos fatores de multidimensionalidade
Fator Exemplos
Dimensão Produtos, equipes, segmentos de mercado, unidades de negócio, países, setores etc.
Dinheiro, volume de vendas, número de funcionários, estoque, lucro previsto versus

Medida
real etc.
Tempo Diário, semanal, quinzenal, trimestral, anual etc.
Fonte: TURBAN et al., 2009.

Um banco de dados multidimensional é um tipo de repositório no qual os dados

são organizados para permitir análise multidimensional rápida e fácil. Os dados que
compõem esse repositório podem vir, por exemplo, de um data warehouse.
Data warehouse é um depósito físico no qual dados relacionados são organizados para possi-
bilitar a geração de conhecimento por meio de mineração de dados, OLAP (On-Line Analytical
Processing – “Processamento Analítico On-Line”) ou outros métodos de pesquisa.
Uma forma de representação de dados muito comum é o cubo de dados. Apesar

de o nome remeter a uma figura tridimensional, a estrutura também pode ser bidi-
mensional, ou mesmo n-dimensional. Por isso, algumas vezes é chamado de hipercubo.
Cada atributo do banco de dados é representado como uma dimensão do cubo.
On-Line Analytical Processing (OLAP) é um sistema que oferece a oportunidade de executar análises
multidimensionais sobre dados, executando cruzamentos de dimensões para avaliar fatos relevantes
em uma organização.
Na figura a seguir, por exemplo, pode-se observar que a região da América do

Norte registrou no mês de março um lucro de 14%.
Jan.
Fev. 2009
Mês
Mar.
Margem de lucro
14% da América do
Marge
m de
Norte (%)
lucro
(%)
Cubo de dados – Região X Vendas X Mês.

A análise de cubo possibilita consultas por meio de visualizações de relatórios,

utilizando recursos de OLAP – tais como page-by, pivot, classificação, filtro e drill-up/
drill-down – que permitem visões parciais de um cubo de dados com apenas um clique
do mouse.
A apresentação visual de dados e informações tem se tornado um fator de valoriza-
ção de qualquer ferramenta de inteligência de negócios e a área que estuda os processos
para produzir essas imagens com eficiência, correção e conteúdo de valor é chamada de
visualização de dados.
4.1 Origens da visualização de dados

Inicialmente, os computadores eram incapazes de competir com os proces-
sos manuais de comunicação visual. Os primeiros centros de processamento de da-
dos (CPDs) eram formados por grandes unidades de processamento, leitores de cartão
perfurado e impressoras, e nenhum monitor.
O simples traçado de uma linha em diagonal era um processo impensável. Mesmo
com o surgimento dos monitores, a alta resolução e as cores demoraram para fazer
parte do universo digital até meados da década de 1990. Hoje em dia, no entanto, to-
dos podem usar um telefone celular para gerar um diagrama sofisticado e estudá-lo.
Do mesmo modo que a representação grá-
fica demorou décadas para que estivesse dispo-
nível nos computadores, os estudos a respeito
das formas como os dados podem ser traduzi-
dos em imagens também esperaram muitas dé-
cadas para serem desenvolvidos.
Atualmente, diversas áreas de estudo (ges-
© Sergey Nivens / / Fotolia
tão de informações, design de informações,

ergonomia informacional e interface homem-
-computador, entre outras) convergem para a
descoberta de meios de traduzir dados em ima-
gens que transmitam informações.
O uso de informação gráfica remonta a muitos séculos. Até o fim do século XVI,
o uso dessas técnicas estava limitado à construção de mapas destinados à orientação
dos navegantes.
No século XVII, as administrações de diversos países europeus passaram a dis-
seminar estudos estatísticos rudimentares, como contagens de mortos ou doentes,
o resultado de safras, o recolhimento de taxas etc. Esses valores eram tabulados e
apresentados para análises mais sistemáticas.
O século XVIII foi especialmente importante para a evolução do uso de gráficos

na exposição de dados. Uma contribuição notável nesse campo foi a criação de gráfi-
cos para representação de dados pelo escocês William Playfair.
William Henry Playfair (1790-1857) foi um dos maiores arquitetos escoceses, projetou muitos
monumentos neoclássicos em Edimburgo e inventou quatro tipos de gráficos: de linhas e de
barras (1786), para dados de economia, e de pizza e circular (1801), para representar relações
parte-todo.
Na primeira metade do século XIX, observou-se um avanço significativo do uso de

gráficos. Todas as formas modernas de expressão de conteúdo estatístico existentes e
utilizadas hoje foram estabelecidas nessa época, quando ganharam grande popularidade
na comunidade científica. As publicações científicas começaram a fazer uso massivo de
diagramas, o que aumentou sua popularidade e também o esforço por sua evolução.
Na segunda metade do século XIX, foram reali-
zados alguns experimentos envolvendo as primeiras
projeções de grandezas com três dimensões, visto
que fenômenos com mais de duas variáveis passa-
ram a se tornar mais populares, diante da evolução
© marog-pixcells / / Fotolia
da matemática e do avanço da ciência.
Tanto projeções paralelas como curvas tridimen-
sionais passaram a ser utilizadas para visualização de
resultados de fenômenos de muitas variáveis. Até mesmo as primeiras sugestões a res-
peito da projeção de modelos de quatro dimensões começaram a ser apresentadas.
Já no século XX o uso de gráficos e diagramas havia atingido um alto nível de ma-
turidade, usando formas e cores variadas, com alto nível de poder informacional. A
presença desse recurso já havia se tornado uma constante em todos os tipos de perió-
dicos científicos e começou a se popularizar também para a representação de conteú-
dos escolares mais básicos.
A primeira metade do século XX presenciou uma expansão da teoria estatística e,
assim, também da linguagem gráfica para a expressão de seus resultados. No entanto,
nesse período, houve uma significativa redução da inovação nesse campo. Enfatizou-
se mais a expansão do uso das ferramentas então disponíveis do que seu aperfeiçoa-
mento ou a invenção de novas.
O terceiro quarto do século contou com uma extraordinária evolução na produ-
ção de resultados estatísticos, graças à introdução do uso do computador, o que esti-
mulou também a geração de conteúdo visual e gráfico e promoveu a popularização de
infográficos.
O computador ainda não estava sendo utilizado para produzir resultados gráfi-
cos, mas já engatinhava ao gerar imagens digitais em sistemas experimentais restritos.
A partir do último quarto do século XX, a capacidade gráfica dos computado-
res recebeu grande impulso, principalmente com a popularização dos computadores
pessoais. Jogos e interfaces gráficas se tornaram progressivamente mais comuns e as
primeiras ferramentas geradoras de gráficos surgiram na década de 1980. Teve início
então um grande desenvolvimento da capacidade de armazenamento e processamen-
to de dados, que teve reflexos também na área de processamento de imagens e gera-
ção de gráficos digitais, que começam a se popularizar. Unindo esforços intelectuais,
artísticos e tecnológicos, novas e numerosas formas de expressão gráfica de dados
têm sido apresentadas.
4.1.1 Gráficos
© violetkaipa / / Fotolia
Todo e qualquer gráfico de qualidade pode transmitir uma informação, indepen-

dentemente de estilo, tecnologia empregada e estética. Para que possa transmitir va-
lor, é preciso ter conteúdo, que assume um significado a partir do contexto em que
está inserido. Para que um gráfico apresente dados de forma eficiente, é importante
a aplicação dos critérios corretos. Antes de se decidir por um meio de exposição para
traduzir seus dados, deve-se procurar responder a três perguntas, cujas respostas ser-
virão para descartar algumas alternativas e reunir as possibilidades sobre um conjunto
mais restrito de oportunidades.
O primeiro critério é identificar qual informação será apresentada. Dados bidimen-
sionais apresentados em um diagrama tridimensional podem implicar grande prejuízo
de interpretação, em função das deformações causadas pelo efeito de perspectiva.
Dados comparativos precisam ser apresentados em escalas proporcionais para

que a informação seja compreendida e assimilada corretamente pelo destinatário.
Dados históricos fazem sentido quando ordenados cronologicamente. A distribui-
ção paralela de um valor pode ser melhor compreendida por meio de um diagrama de
dispersão. Como se pode perceber, a compreensão da informação apresentada é um
fator preponderante para guiar a seleção das opções de apresentação de um conjunto
de dados.
© Coloures-pic / / Fotolia
A cultura de quem observa um diagrama influencia significativamente na absor-
ção de seu significado. Não podemos esquecer que uma imagem também é uma forma
de comunicação, e é necessário que a mensagem seja transmitida em uma linguagem
comum entre o emissor e o receptor.
É fundamental conhecer o público-alvo do diagrama e considerar os tipos de grá-
ficos com os quais tem mais familiaridade. Em geral, o uso de explicações em info-
gráficos é restrito e a necessidade de apresentar documentação extensiva é um forte
indício de que o tipo de representação gráfica escolhida não é apropriado.
Um público de formação científica terá mais facilidade de assimilar um diagra-
ma que apresente uma curva ou o cálculo de uma função matemática, o que possivel-
mente apresentará mais dificuldades para observadores leigos.
Por outro lado, o uso de figuras populares em legendas (personagens de um dese-
nho animado, por exemplo) poderá gerar a impressão de algo demasiadamente informal
em um diagrama de resultados corporativo.
O uso de cores representa uma dimensão importantíssima na exposição de infor-
mações por um veículo gráfico; mas, se mal utilizada, pode representar um ruído. O
uso de tons femininos para um público masculino ou de cores que são culturalmente
repudiadas (as cores da bandeira de um país inimigo, por exemplo) poderão represen-
tar um forte obstáculo à leitura e compreensão de um diagrama.
Diagramas em três dimensões podem ser facilmente produzidos, visto que o
hardware necessário para o cálculo se tornou bastante acessível. Mas seu uso poderá
produzir um efeito mais estético que informativo e, assim, gerar ruído em vez de valo-
rizar os dados.
A motivação (ou o porquê) é o terceiro critério para a seleção de um método de
apresentação. A informação a ser mostrada conta uma história e deverá provocar uma
reação na plateia, ou seja, algum tipo de transformação de conhecimento, de compor-
tamento ou de expectativa.
Toda pesquisa tem o objetivo de responder alguma pergunta. Essa pergunta deve
ser feita no momento de elaboração do diagrama para nortear o conteúdo e o formato
da resposta.
Cores, efeitos 3D, gravuras e legendas poderão ou não contribuir para elevar o va-
lor informativo de um gráfico. Esses atributos poderão servir para realçar aspectos que
se deseja apresentar ou poluí-los.
Um aspecto fundamental da comunicação visual é o uso das cores. Se, por um
lado, as cores podem ser escolhidas e utilizadas de forma a agradar e informar, por ou-
tro podem ter um efeito reverso, afugentando e desviando a atenção.
A tecnologia atual possibilita um uso massivo de cores, mas quantidade nesse
caso não necessariamente significa qualidade. Em muitos casos, o uso de tons de cin-
za, ou mesmo do branco e do preto, ainda é a estratégia mais apropriada para trans-
missão de informação.
Que critérios podem ser utilizados para fazer um uso racional e positivo desse im-
portante recurso? As cores podem e devem ser usadas para evidenciar a importância
ou o significado de um dado. Uma cor intensa, por exemplo, naturalmente atrairá a
atenção do observador e transmitirá a noção de um valor maior.
Além disso, as cores sugerem emoções e podem mesmo influenciar, de forma su-
til, a maneira como o observador recebe uma informação. O artigo O Significado das
Cores (JUICE ANALYTICS, 2014) explica uma forma de utilização das cores em gráfi-
cos. Nesse texto é mencionado que tons naturais têm um efeito calmante, enquanto
tons não naturais ou antinaturais provocam agitação.
Tons naturais Tons frios

Calmantes Tranquilizantes, calmantes
Tons não naturais Tons mornos

Alarmantes, enervantes, Otimismo, atividade, vívidos
requerem atenção

© kanate / / Fotolia. (Adaptado).
Efeito das cores sobre as emoções.
Em vários casos, a intensidade da cor também transmite informação, visto que

tons mais suaves podem ser contrapostos a tons mais intensos para representar dis-
tâncias ou magnitudes dos dados.
As séries de dados podem ser organizadas de três maneiras:
• Sequencial: quando os valores são organizados e mostrados em ordem ascen-
dente ou descendente de intensidade.
• Divergente: quando os valores apresentam-se também em ordem, mas varian-
do para sentidos opostos em relação a um ponto referencial.
• Categórica: quando os valores são distribuídos em diferentes grupos ou
categorias.
Sequencial: as cores podem ser ordenadas de baixa para alta luminosidade

Baixa Alta
Divergente: dois esquemas sequenciais a partir de um ponto central

Baixa Ponto central Alta

Categórica: alto contraste entre cores adjacentes
© kanate / / Fotolia. (Adaptado).

Fonte: JUICE ANALYTICS, 2014. (Adaptado).
Uso de cores e tons em relação à distribuição de valores.

Por exemplo, se você quiser enfatizar algum dado, poderá aumentar sua satura-
ção e/ou brilho. Observe a diferença quando apenas o brilho da fatia do gráfico de piz-
za é alterado:
Vendas (em R$) Vendas (em R$)
2.546 2.546
6.598 6.598
8.452 8.452
Jan. Jan.
Fev. Fev.
Mar. Mar.
Comparação de brilho de cores.
4.2 Ciclo de vida da visualização de dados

A visualização é a última das quatro etapas que compõem um ciclo de trabalho.
4.2.1 Aquisição de dados

A primeira etapa é, naturalmente, a reunião dos dados que deverão ser estuda-
dos. Esses dados podem ser extraídos diretamente dos registros presentes na própria
empresa, como planilhas eletrônicas, bancos de dados e bancos de mídias.
Uma alternativa para a obtenção de dados são fontes externas, como dados pú-
blicos (por exemplo: repositório de dados eleitorais do Tribunal Superior Eleitoral e
repositório nacional de dados abertos, como o censo escolar), bibliotecas físicas e digi-
tais, parceiros acadêmicos e institutos de pesquisa.
4.2.2 Limpeza de dados

Em geral, os dados não se encontram originalmente em um formato que possa
ser processado pelas ferramentas de análise. É frequente a necessidade de uma etapa
de preparação, na qual os dados passam por processos de normalização, formatação
e conversão para os formatos suportados pelas ferramentas. Também nessa etapa, os
dados que não serão úteis na pesquisa são descartados.
4.2.3 Análise e visualização exploratória

Uma vez que os dados estejam prontos para a análise, o processo seguinte é a
realização da análise propriamente dita. Para isso, existe uma grande variedade de
tecnologias e ferramentas, gratuitas e comerciais, disponíveis:
• Na internet: Google Spreadsheet, Google Fusion Tables e IBM ManyEyes.
• Aplicações: Tableau, Microsoft Office, OpenOffice, Gephi, Spotfire, Linguagem
R, NodeXL (plug-in para MS Excel).
4.2.4 Publicação
A última etapa é a publicação ou apresentação dos resultados da análise. Por
exemplo: após o fechamento anual de uma organização, os resultados alcançados
serão apresentados para os interessados, internos ou externos. É importante ob-
servar que, dependendo do público-alvo dessa informação, o formato deverá ser
diferenciado.
Alguns tipos de visualização:

• Visualização estática: os dados não são atualizados automaticamente, nem
são animados. Um exemplo são as informações produzidas para impressão.
• Visualização animada: os dados são trabalhados para serem apresentados em
uma forma animada ou, ainda, dinâmica.
• Visualização na web: um tipo bastante comum de visualização, na qual os da-
dos são trabalhados para que possam ser visualizados, normalmente utilizan-
do o potencial das redes de comunicações em navegadores compatíveis com
internet.
4.3 Ferramentas de visualização

4.3.1 Dashboards
A visualização dos resultados de qualquer tipo de estudo ou processo é um aspecto
necessário em qualquer domínio. Inicialmente, os sistemas informatizados disponibiliza-
vam a visualização por meio de relatórios. Em seguida, com o desenvolvimento da tec-
nologia de processamento gráfico, começaram a ser usados diagramas, cuja qualidade
variou do sofrível ao soberbo. No entanto, de uma forma geral, o que se tinha era uma
fotografia estática de dados em algum momento do passado.
Atualmente, é possível apresentar uma visualização dinâmica dos resultados, atualiza-
da em tempo real, em um diagrama chamado de dashboard.
© Viktor Gmyria / / Fotolia
O termo dashboard vem do inglês e pode ser traduzido como “painel de ins-
trumentos” (ou ainda “painel de bordo”, ou “painel de indicadores”). Trata-se de uma
metáfora que compara esse diagrama ao painel de um avião, que apresenta inúmeros
mostradores ativos que relatam a situação da aeronave durante o voo. O piloto normal-
mente utiliza diversos desses mostradores em um dado momento para tomar uma deci-
são importante. Não serão todos, mas um subconjunto que apresente dados relevantes
a respeito de algum evento em foco. Os dashboards digitais seguem o mesmo princípio
na seleção e apresentação dos dados.
A natureza dinâmica dos dashboards dá aos gestores uma nova forma de monitorar
o andamento e a evolução de seus negócios, praticamente em tempo real. De forma resu-
mida, podemos dizer que um dashboard tem o potencial para fornecer uma série de bene-
fícios, tais como:
• ajudar a alta administração a estabelecer o que é importante;
• educar os membros da organização a respeito dos assuntos importantes;
• definir os objetivos individuais e de grupos de colaboradores;
• mostrar aos gerentes o andamento dos processos organizacionais;
• encorajar ações específicas em momentos apropriados;
• evidenciar situações de exceção por meio da apresentação de alertas;
• comunicar a ocorrência de sucesso ou andamento de processos;
• fornecer os meios para ter acesso a dados de importância e manipulá-los.
Todos esses aspectos reforçam a noção de importância que um dashboard pode
ter para uma organização. As alternativas para a apresentação de dados em um
dashboard são muito variadas. Isso não quer dizer que todas devem ser usadas em
dado momento – e o largo leque de opções pode até mesmo representar um perigo.
A finalidade de um dashboard é apresentar uma gama de dados sob formas diver-
sas, mas esses dados precisam estar em harmonia com os propósitos do observador.
É importante ter em mente que algumas modalidades de visualização são mais
apropriadas a tipos de dados específicos. Algumas das diversas possibilidades de vi-
sualização de dados:
Gráficos de linhas são indicados para apresentar a evolução de valores de uma ou
mais variáveis ao longo de uma escala – por exemplo, o tempo. Permite a visualização
simultânea de mais de uma variável, o que facilita sua comparação. Suponha que a ta-
bela a seguir descreva o valor de vendas em milhões de reais de uma empresa fictícia
durante um ano.
Tabela de vendas
Vendas 2013
Mês Vendas (em R$)
Jan. R$ 2.546,00
Fev. R$ 8.452,00
Mar. R$ 6.598,00
Abr. R$ 2.156,00
Mai. R$ 5.978,00
Jun. R$ 4.682,00
Jul. R$ 8.911,00
Ago. R$ 6.851,00
Set. R$ 5.489,00
Out. R$ 6.879,00
Nov. R$ 7.985,00
Dez. R$ 10.569,00
A figura a seguir apresenta essas informações em um gráfico de linhas. Observe

que a tendência de crescimento das vendas no último mês é facilmente visualizada.
Vendas (em R$)

12.000
10.569
10.000
8.911
8.452
8.000 7.895
6.598 6.851 6.879
6.000 5.978
5.489
4.682
4.000
2.546
2.000 2.156
0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de linhas.
Mostradores de progresso são úteis para apresentar o andamento de um proces-

so, o volume de ocupação ou de utilização de um recurso ou o desempenho de deter-
minado indicador em relação a uma meta estabelecida, por exemplo o nível de venda
de dado produto comparado à meta mensal.
© Felix Pergande / / Fotolia

Mostrador de progresso.
Mui
to b
Bom om
Ex
cel
im
Ru
en
te
© John Takai / / Fotolia. (Adaptado).

Mostrador de progresso utilizando cores para evidenciar os diversos estados.

Suponha então que você queira criar um mostrador de progresso para as metas
de sua empresa, fornecendo apenas a meta e quanto já foi realizado. Supondo uma
meta de 25.000 e um realizado de 4.500, a planilha fará o cálculo de quanto ainda res-
ta a realizar (nesse caso, 20.500) e a variação (82%). Geralmente, esse tipo de gráfico é
utilizado para visualização de dados armazenados em planilhas.
50%
25% 75%
0% 100%

FATURAMENTO
Mostrador de progresso do faturamento.
Gráficos de barras ou de colunas são muito bons para comparar níveis de resulta-
dos ao longo do tempo, pois transmitem uma noção intuitiva de volume que é rapida-
mente assimilada pelo observador. Um exemplo é a ocorrência de falhas de operação
de uma máquina em cada mês do ano. A seguir, temos os mesmos dados da tabela já
apresentada sob a forma de um gráfico de barras.
Vendas (em R$)

Dez. 10.569
Nov. 7.895
Out. 6.879
Set. 5.489
Ago. 6.851
Jul. 8.911
Jun. 4.682
Mai. 5.978
Abr. 2.156
Mar. 6.598
Fev. 8.452
Jan. 2.546
0 2.000 4.000 6.000 8.000 10.000 12.000
Exemplo de gráfico de barras.
A seguir, os mesmos dados são exibidos em um gráfico de colunas. Observe que

em ambos os gráficos são facilmente verificáveis os meses com o maior e o menor va-
lor de vendas (respectivamente dezembro e abril).
Vendas (em R$)

12.000
10.569
10.000 8.911
8.452
7.895
8.000 6.851 6.879
6.598
5.978
6.000 5.489
4.682
4.000

2.546 2.156
2.000
0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de colunas.
Gráficos de pizza são úteis quando o que se deseja é uma avaliação percentual
entre os diversos valores de uma variável. Devem ser usados com cuidado, pois per-
dem rapidamente a eficácia quando o número de variáveis é grande ou estas apre-
sentam valores muito próximos. Um bom uso poderia ser a avaliação de tipos de
ocorrências relatadas por usuários a respeito de um produto (percentual de reclama-
ções, percentual de elogios, percentual de dúvidas, percentual de sugestões etc.).
A seguir, temos um exemplo de gráfico de pizza para as vendas realizadas na ta-
bela anterior, mas normalmente não se utiliza esse tipo de gráfico quando o número
de fatias é grande, pois isso pode dificultar a comparação dos meses com tantas cores
semelhantes. Observe, por exemplo, como a análise das vendas ficou mais simples no
gráfico anterior (de colunas) quando comparado ao gráfico de pizza, que, ainda agra-
vado pela perspectiva, dificulta a interpretação. Observe que, sem a leitura dos valo-
res, em um primeiro momento teríamos a impressão de que o mês de julho apresentou
o maior valor de vendas, quando na verdade foi o mês de dezembro.
Jan.
Vendas (em R$)
Fev.
2.546 Mar.
10.569 8.452
Abr.
7.895 6.598
Mai.
2.156 Jun.
Jul.
6.879 5.978
Ago.

5.489 4.682 Set.
Out.
6.851 8.911
Nov.
Gráfico de pizza. Dez.
Mapas de calor são muito bons para visualizar a distribuição de tendências ou vo-
lumes em um território, por exemplo, o volume de vendas atingido nos diversos esta-
dos de um país. Nesse tipo de gráfico as cores ganham valor especial, pois contribuem
para uma assimilação quase instantânea da informação.
Variável:
pessoas de 25 anos ou mais, residentes
em domicílios particulares, pessoa
responsável – Total.
Até 553.087
Acima de 553.087 até 799.199
Acima de 799.199 até 1.714.450
© White / / Fotolia. (Adaptado).
Acima de 1.714.450 até 3.087.872

Acima de 3.087.872
Fonte: IBGE, 2010. (Adaptado).
Mapa de calor.
A seguir, temos uma forma alternativa de utilização dos mesmos conceitos de

mapas de calor. A grande vantagem desse tipo de visualização é a rápida identificação
dos pontos que merecem maior atenção.
Vendas de produtos por trimestre (2013)

Tomate
Batata
Pera
Laranja
Produto
Uva
Cenoura
Maçã
Repolho
Banana
Kiwi

2013/ 1T 2013/ 2T 2013/ 3T 2013/ 4T
Ano/Trimestre
R$ 0,00 – 5.000,00
R$ 5.001,00 – 15.000,00
R$ 15.001,00 – 30.000,00
Acima de R$ 30.000,00
Mapas de calor – vendas de produtos.

Gráficos de bolha representam as diferenças de grandeza por meio das propor-
ções do raio de círculos. Uma de suas grandes vantagens é não precisar de muito es-
paço para evidenciar as relações existentes entre as variáveis apresentadas. Também
têm a virtude de evidenciar rapidamente as diferenças de proporção entre os valores
apresentados.
A tabela a seguir apresenta duas séries de vendas e participações:
Séries de vendas de duas empresas no período de 5 anos (2009-2013)

Fator Série 1 Série 2
Ano Participação A Venda A Participação B Venda B
2009 22% R$ 76.900,00 41% R$ 42.389,00
2010 31% R$ 40.132,00 49% R$ 57.870,00
2011 15% R$ 59.080,00 42% R$ 90.552,00
2012 24% R$ 65.900,00 40% R$ 75.980,00
2013 27% R$ 78.027,00 37% R$ 67.985,00

Vamos visualizar agora os mesmos dados em um gráfico de bolhas.
Gráfico de bolhas
60%
R$ 57.870,00
R$ 90.552,00
50% R$ 42.389,00 R$ 75.980,00
R$ 67.895,00

Participações (%)
40%
Série 1
30%
R$ 40.132,00 Série 2
20%
R$ 78.027,00
R$ 76.900,00 R$ 65.900,00
10%
R$ 59.080,00
0%
2008 2009 2010 2011 2012 2013 2014
Ano
Visualização dos dados das vendas e participações em um gráfico de bolhas.
Observe no gráfico que o tamanho das bolhas é correspondente ao valor das ven-
das, ou seja, quanto maior o valor da venda, maior o tamanho da bolha.
Gráficos de dispersão permitem a avaliação da distribuição de um conjunto de
dados em relação a duas (dispersão bidimensional) ou três variáveis (dispersão tridi-
mensional). Cada variável é representada por um eixo e os dados que assumem esses
valores são distribuídos no plano (ou no volume), permitindo a avaliação de efeitos de
dispersão ou agrupamento de dados.
Para exemplificar esse tipo de gráfico, suponha que uma protetora de cães de
Curitiba deseja gerar um gráfico com o número de cães recolhidos em cada mês de de-
terminado ano.
Cães recolhidos em Curitiba

Mês Cães recolhidos
Jan. 25
Fev. 12
Mar. 5
Abr. 6
Mai. 8
Jun. 12
Jul. 16
Ago. 8
Set. 6
Out. 8
Nov. 7
Dez. 21
Essas informações podem ser representadas em um diagrama de dispersão:
Número de cães X Meses do ano

30
25 25
20 21
Número de cães
16 Design Gráfico: Bernardo Beghetto

15
12 12
10
8 8 8 7
5 5 6 6
0
0 2 4 6 8 10 12
Meses de ano
Diagrama de dispersão.
Observe que nos meses de janeiro, julho e dezembro, o número de cães recolhi-
dos é maior, talvez por serem períodos de férias escolares, durante os quais diversas
famílias viajam e deixam seus cães nas ruas.
Suponha agora que em Londrina também exista uma protetora de cães que
possua uma planilha semelhante. A tabela com os dados de ambas as cidades ficaria
assim:
Cães recolhidos
Mês Curitiba Londrina
Jan. 25 16
Fev. 12 13
Mar. 5 6
Abr. 6 2
Mai. 8 8
Jun. 12 10
Jul. 16 26
Ago. 8 5
Set. 6 2
Out. 8 9
Nov. 7 7
Dez. 21 16
Um gráfico de dispersão com linha de tendência permite a comparação entre as

duas cidades:
Número de cães X Meses do ano (Curitiba e Londrina)
30
Curitiba
Londrina
25 2 por média móvel (Curitiba)
2 por média móvel (Londrina)
20
Número de cães
15
10
0
0 2 4 6 8 10 12
Meses de ano
Diagrama de dispersão com linha de tendência.

Verificamos que em Londrina o padrão se repete: nos meses de janeiro, julho e de-
zembro há um número maior de cães nas ruas. Embasando-se nesse gráfico, é possível
propor a criação de políticas públicas e de conscientização que minimizem o problema
nas duas cidades.
Pequenas tabelas (não mais de cinco colunas e 20 linhas) também podem apre-
sentar dados numéricos variados e, em alguns casos, são até preferíveis em relação a
gráficos.
Durante a construção de um dashboard, o mais importante é focalizar no obje-
tivo, que dependerá do público-alvo dos dados. A cultura e as expectativas do públi-
co-alvo unidas aos motivos da apresentação dos dados irão determinar a disposição
gráfica de apresentação na tela do computador.
4.3.2 Scorecards
Scorecards são painéis de visualização de resultados muito similares aos dashboards,
o que faz com que sejam frequentemente confundidos.
Dashboards são utilizados para monitorar variáveis e grandezas de natureza ope-
racional. São recomendados para monitorar a evolução de processos de negócios em
tempo real.
Scorecards são utilizados para acompanhar a evolução de indicadores sintéticos
em relação a metas preestabelecidas. Essas metas, chamadas de indicadores-chave de
desempenho (KPI, do inglês “key performance indicators”), estão relacionadas a métri-
cas de natureza tática ou estratégica de uma organização.
A tabela a seguir apresenta diferenças fundamentais existentes entre as duas
ferramentas.
Característica Dashboard Scorecard
Propósito Medir o desempenho Mapear o progresso
Usuário Supervisores e especialistas Executivos e gerentes
Atualização Tempo real Instantâneos periódicos
Dados Eventos Resumo

Exibição Diagramas e dados brutos Diagramas e comentários em texto
Fonte: TURBAN et al., 2009
Comparações entre dashboard e scorecard.
As estratégias e critérios para a construção de um scorecard são similares aos

adotados em dashboards, mas as variáveis e critérios precisam levar em conta as ex-
pectativas dos diferentes públicos-alvo.
Em geral, os analistas de nível estratégico ou operacional avaliam tendências de
indicadores de desempenho de alto nível e operam sobre elementos sintéticos que são
resultado do processamento de outras variáveis mais simples.
O scorecard é uma ferramenta-chave da metodologia balanced scorecard.
4.3.3 Visualização de resultados em mineração de dados

O processo de descoberta de conhecimento em base de dados (KDD) foi propos-
to em 1989 por Fayyad (1996) para referir-se às etapas que produzem conhecimentos
a partir dos dados de entrada.
Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação

Dados Dados
Dados Dados
Dados
Dados Dados Dados Dados
Dados Dados
Dados Dados Padrões Conhecimento
pré-processados transformados
Fonte: FAYYAD, 1996. (Adaptado).
Processo KDD.
A última etapa do KDD é a avaliação e interpretação do conhecimento descoberto.

Nessa fase, o conhecimento descoberto é apresentado ao usuário em uma linguagem
de fácil compreensão e que possibilite uma boa interpretação dos resultados obtidos.
Para isso, são recomendáveis as técnicas de visualização de dados. O novo conhecimen-
to também é incorporado para a melhoria do desempenho do sistema.
As ferramentas de mineração de dados, com a aplicação de algoritmos, utilizam
métodos estatísticos para a descoberta de padrões e extraem automaticamente do
banco de dados o conhecimento que está ali “escondido”.
A figura a seguir apresenta um exemplo de integração de data warehouse, minera-
ção de dados, OLAP e relatórios. Imaginemos um sistema cujas entradas são informa-
ções de transações web, sistema CRM tradicional, informações de suporte e informações
de vendas e que gera relatórios de suporte à decisão direcionados a gerentes, represen-
tantes de vendas, analistas de negócios e fornecedores. O data warehouse armazena
dados de entrada e, com aplicações de mineração de dados, OLAP e relatórios, o siste-

ma fornece as saídas aos usuários interessados.
Mineração de dados é o processo que utiliza técnicas estatísticas, matemáticas, de inteligência

artificial e de aprendizado de máquina para extrair e identificar informação e conhecimento útil
em bancos de dados.
Informações de transações
de clientes web
Aplicações de mineração
de dados para descoberta Gerentes
de padrões relacionados
aos comportamentos dos
D clientes, por exemplo.
CRM tradicional – a
informações de clientes t
a Representantes
de vendas
W Aplicações OLAP para
a descoberta de relações
r nos dados para descobrir
e tendências históricas.
Aplicação de call center – h Analistas de
informações de suporte o negócios
u
s
e Design Gráfico: Bernardo Beghetto
Ferramentas de relatórios
para projeções de vendas,
por exemplo. Fornecedores
Aplicação de vendas –
informações de clientes
Fonte: MARTIN, 2014. (Adaptado).
Exemplo de aplicação de mineração de dados.

São diversas as ferramentas disponíveis para visualização de dados. Apresen-

tamos a seguir o primeiro grupo de ferramentas comerciais:
Ferramenta Scorecard
CViz Cluster Visualization Análise de dados complexos multidimensionais em grande volume.
Apresenta grande quantidade de dados (mais de 10 mil parâmetros diferen-

High Tower TowerView
tes) em ambiente gráfico tridimensional.
Um conjunto de ferramentas para criação de mostradores gráficos

IBM ILOG Visualization
interativos.
Ferramenta web de análise visual de dados em tempo real e aplicativo de

InetSoft Style Scope
dashboard com controles drag and drop.
Tecnologia de visualização de dados com filtros dinâmicos (dynamic filters),

Miner3D K-Means e outros métodos que permitem a análise visual de dados científicos
e de negócios.
Ferramenta de visualização para análise de dados estáticos e dinâmicos, dis-

NovoSpark Visualizer
ponível na versão comercial e free (on-line).
Ferramenta de visualização de dados otimizada para monitoramento e aná-

Panopticon lise de dados em tempo real, com um modelo de dados OLAP na memória e
capacidade de se conectar a praticamente qualquer fonte de dados.
Software desenvolvido por Alfred Inselberg, inventor do método de coorde-

Parallax: Multi-Dimensional Graphs
nadas paralelas, para visualização e classificação.
Visualização multiusuário, plataforma de conhecimento, capacita especialis-

Quantum 4d tas e usuários não técnicos a construir, navegar, editar e explorar universos
n-dimensionais usando uma interface 3D dinâmica.
Utiliza combinação de redes neurais, algoritmos genéticos e SOM

RapAnalyst (Self-Organizing Map) para visualizar o conhecimento e trabalhar com
dados multidimensionais.
Ferramenta de visualização de dados para análises e elaboração de

SAP BusinessObjects Xcelsius Enterprise dashboards interativos e conexões seguras com o SAP BusinessObjects
Enterprise e o SAP BusinessObjects Edge.
Startree, Tablelens, Timewall e Vizserver são ferramentas que disponibilizam

SAP Business Objects Tools for ambientes visuais para exploração de hierarquias e relacionamentos em suas
Advanced Visualization aplicações, análise de tendências de dados tabulares e visualização (previsão)
de horizontes de longo prazo.
Sentinel Visualizer Ferramenta para análises complexas e visualização de redes sociais.
Planilha para bancos de dados que permite explorar visualmente, analisar e

Tableau
criar relatórios.
Representação visual intuitiva, exploração e modelagem de distribuições

Viscovery de dados complexos, utilizando SOM (Self-Organizing Map) e estatísticas
clássicas.
Fonte: KDNUGGETS, 2014. (Adaptado).

Ferramentas comerciais de visualização de dados.
O segundo grupo é o de ferramentas freeware:
Ferramenta Descrição
d3.js – Data-Driven Documents Biblioteca JavaScript para processamento e visualização de documentos HTML.
Conjunto de programas para agrupamento, visualização e classificação com

Databionic ESOM Tools
ESOM (Emergent Self-Organizing Maps).
DataWrangler Ferramenta interativa para limpeza e transformação de dados.
Ferramenta open source de visualização interativa e exploração de dados de to-

Gephi
dos os tipos de redes e sistemas complexos, dinâmicos e grafos hierárquicos.
Permite visualizações 3D, apresentação de códigos de cores e tons de cinza e cor-

IBM OpenDX – Open Visualization tes no objeto para que se tenha uma visão interna e, em seguida, apresente-se
Data Explorer dados sobre esse plano de corte em um gráfico codificado. Possui funcionalida-
des para rotacionar objetos e realizar animações desses movimentos.
InetSoft Dashboardfre – Style Scope Aplicativo web gratuito para criação de dashboards interativos em Flash e outras
Free Edition visualizações.
Framework de visualização de informação dedicado à análise e visualização de da-

Tulip
dos relacionais (livre).
i Visalix Aplicação web visual para análise e agrupamento de dados.
XDAT – X-dimensional Data Analysis Ferramenta que pode trabalhar com dados de grandes dimensões para análise de
Tool todas as dimensões ao mesmo tempo.
Fonte: KDNUGGETS, 2014. (Adaptado).
Ferramentas freeware de visualização de dados.

Pudemos observar que não existe uma ferramenta que atenda a todas as neces-
sidades de uma organização. A escolha da ferramenta irá depender da informação que
se deseja visualizar e de que maneira.
Vamos apresentar, a seguir, uma ferramenta freeware para exemplificar a visua-
lização de dados. Escolhemos a Linguagem R, um pacote estatístico que implementa
algoritmos de mineração de dados e permite a geração de diversos tipos de visualiza-
ções, além de permitir programação especializada em computação com dados.
Embora não seja específica para mineração de dados, escolhemos essa ferramen-
ta porque, de acordo com a pesquisa 2013 Rexer Analytics Data Miner Survey, 70% dos
desenvolvedores de aplicações para mineração de dados a utilizam. É uma linguagem
gratuita, criada por Ross Ihaka e Robert Gentleman na Universidade de Auckland, na
Nova Zelândia, sob os termos da Licença Pública Geral GNU 3, e atualmente é mantida
pela comunidade mundial de desenvolvedores (THE R, 2007).
Para a mineração de dados com essa linguagem, utilizaremos o software Rattle (R
analytical tool to learn easily), também freeware. Essa ferramenta apresenta uma inter-
face gráfica que facilita a utilização da Linguagem R para análise, manipulação e mine-
ração de dados.
Para a realização dos experimentos, criamos uma tabela para os testes. Suponha
que o objetivo seja descobrir a existência de relações do tipo “quem compra x tam-
bém compra y” entre os produtos escolhidos. Essa é uma das principais aplicações co-
merciais utilizadas pelas empresas: realizar promoções que combinem dois produtos
que são muito comprados, ou dois produtos que são muito comprados junto com ou-
tro que não tem vendas tão expressivas.
ID Pão Manteiga Torrada Vassoura Bolacha Caneta Saco p/ lixo Fralda Arroz
1 Sim Não Não Não Não Sim Sim Sim Sim
2 Não Sim Não Sim Sim Não Não Não Não
3 Não Não Sim Não Não Não Sim Não Sim
4 Sim Não Sim Sim Sim Sim Não Sim Não
5 Não Não Sim Não Não Não Não Não Não
6 Não Sim Não Sim Não Sim Sim Sim Sim
7 Sim Não Não Não Sim Não Não Não Não
8 Sim Não Não Não Não Sim Sim Sim Não
9 Não Não Sim Sim Não Não Sim Não Não
10 Sim Sim Não Sim Sim Não Não Não Não
11 Sim Não Não Sim Não Sim Sim Sim Sim
12 Não Sim Não Sim Sim Sim Sim Não Sim
13 Sim Sim Não Não Não Não Não Não Não
14 Sim Sim Não Sim Não Sim Sim Não Sim
15 Não Não Sim Sim Não Não Sim Não Sim
17 Sim Não Não Não Não Sim Sim Sim Não
18 Não Sim Não Não Não Sim Sim Não Não
19 Sim Não Não Não Não Não Não Não Não
20 Sim Sim Não Não Sim Sim Sim Não Não
21 Não Não Sim Sim Não Não Sim Não Sim
23 Sim Não Sim Sim Não Sim Sim Não Sim
Dados de entrada para a mineração na ferramenta R.
Esses dados foram usados como input pela ferramenta Rattle. Utilizamos o algo-
ritmo de classificação Apriori para a descoberta de regras. Para análise dos atributos,
o Rattle apresenta um gráfico no qual é possível observar a frequência relativa de cada
produto em análise e as regras descobertas.
Distribuição de frequência dos atributos

Gráficos do R: Dispositivo 3 (ATIVO)
0.7
0.6
Frequência de itens (relativa)
0.5
0.4
0.3
0.2
0.1

0.0
O
SIM
ÃO
SIM
ÃO
SIM
ÃO
NÃ
NÃ
NÃ
NÃ
=N
=N
=N
o=
o=
a=
ta=
oz=
ura
iga
ura
ha
lda
Pã
lix
ad
ne
sso
lac
Arr
p/
nte
Fra
sso
rr
Ca
Bo
To
co
Va
Ma
Va
Sa
Regras descobertas pelo algoritmo Apriori.

A regra 1 é interpretada da seguinte forma: quem compra pão não compra torrada, com suporte de 56,25%
e confiança de 100%.
4.3.4 Tendências
Uma tendência em visualização de dados é a utilização de realidade virtual (VR).
As aplicações visuais recentes incluem desenvolvimentos em VR, o que, é claro, envol-
ve mais do que apenas ver imagens.
As representações de VR permitiram avanços em diversas áreas da medicina, so-
bretudo no ensino. Simulações em realidade virtual possibilitam uma maneira de edu-
car médicos e dentistas sobre a sensação e a aparência de procedimentos cirúrgicos
reais. Imagens tridimensionais de órgãos tornaram possível a cirurgia robótica. A VR
também pode ser usada no tratamento de fobias.
Realidade virtual é uma tecnologia interativa 3D que fornece ao usuário uma sensação de que ele
está fisicamente presente em um mundo virtual (produzido em computador) (TURBAN, 2010).
A háptica (tecnologia do toque virtual) é usada em conjunto com a VR para acele-

rar as aplicações. A Harvard School of Dental Medicine está trabalhando em um meio
de permitir o ensino da odontologia com o uso da háptica. Aplicações cirúrgicas estão
em desenvolvimento para proporcionar com precisão a textura, o peso e a fragilidade
de partes reais do corpo humano. A Ortho Biotech Inc. desenvolveu um simulador mó-
vel de VR para auxiliar os médicos a compreender como os pacientes da quimiotera-
pia sentem-se fisicamente. A maioria dos médicos que passou pelo simulador mudou a
forma de tratar a fadiga relacionada ao câncer e de se referir a ela.
A VR é usada há anos no treinamento de voo. Pilotos desenvolvem habilida-
des manuais e técnicas através das simulações baseadas em VR. Fabricantes de au-
tomóveis usam a VR para ajudar a resolver problemas de projetos e reduzir custos. A
MathWorks Inc. oferece uma caixa de ferramentas que fornece aos engenheiros uma
visão profunda e animada dos modelos dinâmicos.
Empresas navais e petrolíferas utilizam simulação virtual de ambientes em suas
explorações. Um exemplo de aplicação é a visualização em realidade virtual dos poços
de petróleo em exploração por especialistas que são capazes de prever a profundidade
em que está o petróleo. Ao mesmo tempo, sistemas de mineração de dados combina-
dos com inteligência artificial buscam por padrões que possam dar suporte às decisões
dos especialistas.
© pressmaster / / Fotolia
A visualização de dados pode utilizar modelos para o mapeamento e a apresenta-
ção gráfica de dados, com o objetivo de agregar valor e aprimorar a tomada de decisão.
As técnicas de visualização podem variar conforme os tipos de dados que es-
tão sendo analisados: mostradores de progresso (gauges) para a apresentação do an-
damento de um processo, o volume de ocupação ou de utilização de um recurso ou o
nível de desempenho de determinado indicador em relação a determinada meta; grá-
ficos de barras para comparação de níveis de resultados ao longo do tempo; gráficos
em pilha e de pizza para avaliação percentual entre diversos valores de uma variável e
mapas de calor para a exploração de tendências ou volumes ao longo de regiões geo-
gráficas. Pequenas tabelas, com cerca de cinco colunas e vinte linhas, também podem
ser utilizadas para apresentar dados numéricos variados. Em alguns casos são mais re-
comendáveis que os gráficos.
Atualmente, a visualização de dados é muito diversificada, podendo ser feita por
meio de simples gráficos de barras, pizza ou coluna, ou sofisticados mapas interativos.
Vale destacar que a interatividade é um dos diferenciais que faz com que os gráficos
sejam mais atrativos para os usuários, além da possibilidade de trabalhar simultanea-
mente com multidimensões.
A mineração de dados (MD), uma das principais etapas do processo de descober-

ta de conhecimento em base de dados, busca padrões desconhecidos em grandes vo-
lumes de dados pela utilização de algoritmos diversos. A MD já é bastante utilizada
nas organizações, apesar de, muitas vezes, trazer dificuldades ao tomador de decisão,
quando lhe apresenta resultados não habituais. Por exemplo, normalmente uma re-
gra de decisão é facilmente compreendida, mas as coordenadas do posicionamento do
centro de um agrupamento não.
Algumas ferramentas de mineração permitem visualizações de dados, como
Linguagem R, open source, e outras disponibilizam a utilização de pacotes prontos para
mineração de dados, como a ferramenta Rattle.
Referências
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
JUICE ANALYTICS. Color has Meaning. 2014. Disponível em: <http://www.juiceanalytics.
com/design-principles/color-has-meaning>. Acesso em: 30/04/2014.
KDNUGGETS. Visualization and Data Mining Software. Disponível em: <http://www.
kdnuggets.com/software/visualization.html>. Acesso em: 30/04/2014.
MARTIN, J. R. What is Data Mining? Disponível em: <http://maaw.info/DataMining.htm>.
Acesso em: 09/02/2014.
REXER ANALYTICS. 2011 Data Miner Survey. Disponível em: <http://www.rexeranalytics.
com/Data-Miner-Survey-Results-2011.html>. Acesso em: 13/10/2013.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do
negócio. Porto Alegre: Bookman, 2009.
Wikimedia Commons. Geothermal Heat Map US. Disponível em: <http://commons.
wikimedia.org/wiki/File:Geothermal_heat_map_US.png>. Acesso em: 09/02/2014.

Sistemas de Apoio À Decisão para Business Intelligence

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistemas de Apoio À Decisão para Business Intelligence

Uploaded by

Copyright:

Available Formats

SiStemaS de

apoio à deciSão para

Dados Internacionais de Catalogação na Publicação (CIP)

T882 Tsunoda, Denise Fukumi

Sistema requerido: Adobe Acrobat Reader.

1. Processo decisório. 2. Planejamento estratégico. I. Título.

Dedico esta obra ao Alex, amigo e marido,

1.1 Tomada de decisão

Decisões e planejamento tático:

Design Gráfico: Carlos Henrique Stabile

É importante observar, também, que a eficácia empresarial tem relação dire-

As decisões podem ser classificadas em dois tipos: programadas (estruturadas) e

• Baseadas em dados inadequados.

Planejamento Execução Controle

Modelo de tomada de decisão empresarial.

A figura anterior ilustra um modelo de decisão empresarial. Os fatores que forne-

vida, consumo responsável e

Fonte: MUNDO VERDE, 2013. (Adaptado).

Orientados pela missão, visão e valores, os gestores estabelecem o modelo de

Fatores de uma informação de qualidade

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).

Nas figuras a seguir, cada um dos itens será detalhado.

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).

restrito, ou de foco interno ou externo.

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).

A informação pode ser fornecida em forma de

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).

Ainda sobre a eficiência do tomador de decisão, Turban e Volonino (2013) apre-

Atividades envolvidas na decisão

Ambiente externo Ambiente interno

Design Gráfico: Carlos Henrique Stabile

Decisão: o que fazer

Fonte: TURBAN; VOLONINO, 2013. (Adaptado).

Design Gráfico: Carlos Henrique Stabile

Sucesso Implementação da solução

Chiavenato (2004) divide o processo decisório em seis etapas. A primeira etapa, a

Na segunda etapa, a de obtenção de informações sobre a situação, o gestor es-

© Rawpixel / / Fotolia / / Fotolia. (Adaptado).

Design Gráfico: Carlos Henrique Stabile

É importante observar que cada etapa influencia todas as demais. Dependendo

Etapas do modelo decisório

• Identificar a essência do problema ou da oportunidade.

• Buscar dados, fatos e informações a respeito.

• Desenvolver possíveis soluções.

• Avaliar as alternativas considerando, por exemplo: custo, tempo

Colocar em • Implantar a solução escolhida.

• Monitorar o andamento da solução.

Fonte: CHIAVENATO, 2004. (Adaptado).

Chiavenato (2004, p. 258) apresenta a árvore de decisão para a avaliação de alter-

Árvore de decisões de avaliação de alternativas

Design Gráfico: Carlos Henrique Stabile

Fonte: CHIAVENATO, 2004.

Observe que a árvore “mostra a sequência de todo o processo de decisão e o des-

Vimos nesta seção a importância dos cuidados na tomada de decisão. Obser-

1.2 Conceitos e estrutura de sistemas de apoio à decisão

1.2.1 Sistemas de apoio à decisão e sistemas de informação

Um Sistema de Apoio à Decisão (SAD), também chamado de Sistema de Suporte

Lacombe e Heilborn (2003, p. 451) definem o SAD como um “sistema interati-

• Exploração de bancos de dados internos e externos pode ser utilizada para

Fornece dados e infor-

Supervisão contínua de di-

Determinar quais os clien-

Permite que os engenheiros Simulação de resistên-