Professional Documents
Culture Documents
Sistemas de Apoio À Decisão para Business Intelligence
Sistemas de Apoio À Decisão para Business Intelligence
*Todos os gráficos, tabelas e esquemas são creditados à autora, salvo quando indicada a referência.
Informamos que é de inteira responsabilidade da autora a emissão de conceitos. Nenhuma parte
desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos
direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal.
Copyright Universidade Positivo 2014
Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido
Curitiba-PR – CEP 81280-330
Ícones
Afirmação Curiosidade
Assista
Dicas
Biografia
Esclarecimento
Conceito
Contexto Exemplo
Sumário
Apresentação��������������������������������������������������������������������������������������������������������������������7
A autora�����������������������������������������������������������������������������������������������������������������������������8
Capítulo 1
Sistemas de apoio à decisão���������������������������������������������������������������������������������������������9
1.1 Tomada de decisão�����������������������������������������������������������������������������������������������������9
1.2 Conceitos e estrutura de sistemas de apoio à decisão���������������������������������������������24
1.2.1 Sistemas de apoio à decisão e sistemas de informação�������������������������������������������������������������������������������������� 24
1.2.2 Estrutura dos sistemas de apoio à decisão���������������������������������������������������������������������������������������������������������� 28
1.3 Técnicas e ferramentas����������������������������������������������������������������������������������������������31
1.4 Considerações finais�������������������������������������������������������������������������������������������������38
Referências����������������������������������������������������������������������������������������������������������������������40
Capítulo 2
Data warehouse��������������������������������������������������������������������������������������������������������������43
2.1 Fundamentos������������������������������������������������������������������������������������������������������������44
2.1.1 Características������������������������������������������������������������������������������������������������������������������������������������������������������� 46
2.1.2 Organização dos dados���������������������������������������������������������������������������������������������������������������������������������������� 52
2.1.3 Construção������������������������������������������������������������������������������������������������������������������������������������������������������������ 56
2.2 OLAP�������������������������������������������������������������������������������������������������������������������������59
2.2.1 Fundamentos de OLAP����������������������������������������������������������������������������������������������������������������������������������������� 60
2.2.2 Tipos de OLAP������������������������������������������������������������������������������������������������������������������������������������������������������� 61
2.2.3 Recursos de um OLAP������������������������������������������������������������������������������������������������������������������������������������������ 62
2.2.4 Comparação entre OLAP e OLTP��������������������������������������������������������������������������������������������������������������������������� 66
2.3 Ferramentas��������������������������������������������������������������������������������������������������������������67
2.4 Considerações finais�������������������������������������������������������������������������������������������������67
Referências����������������������������������������������������������������������������������������������������������������������69
Capítulo 3
Introdução ao KDD����������������������������������������������������������������������������������������������������������71
3.1 Etapas do KDD����������������������������������������������������������������������������������������������������������71
3.2 Data mining��������������������������������������������������������������������������������������������������������������74
3.2.1 Algoritmos/heurísticas����������������������������������������������������������������������������������������������������������������������������������������� 77
3.2.2 Regras de associação�������������������������������������������������������������������������������������������������������������������������������������������� 78
3.2.3 Classificação���������������������������������������������������������������������������������������������������������������������������������������������������������� 83
3.2.4 Clustering�������������������������������������������������������������������������������������������������������������������������������������������������������������� 95
3.3 Aplicativos���������������������������������������������������������������������������������������������������������������101
3.4 Considerações finais�����������������������������������������������������������������������������������������������106
Referências��������������������������������������������������������������������������������������������������������������������108
Capítulo 4
Visualização de resultados�������������������������������������������������������������������������������������������� 111
4.1 Origens da visualização de dados��������������������������������������������������������������������������113
4.1.1 Gráficos��������������������������������������������������������������������������������������������������������������������������������������������������������������� 115
4.2 Ciclo de vida da visualização de dados������������������������������������������������������������������120
4.2.1 Aquisição de dados��������������������������������������������������������������������������������������������������������������������������������������������� 120
4.2.2 Limpeza de dados���������������������������������������������������������������������������������������������������������������������������������������������� 120
4.2.3 Análise e visualização exploratória�������������������������������������������������������������������������������������������������������������������� 120
4.2.4 Publicação����������������������������������������������������������������������������������������������������������������������������������������������������������� 120
4.3 Ferramentas de visualização����������������������������������������������������������������������������������121
4.3.1 Dashboards��������������������������������������������������������������������������������������������������������������������������������������������������������� 121
4.3.2 Scorecards������������������������������������������������������������������������������������������������������������������������������������������������������������ 132
4.3.3 Visualização de resultados em mineração de dados����������������������������������������������������������������������������������������� 133
4.3.4 Tendências���������������������������������������������������������������������������������������������������������������������������������������������������������� 140
4.4 Considerações finais�����������������������������������������������������������������������������������������������141
Referências��������������������������������������������������������������������������������������������������������������������143
Inserir Aqui o Título da Obra
7
Apresentação
Os sistemas de apoio à decisão têm se mostrado fortes aliados dos processos ge-
renciais e de tomada de decisões, pois vêm acompanhando as evoluções tecnológicas.
Atualmente, termos como big data, data warehouse, data mining, business intelligen-
ce, SAD (Sistema de Apoio à Decisão) e SIG (Sistema de Informação Gerencial) estão
se popularizando fora dos círculos de especialistas da área e podem ser encontrados
até mesmo em publicações não especializadas.
A Educação à Distância (EAD) potencializa a troca de experiências e permite que
indivíduos de diferentes áreas de atuação encontrem pontos de convergência no inte-
resse comum pelo aprendizado contínuo.
Inserir Aqui o Título da Obra
8
A autora
A Professora Denise Tsunoda é Doutora em Engenharia Elétrica e Informática
Industrial – Engenharia Biomédica (UTFPR, 2004), Mestre em Engenharia Elétrica e
Informática Industrial (UTFPR, 1996) e Graduada em Informática (UFPR, 1992). Possui
experiência na área de Bioquímica, com ênfase em Bioinformática, e atua principal-
mente nos seguintes temas: descoberta de padrões em banco de dados, mineração de
dados, computação evolucionária, algoritmos genéticos, programação genética e in-
formação e estrutura de proteínas.
Currículo Lattes:
<http://lattes.cnpq.br/8265885406314576>
© Coloures-pic / / Fotolia
levantarei imediatamente ou esperarei mais
cinco minutos? O que consumirei no café da
manhã? Qual roupa vestirei hoje? Irei à aca-
demia? Irei ao cinema? O que almoçarei?
Muitas vezes, tomamos decisões de forma automática, por exemplo: qual pé
apoiamos primeiro ao nos levantar, qual mão utilizamos para escovar os dentes, qual
braço utilizamos para pentear os cabelos etc. E, para piorar, dependendo de fatores
externos, temos que reprogramar nossas decisões. Por exemplo: decido à noite qual
roupa utilizar para trabalhar na manhã seguinte, mas, ao acordar, percebo que o cli-
ma está completamente incompatível com a roupa escolhida, e novas decisões deve-
rão ser tomadas.
Segundo Chiavenato (2004), decisão é o processo de análise e escolha de uma entre as várias
alternativas disponíveis, ou, ainda, de qual ação deve ser tomada (ou qual curso de ação deve
ser utilizado) pelo tomador de decisão.
Analisando a questão de outra forma, podemos dizer que as decisões são influen-
ciadas por diversos fatores, fornecidos pelo ambiente e pela experiência de vida das
pessoas (influência dos aspectos culturais, crenças e valores, formação intelectual e
convívio com grupos sociais). Por isso, mesmo diante de situações iguais, que apresen-
tem alternativas idênticas, as pessoas acabam tomando decisões diferentes.
Assim, no nível individual, percebemos e analisamos situações e tomamos deci-
sões. Já no nível organizacional a complexidade aumenta, pois vários gestores estão
decidindo simultaneamente nos diferentes níveis: estratégico, tático e operacional, e
incentivam seus colaboradores a tomarem decisões em relação às tarefas a serem rea-
lizadas e metas a serem alcançadas.
Sistemas de Apoio à Decisão para Business Intelligence 10
A figura a seguir apresenta uma pirâmide organizacional (com seus três níveis) e
exemplos de decisões a serem tomadas no caso do lançamento de um novo produto.
Pirâmide organizacional
Nível
operacional
Segundo Chiavenato (2004), tomar decisões é identificar e selecionar uma opção, entre várias al-
ternativas, para lidar com um problema específico ou extrair vantagens em uma oportunidade.
Sistemas de Apoio à Decisão para Business Intelligence 11
Alguns autores diferenciam tomar decisões e resolver problemas, uma vez que
este último pode requerer mais do que uma decisão a ser tomada. É importante obser-
var que, em muitos casos, um problema pode oferecer uma oportunidade a ser apro-
veitada e, normalmente, reconhecer a existência do problema é o primeiro passo para
se encontrar uma oportunidade. Por exemplo, suponha que os clientes de uma organi-
zação estejam reclamando sobre os prazos (atrasos) de entrega de seus produtos. Esse
problema pode oferecer uma oportunidade para revisar os procedimentos de logística
de entrega de mercadorias, redesenhar processos de produção ou, ainda, melhorar os
próprios serviços ao consumidor.
Segundo Chiavenato (2004) e Robbins (2006), problema é algo fora do planejado, uma discre-
pância entre o estado atual e o desejado e que pode bloquear o alcance dos resultados espera-
dos. Em alguns casos, pode ser representado como a diferença entre as metas iniciais e o que
foi alcançado.
Modelo de decisão
Processo decisório
Identificação do Formulação de Avaliação das Seleção de uma
problema soluções soluções solução
Tomada de
decisão
Design Gráfico: Carlos Henrique Stabile
Modelo de
Missão Visão Valores
gestão
Visão
Ser marca
mundial em
bem-estar.
Missão
Oferecer qualidade de
Design Gráfico: Carlos Henrique Stabile
Nosso lema
Preserve o VERDE, o MUNDO é seu!
Dimensão
de tempo
Oportunismo
Atualidade
Frequência
Período de tempo
Oportunismo
A informação deve ser fornecida
quando necessário.
Atualidade
A informação deve estar atualizada
quando for fornecida.
Frequência
A informação deve ser fornecida
quantas vezes forem necessárias.
Design Gráfico: Carlos Henrique Stabile
Período de tempo
A informação refere-se a algum
período passado, presente ou futuro.
Dimensão
de conteúdo
Precisão
Relevância
Completude
Concisão
Escopo
Desempenho
Precisão
A informação não deve conter erros.
Relevância
A informação deve estar relacionada às
necessidades de informações de um receptor
específico em uma situação específica.
Completude
Toda informação necessária deve ser
fornecida.
Concisão
Somente a informação necessária deve ser
fornecida.
Escopo
A informação pode ser de escopo amplo ou
Design Gráfico: Carlos Henrique Stabile
Dimensão
de forma
Clareza
Detalhe
Ordem
Apresentação
Mídia
Clareza
A informação deve ser fornecida em formato
fácil de entender.
Detalhe
A informação pode ser fornecida de forma
detalhada ou resumida.
Ordem
A informação pode ser organizada em
sequência predeterminada.
Apresentação
A informação pode ser apresentada de forma
narrativa, numérica, gráfica ou outra.
Mídia
Design Gráfico: Carlos Henrique Stabile
Dependendo da decisão a ser tomada, uma dessas dimensões (ou algum de seus
componentes) será determinante para a escolha da alternativa que maximize a satisfa-
ção e a eficiência do tomador de decisão e minimize as consequências negativas. Por
exemplo, para avaliar o maior retorno sobre investimento (ROI), dadas duas ações (A1
e A2), e quais as consequências se uma delas acontecer antes da outra, é necessário
considerar tanto o ambiente externo quanto o interno.
Machado (1997, p. 86) afirma que um modelo de gestão contempla crenças e va-
lores da empresa e direciona as decisões e ações dos gestores. Assim, de posse de um
dado ou informação de qualidade, o gestor pode avaliar alguns elementos do proces-
so decisório, de modo a melhorar a racionalidade da decisão na escolha e avaliação das
alternativas disponíveis. Esses elementos serão apresentados a seguir. O importante é
que eles sejam observados pelo gestor, no entanto, não é necessário que seja seguida
qualquer ordem de prioridade:
• Estado de natureza: são as condições de incerteza, risco ou certeza que exis-
tem no ambiente de decisão e que o tomador precisará enfrentar.
• Tomador de decisão: indivíduo ou grupo que faz a opção por uma alternativa
em detrimento de diversas outras.
• Objetivos: fins ou resultados almejados com a decisão.
• Preferências: critérios que serão utilizados no momento da escolha.
• Situação: aspectos do ambiente que podem afetar o resultado da decisão, mui-
tos dos quais alheios à vontade, ao controle, ao conhecimento ou à compreen-
são do tomador de decisão.
• Estratégia: percurso que o tomador de decisão escolhe para atingir os objetivos.
• Resultado: consequência da estratégia adotada.
Sistemas de Apoio à Decisão para Business Intelligence 19
Avaliação de informações
relevantes
Interpretação: há um problema
ou uma oportunidade?
Não Não
Sim: entrada para tomada de decisão
Observe que, nessa figura, tanto os ambientes interno e externo quanto as aná-
lises qualitativa e quantitativa são insumos para o reconhecimento da necessidade e
posterior tomada de decisão. Após os gerentes do processo decisório identificarem o
problema ou a oportunidade, devem observar quatro fases sistemáticas: inteligência,
proposta de modelo (design), escolha e implementação.
Sistemas de Apoio à Decisão para Business Intelligence 20
Fases da decisão
Fase de inteligência
REALIDADE Exame Objetivos organizacionais
Problemas Procedimentos de pesquisa
Oportunidades Coleta de dados
Identificação do problema
Classificação do problema
Formalização do problema
Fase de design
Validação do modelo Formular um modelo (suposições)
Especificar critérios de escolha
Procurar alternativas
Prever e medir resultados (simulação)
Fase de escolha
Verificação e teste da Solução para o modelo
solução proposta Análise de sensibilidade
Seleção da melhor alternativa
Planejar a implementação (ação)
Falha
Fonte: TURBAN; VOLONINO, 2013. (Adaptado).
Descartar
alternativa
Não
A alternativa é Descartar
viável? alternativa
Não
Sim
A alternativa é Descartar
satisfatória? alternativa
Não
Sim
A alternativa
© Warakorn / / Fotolia
Um sistema de informação, segundo Turban et al. (2010), é aquele que coleta, processa, arma-
zena, analisa e dissemina informações para atingir objetivos organizacionais específicos.
Sistemas de Apoio à Decisão para Business Intelligence 25
Turban et al. (2010) afirmam que um SI, como qualquer sistema, possui entradas (dados, in-
formações), realiza processamento (com o uso de tecnologias) e produz saídas (planilhas, re-
latórios). Eventualmente, um mecanismo de feedback pode ser introduzido para auxiliar no
controle do sistema.
A análise de sensibilidade é um estudo sobre os efeitos que uma determinada mudança, em uma
ou mais variáveis de entrada, causam em uma solução proposta (MOORE; WEATHERFORD, 2005).
• As variáveis (parâmetros) dos modelos podem ser manipuladas com maior fa-
cilidade, fazendo com que o teste não interfira na rotina diária da organiza-
ção. Por exemplo, uma simulação de impactos ambientais na concepção de um
novo prédio residencial pode ser realizada com a utilização de diversas cores e
materiais distintos para as janelas, sem que isso impacte diretamente na rotina
diária da empresa responsável pela obra.
• Os custos das tentativas e erros são menores em modelos. Por exemplo, a si-
mulação das vendas de uma nova tecnologia embutida em um relógio pode ser
realizada em sistemas de previsão de vendas, até mesmo para que se possa de-
finir o público-alvo do produto e a logística adotada para sua distribuição.
• A modelagem permite a criação de ambientes herméticos de simulação, ex-
cluindo-se agentes externos que introduziriam incertezas. Esses cenários hipo-
téticos permitem a inserção controlada de incertezas e análises do tipo “o que
aconteceria se”, também conhecidas por análises what-if. Segundo Turban e
Volonino (2013), a análise what-if (“e se”) se refere ao teste de hipóteses, supo-
sições ou dados no modelo para verificar quais os impactos dessas mudanças
nos resultados. Por exemplo, se uma previsão de vendas está baseada em um
aumento de 12% na demanda de clientes, uma análise what-if pode determinar
quais os impactos nos resultados se as demandas forem diferentes (abaixo ou
acima dos 12% esperados). Um exemplo prático pode ser observado no merca-
do imobiliário, no qual, por exemplo, espera-se uma redução de 10% nos valo-
res de imóveis em algumas cidades no próximo ano. Mas quais os impactos se a
redução for maior ou menor do que os 10% previstos?
• Os modelos permitem análise e comparação de infinitas soluções alternativas.
Por exemplo: uma mesma camiseta pode ser “produzida” no computador em
diversas cores e modelos. Os possíveis clientes podem optar pela cor e modelo
de sua preferência. A resposta a essa pesquisa simples pode interferir em toda
a cadeia de produção da referida camiseta, mas com impacto mínimo na rotina
da empresa.
A tabela a seguir apresenta um resumo de alguns tipos de sistemas de informa-
ção de suporte, incluindo os sistemas de suporte à decisão. Essa tabela foi baseada nas
proposições de Turban e Volonino (2013, p. 42), excluindo-se alguns tipos de sistemas
e incluindo-se outros, de forma que ficasse adaptada à realidade brasileira.
Sistemas de Apoio à Decisão para Business Intelligence 27
Sistemas de informação
Sistemas de informação Colaboradores suportados Descrição Exemplo de aplicação
Fluxo de decisão
Outros sistemas
informatizados
Gestão do
conhecimento
Data warehouse
Melhores práticas
Problemas
Usuário
Solução
Exemplo de SAD
Outros sistemas
informatizados
Gestão do
DW: histórico: id, conhecimento
gastos realizados,
datas e valores dos
pagamentos.
Melhores práticas
SP: usuário com
mais de dez anos de
cadastro, pagamentos em
dia, limite aumentado
em 10%.
Usuário
Solução
Esse indicador financeiro enfatiza a relação entre receita, custos e lucros e ajuda os toma-
dores de decisão a determinar se um determinado volume de vendas resultará em prejuí-
Análise do ponto
zo ou em lucro. A análise do ponto de equilíbrio requer que o tomador de decisão conheça o
de equilíbrio
preço da unidade do produto vendida (P), o custo variável por unidade (CV) e os custos fixos
totais (CFT).
Retorno sobre o Esse critério mede a produtividade dos recursos ou lucros como uma porcentagem do capi-
investimento tal investido e viabiliza comparações entre empresas de ramos iguais ou diferentes.
Utilizada para ajudar os tomadores de decisão a licitar contratos, fazer acordos trabalhis-
tas e planos de expansão. Essa técnica emprega modelos matemáticos para analisar conse-
Teoria dos jogos quências de decisões. O tomador de decisão esboça especificamente como serão tomadas
as decisões e atribui probabilidades a todos os resultados possíveis. A análise se concentra
em prever se será alcançado um acordo e, se este ocorrer, qual será sua natureza específica.
Essa técnica utiliza métodos gráficos ou algébricos para otimizar a alocação de recursos.
Programação
Ela supõe que pelo menos duas atividades competirão por recursos escassos e que existe
linear
uma relação linear entre o problema e o objetivo.
Técnica usada para balancear o custo de uma fila de espera comparado ao custo de manu-
Teoria da fila tenção dessa fila. Para determinar quantas bombas são necessárias nos postos de gasolina,
por exemplo, a teoria da fila pode ajudar a maximizar o serviço e minimizar o custo.
Essas técnicas podem ser utilizadas em análises simples com o uso de planilhas
eletrônicas. No entanto, já temos disponíveis aplicativos e ferramentas mais sofistica-
dos que podem auxiliar a decisão, como as ferramentas de Business Intelligence (BI).
As primeiras ferramentas de business intelligence de que se tem relato aparece-
ram no início dos anos 1970 e tinham como característica o uso intenso da programa-
ção linear, o que elevava os custos de análise e desenvolvimento. No entanto, com a
adoção dos bancos de dados, dos computadores pessoais, das interfaces gráficas, das
comunicações e, principalmente, das redes locais pelas organizações dos mais diversos
segmentos de atuação, os desenvolvedores de soluções começaram a colocar no mer-
cado produtos direcionados para os tomadores/analistas de decisão com melhores fun-
cionalidades e interfaces mais amigáveis.
Sistemas de Apoio à Decisão para Business Intelligence 32
© Rawpixel / / Fotolia
tomada de decisão (TURBAN et al., 2009,
p. 27). Alguns benefícios sobre o uso e a
aplicação do BI nas organizações são:
• buscar o máximo retorno possível sobre o investimento, criando projetos de
tecnologia alinhados às metas estabelecidas pela organização;
• compreender as tendências (métodos preditivos) dos negócios, melhorando a
consistência (certeza) no momento de decisão de estratégias e ações a serem
tomadas;
• facilitar a identificação de riscos, permitindo que estratégias de contingência
sejam criadas e disseminadas;
• realizar planejamento corporativo mais amplo, com a participação do maior
número possível de colaboradores, mesmo que por meio de tecnologias como
wiki, fóruns, chats etc.;
Banco de dados operacional é uma coleção de itens de dados armazenados de forma orga-
nizada para facilitar a recuperação de dados e informações (TURBAN et al., 2010).
Segundo Turban et al. (2010), wiki é uma ferramenta que permite que usuários criem e editem li-
vremente o conteúdo de uma página web por meio de um navegador.
Fórum é um ambiente virtual que serve de apoio para que se possa discutir temas específicos.
Sua interface é assíncrona, por meio de quadro de mensagens, direcionadas a pessoas com
acesso autorizado. As mensagens são estruturadas de forma hierárquica e destacam os assun-
tos das discussões (UFBA, 2007).
Chats são salas de discussão on-line sobre determinado assunto. Também conhecidas como sa-
las de bate-papo, têm como principal característica a comunicação síncrona, ou seja, a possibili-
dade de se enviar e receber mensagens de forma imediata (UFBA, 2007).
Scorecard é uma ferramenta que fornece a representação visual dos indicadores-chave de desem-
penho (indicadores selecionados que auxiliam as empresas a medir e gerenciar seu desempenho).
Sistemas de Apoio à Decisão para Business Intelligence 35
Dashboard é uma ferramenta que fornece uma visão abrangente e ao mesmo tempo
resumida do desempenho dos negócios de uma organização. Com uma representação grá-
fica semelhante ao painel de um carro, mostra medidas de desempenho, tendências e ex-
ceções e integra informações de diferentes áreas de negócios (TURBAN et al., 2010)
A solução viabiliza a exploração, visualização e gestão de dados e informações e a
geração de relatórios como forma de monitorar o desempenho e identificar oportuni-
dades de crescimento. Algumas das potencialidades desse tipo de análise podem aju-
dar profissionais de negócio, usuários de TI e desenvolvedores nos seguintes aspectos:
• Transformar dados em relatórios acionáveis, ou seja, transformar dados em re-
latórios que permitam simulações.
• Responder aos questionamentos do negócio, por exemplo: o que acontece se
as vendas diminuírem em 50%.
• Melhorar o processo decisório por meio de apresentações interativas que per-
mitam simulações em tempo real, por exemplo, em dashboards.
• Viabilizar a visão de informações personalizadas, precisas e atualizadas. Nem
todos os usuários devem receber a mesma informação da mesma forma. Por
exemplo: um gestor da área de vendas pode preferir realizar simulações utili-
zando uma planilha enquanto um diretor da mesma área pode preferir a utiliza-
ção dos sliders (como committed e upside).
Agora, vamos abordar um produto que pode se considerado uma ferramenta de
suporte à decisão, o MicroStrategy Business Intelligence corporativo, que nos auxi-
liará a ilustrar alguns conceitos já abordados. Na referida ferramenta existe uma fun-
cionalidade de entrada de dados conhecida como business intelligence de ciclo fechado
(closed-loop), que permite que executivos e demais profissionais passem do insight di-
retamente para a ação de negócios.
Sistemas de Apoio à Decisão para Business Intelligence 37
1. Coleta
de dados
2. Modelagem
de dados
Ciclo fechado BI
5. Ação
3. Relatório
Big data pode ser definido como um enorme conjunto de dados que requer ferramentas pre-
paradas para lidar com grandes volumes, de forma que toda e qualquer informação possa ser
encontrada, analisada e aproveitada em tempo aceitável para tomada de decisão (HILBERT,
2013).
Ainda em 2011, a IDC (International Data Corporation), uma das principais empre-
sas de pesquisa de mercado norte-americana, publicou um relatório segundo o qual o
volume de dados nas empresas dobra a cada 18 meses e as projeções do Gartner sinali-
zam que as bases de dados deveriam aumentar 650% até 2016 (SOARES, 2011).
Segundo Olavsrud (2014), os três Vs (volume, velocidade e variedade) do big data
continuarão crescendo em 2014 e novas ferramentas de análise (inclusive SADs) serão
necessárias para explorar essa grande massa de dados. Olavsrud prevê que novas solu-
ções de banco de dados, análise e visualização irão surgir no mercado.
Na avaliação do vice-presidente da Avanade, Tyson Hartman, as companhias não
estão conseguindo gerenciar seus dados de maneira satisfatória, pois a quantidade de
informações não estruturada está aumentando e a falta de controle está impactando
nos resultados dos negócios. Prova disso é que a pesquisa realizada ainda apontou que
56% dos executivos entrevistados relevaram “sobrecarga de informações” no dia a dia
e 61% disseram que precisariam de acesso direto e rápido para reduzir as incertezas
das decisões (AVANADE, 2010).
Percebe-se que é necessário identificar como, em qual contexto e por quem de-
terminada informação será utilizada e o que ela deve apresentar como características
básicas: exatidão, formato e confiabilidade. Em outras palavras, a tecnologia por si só
não é suficiente para agregar valor aos negócios das organizações; é preciso tecnolo-
gia, dados, informações, conhecimentos e, principalmente, pessoas capacitadas.
Como vimos, as soluções de SAD automatizadas são diversas e a escolha depen-
de das necessidades de cada organização, considerando-se, entre outros aspectos: va-
lor disponível a ser investido, compatibilidade da ferramenta com o atual fornecedor
do banco de dados da organização, compatibilidade da ferramenta com eventuais sis-
temas legados, os relatórios esperados e manutenção e suporte da ferramenta, além
de outros aspectos de análise de sistemas.
Sistemas de Apoio à Decisão para Business Intelligence 40
Referências
AVANADE. Global Survey: the business impact of big data. Disponível em: <http://www.
avanade.com/Documents/Research%20and%20Insights/Big%20Data%20Executive%20
Summary%20FINAL%20SEOv.pdf>. Acesso em: 22/07/2014.
BRASIL FOODS. Site da empresa. Disponível em: <http://www.brasilfoods.com/ri/siteri/
web/conteudo_pt.asp?idioma=0&conta=28&tipo=32151>. Acesso em: 30/09/2013.
CHIAVENATO, I. Administração nos Novos Tempos. Elsevier: Rio de Janeiro, 2004.
HILBERT, M. Big Data for Development: from information to knowledge societies.
Janeiro de 2013. Disponível em: <http://papers.ssrn.com/sol3/papers.cfm?abstract_
id=2205145>. Acesso em: 08/02/2014.
LACOMBE, F.; HEILBORN, G. Administração: princípios e tendências. São Paulo: Saraiva,
2003.
MACHADO, A. C. Sistema de Informações para Gestão Econômica no Comércio
Varejista: estudo dos principais modelos de decisões envolvidos. Dissertação. Faculdade
de Economia, Administração e Contabilidade da Universidade de São Paulo. São Paulo:
1997.
MICROSOFT. Recursos de BI no Excel e nos Serviços do Excel (SharePoint Server 2013).
Disponível em: <http://technet.microsoft.com/pt-br/library/jj219751.aspx>. Acesso em:
07/10/2013.
MICROSTRATEGY. Business Intelligence para a Empresa. Disponível em: <http://www.
microstrategy.com.br/software/business-intelligence/>. Acesso em: 08/10/2013.
MOORE, J. H.; WEATHERFORD, L. R. Tomada de Decisão em Administração com
Planilhas Eletrônicas. 6. ed. Porto Alegre: Bookman, 2005.
MUNDO VERDE. Site da empresa. Disponível em: <http://www.mundoverde.com.br/mis-
sao-e-visao/>. Acesso em: 30/04/2014.
O´BRIEN, J. A.; MARAKAS, G. M. Administração de Sistemas de Informação. 15. ed. São
Paulo: McGraw-Hill, 2012.
OLAVSRUD, T. Big Data: veja 10 tendências para 2014. In: Computerworld. Janeiro de
2014. Disponível em: <http://computerworld.com.br/tecnologia/2014/01/06/big-data-veja-
-dez-tendencias-para-2014/>. Acesso em: 08/02/2014.
PIATETSKY-SHAPIRO, G. Knowledge Discovery in Real Databases: a report on the
IJCAI-89 Workshop. AI magazine, v. 11, n. 4, p. 68, 1990.
ROBBINS, S. P. Administração: mudanças e perspectivas. São Paulo: Saraiva, 2006.
Sistemas de Apoio à Decisão para Business Intelligence 41
© everythingpossible / / Fotolia
Este capítulo tem como objetivo apresentar os benefícios dos data warehouses
e data marts, que operam integradamente com os sistemas de informações geren-
ciais para fornecer suporte a níveis mais precisos e coerentes de decisões de negócios.
São explorados também os principais conceitos e ferramentas vinculados aos data
warehouses, notadamente a modelagem multidimensional de dados e os servidores
OLAP, com suas características, fundamentos, tipos e recursos.
Data mart é uma versão reduzida dos data warehouses, com menor custo. Em outras palavras,
podemos dizer que um data mart é um pequeno data warehouse projetado para uma unidade es-
tratégica de negócio ou departamento (TURBAN et al., 2010).
Segundo Turban et al. (2009), data warehouse é um tipo de Banco de Dados (BD)
preparado para dar suporte a aplicações de tomada de decisão ou para agregar dados
oriundos do BD operacional para fins de análise, entre os quais destacamos a análise
de tendências de mercado e o suporte ao planejamento e à tomada de decisão.
O principal benefício trazido pelo data warehouse é a integração e a organização
dos dados de toda a empresa em um formato específico. Esse formato de organização
de dados obedece ao modelo multidimensional, que dá a oportunidade de avaliar si-
multaneamente um mesmo fato sob diferentes pontos de vista e possibilita a desco-
berta de comportamentos e eventos ocultos no grande volume de dados.
Sistemas de Apoio à Decisão para Business Intelligence 44
2.1 Fundamentos
O primeiro disco rígido foi inventado em
1956 pela IBM (modelo 350, parte do compu-
tador IBM 305 RAMAC) e deu início ao pro-
cesso de armazenagem de dados. Esse
dispositivo servia basicamente para o
armazenamento de dados operacio-
nais (aqueles que são gerados du-
rante um processo de atividade-fim,
como um registro telefônico, uma
venda, uma compra, um depósito
bancário etc.). Por exemplo, os regis-
tros de uma venda eram armazena-
dos para propósitos contábeis e fiscais
e continham dados brutos gerados du-
rante os processos da atividade-fim da
© Nmedia / / Fotolia
Sistemas de Apoio à Decisão para Business Intelligence 46
2
Design Gráfico: Carlos Henrique Stabile
3 Integrado.
2.1.1 Características
Uma base de dados operacional sofre a inclusão de novos dados, em alguns ca-
sos, a todo momento. Por exemplo, uma operadora de telefonia celular registra uma li-
gação ou o envio de uma mensagem de texto (SMS) no momento em que ocorre, para
efeitos de cobrança posterior. Quando uma ligação é encerrada, o registro que arma-
zena seu início precisa ser atualizado para conter a duração total da ligação, visto que
com base nesse dado (duração) será realizada a cobrança. Nota-se, então, que a base
de dados operacional pode sofrer alterações nos dados que armazena. Como os dados
podem ser atualizados, são considerados voláteis.
Sistemas de Apoio à Decisão para Business Intelligence 47
Ou seja, um registro que foi em dado momento incluído poderá ser posterior-
mente alterado ou excluído.
Observe-se que não faz diferença se um sistema de segurança impede algumas
pessoas de alterarem ou excluírem dados da base. Se ela foi projetada para admitir
(mesmo que em situações especialíssimas) essas operações, podemos afirmar que es-
ses dados são voláteis.
Os dados reunidos em um data warehouse não são voláteis. Uma vez armazena-
dos, não mais sofrerão alterações e poderão existir por muitos anos (TANLER, 1998).
Quando atingirem uma idade que torne seu valor desprezível para as análises, poderão
ser removidos. Por esse motivo, os dados são marcados com um selo temporal (times-
tamp), com o qual se poderá avaliar sua idade e seu valor analítico.
Um data warehouse é composto por dados operacionais consolidados e sumariza-
dos e representa uma fotografia de um momento da organização. Assim como em um
filme, que é formado por diversas fotografias em sequência, o data warehouse armaze-
na diversos momentos de um organismo empresarial, visando permitir a comparação
desses momentos para a realização de análises comportamentais com vistas à geração
de informação.
Quando observamos um único fotogra-
ma de um filme, temos uma ideia limitada do
todo. Apenas um momento congelado no tem-
po. Mas quando vários fotogramas são coloca-
dos em movimento, o filme dinâmico nos dá
uma noção muito mais vívida e rica dos aconte-
cimentos e permite até mesmo que possamos
compreender as origens da situação para, as-
sim, supor possibilidades de futuro.
O mesmo ocorre em um data warehouse.
Seu conteúdo não é volátil por tratar-se de um
conjunto de registros históricos que poderão
ser altamente otimizados para efeitos de con-
© ra2 studio / / Fotolia
forma rápida, segura e correta. Normalmente também incluem outros critérios tecnoló-
gicos como escalabilidade e manutenibilidade, além de boas práticas geralmente provi-
das pelas disciplinas da engenharia de software.
Data mart
n
Arquivos isolados Planejamento
Chamando...
Chamando...
Chamando...
Chamando...
Ralph Kimball é PhD em Engenharia Elétrica pela Stanford University. Desde 1982 desenvol-
ve pesquisas e conceitos vinculados ao data warehouse e é o autor da proposta de organização
multidimensional.
Dim_Data Dim_Filial
Id Id
Data Endereço
DiaDaSemana País
Ano Gerente
Fato_Vendas
Id_Data
Id_Filial
Id_Produto
VolumeVendido
Design Gráfico: Carlos Henrique Stabile
Dim_Produto
Id
Exemplo de tabelas no esquema estrela. Descritivo
Marca
Categoria
Sistemas de Apoio à Decisão para Business Intelligence 54
Join é uma operação muito utilizada em sistemas de banco de dados relacionais, que consiste
em vincular linhas de duas ou mais tabelas por meio de algum atributo comum entre elas.
Esse modelo requer que as regras de normalização das tabelas que compõem o
banco de dados sejam relaxadas, o que produzirá um esquema de banco de dados não
normalizado.
Tabela-dimensão Tabela-dimensão
Tabela-fato
Tabela-detalhe
2.1.3 Construção
A construção de um data warehouse tem um objetivo claro: ajudar a empresa a
tomar decisões mais inteligentes, embasadas em análises de cruzamentos dos dados
que foram sumarizados a partir de registros operacionais de vários sistemas.
Por tratar-se de uma ferramenta sistêmica, o processo de construção de um data
warehouse pode ser caro, demorado e muito complexo. Os detalhes desse proces-
so têm relação direta com as condições financeiras e tecnológicas da organização no
momento em que o projeto é iniciado. Basicamente, existem dois grandes modelos de
trabalho:
• Modelo bottom-up, proposto por Ralph Kimball (KIMBALL; ROSS, 2002).
• Modelo top-down, proposto por Bill Inmon (INMON, 2005).
Ralph Kimball (KIMBALL; ROSS, 2002) propôs um método de desenvolvimento
de data warehouses conhecido como bottom-up, ou seja, um modelo ascendente. É as-
sim chamado porque se inicia pelo desenvolvimento de data marts dedicados a áreas
de negócio específicas. Entende-se como ascendente porque os data marts prelimina-
res funcionam como pilares para a construção do data warehouse. Como se inicia pelos
fundamentos e então se atinge o topo, é um método que vai de baixo para cima.
Uma virtude evidente dessa abordagem é permitir um avanço progressivo e ga-
nhos em capacidade de análise e inteligência, que se mostram tão logo o primeiro data
mart fique pronto. Também tem o benefício de servir como projeto piloto e dar condi-
ção de experimentação em uma escala mais restrita, em um universo mais controlado.
Por exemplo, um data mart da área de vendas pode ser escolhido para iniciar o proces-
so. Dificuldades tecnológicas e culturais já serão sentidas e poderão ser tratadas mais
rapidamente, servindo de experiência para as etapas posteriores.
Em contrapartida, esse método de
trabalho permite apenas uma visão parcial
das situações que serão vivenciadas no de-
senvolvimento dos próximos data marts.
É possível que a equipe de vendas esteja
culturalmente mais preparada para fazer
uso dessa ferramenta e que as aplicações
usadas por essa equipe forneçam mais fa-
cilmente seus dados operacionais para a
© evildark / / Fotolia
departamento, pode ser que várias diferenças existentes nos outros departamentos não
sejam percebidas, o que certamente vai gerar dificuldade inesperada e frustrações.
Outro fator impactante é que, ao se construir o data mart sem colocá-lo sob a pers-
pectiva de um sistema integrado (data warehouse), este pode ser organizado para operar
muito bem isoladamente, mas não quando estiver integrado a outros data marts.
Um artefato fundamental para essa abordagem é a construção do barramento, ou
bus, que é o ponto de encontro entre os vários data marts e é constituído por um con-
junto de dimensões de conformidade. Essas dimensões (que serão comuns a todos os
data marts) estabelecerão um conjunto de padrões que permitirá que cada data mart
seja acessado pelo data warehouse.
Assim, desde o primeiro data mart já deverá existir a preocupação com dimen-
sões de conformidade, que deverão ser as mesmas para os próximos data marts. É
possível que a construção do segundo data mart mostre que certas dimensões de con-
formidade não estão em condições de servi-lo tão bem quanto serviram ao primeiro
data mart. Será o caso de adaptar essas dimensões, o que invariavelmente provocará a
necessidade de manutenção no data mart que já estava em atividade.
ETL
Documentos
OLTP Outras fontes
eletrônicos
ETL
Desenvolvimento top-down.
Sistemas de Apoio à Decisão para Business Intelligence 59
2.2 OLAP
Dado que um data warehouse é uma base de dados, as informações nele armazena-
das podem ser analisadas por meio de linguagens de consulta, como SQL. Os dados estão
todos armazenados e relacionados, mas isso não quer dizer que a elaboração das queries
(consultas) seja simples.
As pressões mercadológicas exigem resultados rápidos e de fácil interpreta-
ção. E, em resposta a essa demanda, existem as ferramentas de OLAP (TURBAN;
VOLONINO, 2013).
O on-line analytical processing (processamento analítico interativo), ou simples-
mente OLAP, apresenta-se como um recurso que coopera com o data warehouse e
procura aumentar as oportunidades e estratégias de análise de dados para, com isso,
evidenciar relações e fatos presentes na enorme massa de dados armazenados.
Diferentemente de uma base de dados relacional composta de tabelas relacionadas
por meio de campos simples que funcionam como chaves estrangeiras, uma base OLAP
é constituída por agrupamentos de dados (fatos) diretamente conectados a outros agru-
pamentos de dados (dimensões). Enquanto a estruturação de uma base de dados rela-
cional tem propósito geral, para acomodar diversos tipos de aplicação, a estrutura de
uma base OLAP é dedicada ao processo de análise multidimensional.
Os dados são gerados a partir da interação dos usuários finais com os diversos
sistemas de informação em operação e posteriormente são importados, filtrados
(dado que nem todos os dados são relevantes, os menos importantes são deixados de
lado) e inseridos no data warehouse, onde deixarão de ser dados operacionais e passa-
rão a ser analíticos.
Sistemas de Apoio à Decisão para Business Intelligence 60
Tarde 67 98 13 425
Noite 3 0 0 12
Períodos do dia
Bairros
Cubo OLAP construído pela superposição de várias tabelas.
Podemos agora imaginar que várias dessas tabelas podem ser geradas, uma para
cada dia, e superpostas ao longo dessa terceira dimensão. Estaríamos assim adicio-
nando um terceiro eixo e todas essas métricas ganhariam a forma de um cubo.
O conceito central dessa ferramenta é o cubo OLAP. Um cubo OLAP é uma orga-
nização simultânea de diversas dimensões. Se imaginarmos o cruzamento de três des-
sas dimensões, teremos condição de visualizar os fatos organizados na forma de um
cubo geométrico, o que origina o nome dessa estrutura.
No entanto, a tecnologia nos permite extrapolar para modelos com mais dimensões.
Por causa dessa capacidade, esse cubo OLAP é muitas vezes chamado de hipercubo.
A análise com mais de três dimensões não pode ser graficamente representada,
mas o modelo abstrato pode ser construído e processado e seus resultados podem ser
analisados.
Períodos do dia
Meses
Períodos do dia
Bairros
Bairros
Avanço progressivo em nível-detalhe por meio de drill-down.
Em nosso exemplo da empresa de telefonia que avalia a tabela cruzada, tínha-
mos a contagem de ligações rejeitadas acumuladas por período do dia (manhã, tarde e
noite), distribuídas por bairros e ao longo do tempo. Com o cubo construído, o analis-
ta poderá selecionar um conjunto de fatos dentro de determinado mês e, conforme a
necessidade, avançar em uma análise mais granular, navegando para uma visualização
semanal dentro daquele mês. Essa análise em detalhamentos progressivos é chamada
de drill-down.
Por outro lado, em muitos casos, o que realmente interessa na análise é uma
quantificação genérica de um conjunto de fatos, que atuará como um resumo ao longo
de uma dimensão. As totalizações podem responder não somente na forma de soma-
tórios ou médias, mas em outras fórmulas definidas pelo analista.
No exemplo da tabela cruzada organizada em um cubo ao longo de vários meses,
um analista poderia realizar uma totalização de certos dados específicos. Por exemplo,
totalizar a contagem de rejeições ao longo de um dado mês, mas considerando apenas
um bairro em particular e em um determinado período do dia (das 16 às 20 horas, por
exemplo).
Assim, gera-se um conjunto de dados que não estavam previamente armazena-
dos no cubo, mas que puderam ser calculados a partir deste. Essa operação é chamada
de roll-up.
Sistemas de Apoio à Decisão para Business Intelligence 64
Períodos do dia
Meses
Períodos do dia
Bairros
Um dado
mês
Por exemplo, o analista poderia estar interessado em avaliar duas fatias do cubo
em questão – uma referente ao mês de dezembro e outra referente ao mês de janei-
ro – e, assim, avaliar a influência desses meses sobre o problema das rejeições. Como
o cubo é constituído por uma (por assim dizer) sucessão de diversas tabelas (uma para
cada dia), o analista extrairia duas tabelas (duas fatias, na terminologia OLAP), que
posteriormente compararia para identificar eventuais relações ocultas.
Sistemas de Apoio à Decisão para Business Intelligence 65
Períodos do dia
Meses
Períodos do dia
Períodos do dia
Bairros
Meses
Meses
Períodos do dia
2.3 Ferramentas
Com a popularização do conceito de OLAP e das promessas associadas a ele, di-
versos fornecedores de tecnologia de software passaram a desenvolver e oferecer
produtos voltados para esse tipo de mercado. Em geral, esses produtos procuram en-
quadrar-se como fornecedores de ferramentas de business intelligence. Algumas dessas
ferramentas suportam diversos tipos de organização de dados, como MOLAP, ROLAP
e HOLAP, simultaneamente.
Frequentemente esses produtos permitem a criação de um dashboard com os
mostradores desejados pelo usuário e seu monitoramento por meio de navegadores da
internet, o que confere uma grande facilidade de acesso às informações.
Por questão de conveniência para o usuário e também como um apelo comercial,
é frequente que produtos na área de BI permitam a integração com ferramentas do
tipo office (suítes de aplicativos de utilidade), visando assim aproveitar a cultura dos
clientes para difundir seus recursos.
Alguns produtos oferecem linguagens de consulta especializadas em explorar os
cubos OLAP, como a linguagem MDX (MultiDimensional eXpressions). Do ponto de vis-
ta de programação, existem também APIs disponíveis para linguagens C, Visual Basic,
Java e Pearl, entre outras.
técnicos que tornam a construção, a manutenção e a seleção dos cubos OLAP mais ca-
ras do que o desejado.
Com o advento dos sistemas no-SQL, abre-se um universo de possibilidades a ser
explorado no futuro. No entanto, é certo que o data warehouse já apresenta um lugar
de destaque nas tecnologias de inteligência de negócios para as próximas décadas e se
tornará progressivamente mais presente nas organizações.
Sistemas de banco de dados no-SQL apresentam uma organização de dados diferente dos rela-
cionais, dando suporte a agrupamentos de dados não homogêneos, além de não exigirem a exe-
cução de comandos por meio da linguagem SQL.
Referências
ANZANELLO, C. A. OLAP: conceitos e utilização. Universidade Federal do Rio Grande do
Sul. Disponível em: <http://www.softsystemit-ead.com.br/phocadownload/BI/Conceitos%
20OLAP.pdf>. Acesso em: 01/10/2013.
CHEN, P. The Entity-Relationship Model: toward a unified view of data. ACM Transactions
on Database Systems, v. 1, p. 9-36, março de 1976.
CODD, E. F. A Relational Model of Data for Large Shared Data Banks. Communications of
ACM, v. 13, p. 377-387, junho de 1970.
GORDON, S. R.; GORDON, J. R. Sistemas de Informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Building the Data Warehouse. 2. ed. Indiana: Wiley, 2005.
KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: the complete guide to dimensional
modeling. 2. ed. Indiana: Wiley, 2002.
SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de Banco de Dados. 5. ed.
Rio de Janeiro: Elsevier, 2006.
TANLER, R. Intranet Data Warehouse. Rio de Janeiro: Infobook, 1998.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
3 Introdução ao KDD
A literatura da área, até o momento, não apresenta um consenso quanto aos ter-
mos utilizados para caracterização das atividades de busca de padrões em conjun-
tos de dados. Entre as diversas denominações encontradas, destacamos: information
recovery, information retrieval, knowledge discovery in database (KDD), data mi-
ning (DM), knowledge extraction, information discovery, data archaeology, information
harvesting e data pattern processing. Esses termos, embora possuam significados dis-
tintos, são muitas vezes tratados como sinônimos.
Neste capítulo vamos abordar a mineração de dados (data mining), uma das eta-
pas do KDD (Knowledge Discovery in Database).
KDD é um processo de pesquisa e identificação de padrões em dados armazena-
dos em bases de dados muitas vezes dispersas e até então inexploradas. O objetivo é
a geração de conhecimento potencialmente útil para aumentar os ganhos, reduzir os
custos, aumentar a competitividade ou melhorar o desempenho do negócio.
O termo foi proposto em 1989 para referir-se às etapas que produzem conheci-
mentos a partir de dados e, principalmente, à etapa de mineração dos dados, que é a
fase que transforma dados em informações (FAYYAD et al., 1996).
Esse processo é interativo e iterativo e envolve uma série de etapas que requerem
do usuário capacidade de análise e tomada de decisão.
Em resumo, o KDD envolve a descoberta e a interpretação de padrões nos dados
por meio da repetição dos algoritmos e da análise de seus resultados.
Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação
Dados Dados
Dados Dados
Dados
Sistemas de Apoio à Decisão para Business Intelligence
pré-processados transformados
a. Seleção: consiste na análise dos dados existentes e seleção dos que serão utiliza-
dos para a descoberta de padrões.
b. Pré-processamento: consiste no tratamento e preparação dos dados para serem
utilizados na mineração. Nessa etapa são identificados e retirados valores inváli-
dos, inconsistentes ou redundantes.
c. Transformação: nessa etapa geralmente são aplicadas técnicas para adequar os
dados ao problema. Por exemplo, do endereço completo é extraído apenas o bair-
ro ou a região dentro da cidade.
d. Mineração: consiste na busca por padrões por meio da aplicação de métodos
específicos.
e. Interpretação: consiste na análise dos resultados da mineração e na geração de
conhecimento para o usuário.
Entre os diversos tipos de descoberta de conhecimento citados por Agrawal,
Imielinski e Swami (1993), destacaremos dois: classificação e associação.
O termo minerar pressupõe a busca por algo precioso. Minerar dados pressupõe o
“garimpo” em bases de dados em busca de algo que possa oferecer vantagem competi-
tiva às organizações. A mineração pode, então, ter como objetivo descrever ou prever o
comportamento futuro.
A descrição busca por padrões que expliquem resultados ou valores obtidos em
determinados dados ou negócios, e a previsão, com base em registros históricos, tenta
antecipar o comportamento de algum fenômeno ou variável de interesse.
Sistemas de Apoio à Decisão para Business Intelligence 75
Tarefas de mineração
de dados
tarefa bastante comum entre os seres humanos: classificamos relações (colegas de tra-
balho, familiares, amigos etc.), elaboramos protocolos de comportamento em dife-
rentes lugares e ambientes (quem entra antes, quem senta antes, quem levanta antes
etc.) e criamos preconceitos segundo estereótipos, entre outros exemplos.
Tarefa Algoritmo
Classificação Árvores de decisão, algoritmos genéticos, redes neurais
Agrupamento Métodos estatísticos
Associação Métodos estatísticos, teoria de conjuntos
Regressão Métodos de regressão e redes neurais
3.2.1 Algoritmos/heurísticas
Aqui vale uma diferenciação entre algoritmo e heurística. Um algoritmo é um
conjunto definido de instruções computacionais que ocorrem em sequência, utilizado
para obter um determinado resultado a partir de dados fornecidos. As heurísticas tam-
bém são algoritmos, mas que se aplicam a problemas complexos que demandariam
muito tempo para serem resolvidos de forma exata. Ou seja, uma heurística nem sem-
pre encontra a melhor solução para um problema, mas a encontra dentro de um tempo
aceitável.
No cotidiano, um algoritmo “simples” pode ser uma linha de montagem de um
carro, por exemplo, e uma heurística pode ser o trajeto a ser seguido do trabalho para
casa considerando os congestionamentos. Observe que, nesse exemplo de heurística,
existe um componente de decisão que foge a um simples conjunto de passos a serem
seguidos.
Sistemas de Apoio à Decisão para Business Intelligence 78
F1 = {frequent 1-itemsets}
for (k = 2; Fk−1 = Ø; k ++) do begin
Ck = apriori-gen(Fk−1); //New candidates
foreach transaction t ∈ D do begin
Ct = subset(Ck , t); //Candidates contained in t
foreach candidate c ∈ Ct do
c.count ++;
end
Fk = {c ∈ Ck |c.count ≥ minsup };end
Design Gráfico: Carlos Henrique Stabile
© kromkrathog / / Fotolia. (Adaptado).
Answer= ∪k Fk
H1 = Ø / /Initialize
foreach; frequent k−intemset fk , k ≥ 2 do begin
A = (k − 1)-itemset ak-1 such that ak−1 ⊂ fk;
foreach ak-1 ∈ A do begin
conf = support(fk)/support(ak−1);
if (conf ≥ minconf) then begin
output the rule ak−1 ⇒ (fk − ak−1)
with confidence = conf and support = support(fk);
add (fk − ak−1) to H1;
end
end
call ap-genrules(fk , H1);
end
Sabão Saco de
ID Escova Arroz Luva Trigo Feijão Manteiga
em pó lixo
3.2.3 Classificação
O princípio da classificação é descobrir relacionamentos entre os atributos previsores
e o atributo “objetivo” ou “meta”, de modo a descobrir um conhecimento (ou regra) que
possa ser utilizado para prever uma classe para uma tupla (que nesse caso pode ser enten-
dida como condição) desconhecida, isto é, que ainda não possui uma classe definida.
As formas mais comuns de representação de conhecimento dos algoritmos de clas-
sificação são regras e árvores. Os algoritmos ID3 e C4.5, por exemplo, geram como re-
sultados árvores de decisão, enquanto outros, como Prism e Part, geram regras de
classificação. Outra opção seria a representação por meio de tabelas de decisão imple-
mentada, por exemplo, pelo algoritmo Decision Table. Modelos matemáticos, de regres-
são e redes neurais, também representam resultados de algoritmos como SMO, Linear
Regression e Rede Neural, entre outros.
Raiz
Nó Nó Nó
Design Gráfico: Carlos Henrique Stabile
. . . .
. . Folha Folha . .
. . . .
Estrutura de uma árvore de decisão.
Sistemas de Apoio à Decisão para Business Intelligence 84
Observe que na estrutura da árvore aparecem três tipos de nós: raiz (de onde par-
tem os ramos), nós intermediários (ficam entre a raiz e as folhas) e as folhas (de onde
não partem ramos). Os nós ou nodos representam os atributos e os ramos traduzem as
decisões. Cada nó interno da árvore de decisão testa um atributo, cada ramo corres-
ponde ao valor do atributo e cada folha atribui uma classificação (decisão).
Para ilustrar a classificação, Freitas e Lavington (1998) apresentam o seguinte
exemplo: suponha que uma editora de livros publicou um livro chamado Um guia para
restaurantes franceses na Inglaterra. O livro é publicado em inglês, francês e alemão, de
acordo com o país onde é vendido. Suponha também que a editora tem um banco de da-
dos contendo dados sobre seus clientes nos três países: Inglaterra, França e Alemanha.
Seria interessante utilizar esses dados para prever que tipo de clientes estariam
mais interessados em comprar esse novo livro e concentrar os esforços de vendas nes-
ses clientes.
m
H (x) = Σj – 1 PjIj =Σj – 1 Pj log2 Pj
Para calcular essa entropia, apenas o atributo meta é utilizado (o que se quer pre-
ver, nesse exemplo, é o “Movimento”). Considerando-se que, das 13 linhas, 7 contêm
a definição “Pouco”, o cálculo deve ser o seguinte: 7/13. Com a definição “Médio” fo-
ram observados 3 registros em 13 linhas, portanto, 3/13. E, finalmente, com a definição
“Muito” também foram observados 3 registros em 13 linhas: 3/13. Assim, aplicando es-
ses dados à fórmula de Shannon, temos o seguinte cálculo:
13 13 13 1 3 13 13
© by-studio / / Fotolia. (Adaptado).
H(Sexta) = 1,3788
H(Sábado) = 1,5
H(Domingo) = 1
Ganho(DDS) = 0,09946
H(Não) = 1,5613
H(Sim) = 0,7219
Ganho(Chuva) = 0,2188
H(Quente) = 1,5567
H(Frio) = 1,2516
Ganho(Clima) = 0,04139
1.º Chuva
© redkoala / / Fotolia; © azaze11o / / Fotolia; © kanate / / Fotolia. (Adaptado).
3.º Clima
Sistemas de Apoio à Decisão para Business Intelligence 89
Não Sim
H(S) = 1,5613
Ganho(DDS) Ganho(Clima)
H(Sexta) = 1,5 H(Quente) = 1,5219
H(Sábado) = 1 H(Frio) = 1,5850
H(Domingo) = 1
Chuva
Não Sim
1 Quente Pouco
6 Quente Muito
8 Quente Pouco
11 Quente Médio
Chuva
Não Sim
Design Gráfico: Carlos Henrique Stabile
DDS
Domingo
Sexta Sábado
7 Frio Muito
12 Frio Médio
Percebe-se que não existe uma classe da maioria e a decisão será realizada pela
maioria da tabela anterior mais próxima.
Chuva
Não Sim
DDS
P P
5 Frio Pouco
13 Quente Médio
Sistemas de Apoio à Decisão para Business Intelligence 92
Chuva
Não Sim
DDS
Domingo
Sexta Sábado
P P Clima
P M
H(S) = 0,7219
Chuva
Não Sim
DDS Clima
Domingo Frio Quente
Sexta Sábado
P P Clima
P M
2 Sábado Pouco
4 Sexta Pouco
10 Sexta Pouco
Chuva
Não Sim
DDS Clima
Design Gráfico: Carlos Henrique Stabile
P P Clima P
Frio Quente
P M
Sistemas de Apoio à Decisão para Business Intelligence 94
3 Sábado Pouco
9 Sexta Muito
Fica evidente a decisão: quando o dia da semana é sábado, existe pouco movi-
mento no shopping, e quando o dia da semana é sexta, o movimento é grande.
Chuva
Não Sim
DDS Clima
Domingo Frio Quente
Sexta Sábado
P P Clima P DDS
Frio Quente
P M Mu P
3.2.4 Clustering
Essa tarefa também é conhecida por agrupamento e é utilizada para particionar
as instâncias de uma base de dados em grupos de tal forma que os componentes de
cada grupo apresentem propriedades comuns que os diferenciem dos elementos dos
outros grupos. Observe que, mesmo instintivamente, as pessoas visualizam os dados
segmentados em grupos, como tipos de plantas ou animais.
A análise de clusters envolve a organização de um conjunto de padrões (normal-
mente representados por vetores de atributos ou pontos em espaços multidimensio-
nais) em grupos, considerando alguma medida de similaridade.
Podemos perceber que instintivamente temos a tendência de agrupar elementos
que possuem características semelhantes, ou seja, compartilham alguma propriedade,
e são justamente essas propriedades que permitem a criação de rótulos para cada gru-
po. Por exemplo, podemos agrupar frutas (estação, peso, cores etc.), verduras (esta-
ção, maço, peso, cores etc.), clientes (esportista, sedentário, homem, mulher, criança,
idoso etc.) e pessoas (baixa, alta, obesa, magra, mulher, homem etc.), entre outros.
Existem diversas técnicas e métodos de clustering disponíveis: K-Means, Fuzzy
K-Means, K-Modes e K-medoid, entre outros.
Segundo Carlantonio (2001), os requisitos que os algoritmos de clustering preci-
sam ter para que tenham melhor desempenho são:
a. Descobrir clusters com formato arbitrário: o formato dos grupos, consideran-
do-se o espaço euclidiano, pode ser esférica, linear, alongada, elíptica, cilíndri-
ca etc.
Sistemas de Apoio à Decisão para Business Intelligence 96
n
A distância euclidiana é calculada com a fórmula Dp,q = Σi = 1 (pi – qi) , enquanto a de Manhattan
2
n
(também conhecida por city block) é calculada com a fórmula Dp,q = Σi = 1 |pi – qi |.
Diversos tipos de medidas de distância podem ser encontrados em uma obra intitulada
Encyclopedia of Distances, de Deza e Deza (2009).
• Passo 4: os passos 2 (com os novos centros) e 3 são repetidos até que não haja
mudança nos centros ou outro critério de parada seja atingido (por exemplo,
número máximo de iterações).
As figuras a seguir representam a aplicação dos dois primeiros passos do
K-Means, supondo uma base de dados com 20 instâncias, com dois atributos contí-
nuos, e considerando k = 3 (ou seja, três grupos: azul, vermelho e cor-de-rosa).
1 51 12
2 49 15
3 47 18
4 46 22
5 50 18
6 80 32
7 74 32
8 69 31
9 75 33
10 85 38
11 108 65
12 128 57
13 131 50
14 123 39
15 142 50
Grupo
Base completa 0 1 2
Atributo
(15) (5) (5) (5)
Quantidade de
34,1333 17 33,2 52,2
itens
Em uma análise rápida, percebemos que os clientes “ouro” possuem valor de com-
pra “em torno” de 48,60 e uma quantidade “em torno” de 17 itens (valor médio por pro-
duto de 2,86 un.). Os clientes “prata” possuem um valor de compra maior e a quantidade
de itens também superior, diminuindo o valor médio de cada produto para 2,31 un. Já os
clientes “bronze” possuem tanto valor de compra quanto quantidade de itens superio-
res aos outros dois, e o valor médio dos produtos de 2,42 un.
Utilizando essa análise, o estabelecimento poderia então criar estratégias para
que os clientes “bronze” e “prata” passem a consumir os produtos que, normalmente,
os clientes “ouro” estão comprando.
Resultado do K-Means
cluster 0 (azul) = grupo Ouro
cluster 1 (vermelho) = grupo Prata
cluster 2 (verde) = grupo Bronze
3.3 Aplicativos
Diversas ferramentas para mineração de dados estão disponíveis na internet,
dentre as quais destacamos: RapidMiner, Linguagem R e Weka. A seguir, apresentamos
alguns pacotes de aplicativos freeware e shareware para mineração de dados listados.
Visite o site Kdnuggets, uma das principais fontes de pesquisa na área de mineração de dados.
Alteryx Project Edition Versão freeware do Alteryx, oferece a capacidade de análise e recursos de com -
partilhamento, mas apenas para resolver um problema de negócios ou comple -
tar um único projeto.
ELKI – Environment for Developing KDD – Ambiente em Java que inclui agrupamento, detecção de outlier e outros algorit-
applications supported by index-structures mos para descoberta de conhecimento em base de dados.
Gnome Data Mining Tools Pacote de aplicativos que inclui os métodos Apriori, árvores de decisão e classi -
ficadores bayesianos.
SCaVis – Scientific Computation and Ambiente de computação científica, análise e visualização de dados. Projetado
Visualization Environment para cientistas, engenheiros e estudantes.
KEEL Inclui algoritmos de extração de conhecimento, pré-processamento, aprendiza -
do de regras evolucionário e sistemas fuzzy.
KNIME Plataforma de trabalho gráfica amigável para todo o processo de análise (acesso
a dados, transformação de dados, investigação inicial, análises preditivas, visua -
lização e comunicação).
MiningMart O projeto visa às novas técnicas que dão acesso direto às informações armaze -
nadas em bancos de dados, data warehouses e bases de conhecimento. O objeti -
vo principal é a integração de dados e a gestão do conhecimento. Gratuito para
aplicações não comerciais.
ML-Flex Pacote de software de código aberto projetado para permitir o processamen -
to flexível e eficiente de dados para as análises de aprendizagem de máquina
(classificação).
Orange Ferramenta open source para análise e visualização de dados.
PredictionIO Ferramenta open source para desenvolvedores e engenheiros de dados para a
criação de predições, como descoberta de conteúdo.
RapidMiner Ferramenta open source para a descoberta de conhecimento e mineração de
dados.
Rattle Pacote para mineração de dados que utiliza a Linguagem R, gráficos, agrupa -
mento e modelagem.
Tanagra Oferece uma interface GUI e métodos de acesso, análise estatística, seleção de
atributos, classificação, agrupamento, visualização e associação.
Weka Coleção de algoritmos de aprendizado de máquina para tarefas de mineração de
dados. Desenvolvido em Java, está disponível para diversas plataformas.
Sistemas de Apoio à Decisão para Business Intelligence 102
Observe que estão disponíveis diversas opções de software, entre as quais apre-
sentaremos em detalhes uma delas, o Weka (Waikato Environment for Knowledge
Analysis), uma ferramenta open source desenvolvida em Java e disponibilizada, atuali-
zada e mantida pela Universidade de Waikato, na Nova Zelândia.
Machine learning é um ramo da inteligência artificial cuja ocupação é construir e estudar siste-
mas que possam aprender a partir de dados.
Dados de jogo.
@data
ensolarado,85,85, nao,nao
ensolarado,80,90, sim,nao
nublado,83,86, nao,sim
chuvoso,70,96, nao,sim
chuvoso,68,80, nao,sim
chuvoso,65,70, sim,nao
nublado,64,65, sim,sim
ensolarado,72,95, nao,nao
ensolarado,69,70, nao,sim
chuvoso,75,80, nao,sim
ensolarado,75,70, sim,sim
nublado,72,90, sim,sim
nublado,81,75, nao,sim
chuvoso,71,91,TRUE,nao
Sistemas de Apoio à Decisão para Business Intelligence 104
Aparência
Referências
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of Items
in Large Databases. In: Proceedings of the 1993 ACM SIGMOD Conference, p. 207-216,
1993.
AGRAWAL, R. et al. Automatic Subspace Clustering on High Dimensional Data for Data
Mining Applications. In: Proceedings of the ACM SIGMOD Conference on Management
of Data, p. 94-105, Seattle, Washington, USA, June, 1998.
CARLANTONIO, L. M. Novas Metodologias para Clusterização de Dados. Dissertação,
Engenharia Civil, COPPE, Universidade Federal do Rio de Janeiro, 2001. Disponível em:
<http://wwwp.coc.ufrj.br/teses/mestrado/inter/2002/teses/di%20CARLANTONIO_
LM_02_t_M_int.pdf>. Acesso em: 28/09/2013.
CENDROWSKA, J. PRISM: an algorithm for inducing modular rules. In: Intl. J. Man-
Machine Studies, n. 27, p. 349-370. 1987. Disponível em: <http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.294.7800&rep=rep1&type=pdf>. Acesso em: 08/02/2014.
DEZA, M. M.; DEZA, E. Encyclopedia of Distances. Heidelberg: Springer Dordrecht, 2009.
ESTER, M. et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. In: Proceedings of the 2nd International Conference on
Knowledge Discovery in Databases and Data Mining (KDD-96), p. 226-231, Portland,
Oregon, USA, August, 1996.
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
FONTANA, A.; NALDI, M. C. Estudo de Comparação de Métodos para Estimação de
Números de Grupos em Problemas de Agrupamento de Dados. Universidade de São
Paulo. 2009. Disponível em: <http://www.icmc.usp.br/CMS/Arquivos/arquivos_enviados/
BIBLIOTECA_113_RT_340.pdf>. Acesso em: 08/02/2014.
FREITAS, A. A.; LAVINGTON, S. H. Mining Very Large Databases with Parallel
Processing. Kluwer Academic Publishers, 1998.
HAN, J.; KAMBER, M. Cluster Analysis. In: Data Mining: concepts and techniques, 1. ed.,
chapter 8, New York, USA, Academic Press, 2001.
HOUAISS, A.; VILLAR, M. de S. Dicionário Houaiss da Língua Portuguesa. Rio de Janeiro:
Objetiva, 2001.
MEIDEROS, F. S. B.; BIANCHI, R. C. A Aplicação do Método Regressão Linear Simples na
Demanda de Produtos Sazonais: um estudo de caso. In: Disciplinarum Scientia. Série:
Ciências Sociais Aplicadas, S. Maria, v. 5, n. 1, p. 35-53, 2009.
Sistemas de Apoio à Decisão para Business Intelligence 109
MORRISON, J. Human Nose can Detect 1 Trillion Odors. In: Scientific American.
Disponível em: <http://www.scientificamerican.com/article/human-nose-can-detect-1-tril-
lion-odors/>. Acesso em: 23/03/2014.
NG, R. T.; HAN, J. Efficient and Effective Clustering Methods for Spatial Data Mining. In:
Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), p.
144-155, Santiago, Chile, September, 1994.
QUINLAN, J. R. Induction of Decision Trees. Machine Learning, v. 1, n. 1, p. 81-106, 1986.
______. C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann
Publishers, 1993.
REXER ANALYTICS. Data Mining Algorithms Survey 2010. Disponível em: <http://myda-
tamine.com/data-mining-algorithms-survey-2010/>. Acesso em: 08/02/2014.
______. 2013 Data Miner Survey Highlights. Disponível em: <http://agiltools.com/
blogsp/wp-content/uploads/2013/12/2013-Rexer-DM-Survey-PAW-Deck.pdf>. Acesso em:
08/02/2014.
TSUNODA, D. F. Abordagens Evolucionárias para a Descoberta de Padrões e
Classificação de Proteínas. Tese. UTFPR: Curitiba, 2004.
UNIVERSITY OF WAIKATO. WEKA: versão 3.7.11. 2014. Disponível em: <http://www.
cs.waikato.ac.nz/ml/weka/downloading.html>. Acesso em: 08/08/2014.
WU, X.; KUMAR, V. The Top Ten Algorithms in Data Mining. Chapman & Hall/CRC, 1. ed.,
2009.
4 Visualização de resultados
Inicialmente, os dados eram registrados em computadores para fins puramen-
te operacionais e serviam para dar suporte às atividades do dia a dia das empresas.
Atualmente, os dados assumiram valor estratégico e representam um importante dife-
rencial competitivo. A análise dos dados está diretamente relacionada à inteligência dos
negócios, o que exige ferramentas especializadas e sofisticadas para sua manipulação.
Cubo de decisão
Dados brutos podem ser organizados de diferentes maneiras para análise e re-
presentação. Uma maneira de organização é a multidimensionalidade, cuja principal
vantagem é permitir que os dados sejam organizados de acordo com a preferência de
cada gestor. Assim, diferentes visualizações podem ser criadas de modo fácil e rápido
(TURBAN et al., 2009). A multidimensionalidade envolve três fatores: dimensões, me-
didas e tempo.
Exemplos dos fatores de multidimensionalidade
Fator Exemplos
Dimensão Produtos, equipes, segmentos de mercado, unidades de negócio, países, setores etc.
Data warehouse é um depósito físico no qual dados relacionados são organizados para possi-
bilitar a geração de conhecimento por meio de mineração de dados, OLAP (On-Line Analytical
Processing – “Processamento Analítico On-Line”) ou outros métodos de pesquisa.
On-Line Analytical Processing (OLAP) é um sistema que oferece a oportunidade de executar análises
multidimensionais sobre dados, executando cruzamentos de dimensões para avaliar fatos relevantes
em uma organização.
Jan.
Fev. 2009
Mês
Mar.
Margem de lucro
Design Gráfico: Bernardo Beghetto
14% da América do
Marge
m de
Norte (%)
lucro
(%)
William Henry Playfair (1790-1857) foi um dos maiores arquitetos escoceses, projetou muitos
monumentos neoclássicos em Edimburgo e inventou quatro tipos de gráficos: de linhas e de
barras (1786), para dados de economia, e de pizza e circular (1801), para representar relações
parte-todo.
© marog-pixcells / / Fotolia
da matemática e do avanço da ciência.
Tanto projeções paralelas como curvas tridimen-
sionais passaram a ser utilizadas para visualização de
resultados de fenômenos de muitas variáveis. Até mesmo as primeiras sugestões a res-
peito da projeção de modelos de quatro dimensões começaram a ser apresentadas.
Já no século XX o uso de gráficos e diagramas havia atingido um alto nível de ma-
turidade, usando formas e cores variadas, com alto nível de poder informacional. A
presença desse recurso já havia se tornado uma constante em todos os tipos de perió-
dicos científicos e começou a se popularizar também para a representação de conteú-
dos escolares mais básicos.
A primeira metade do século XX presenciou uma expansão da teoria estatística e,
assim, também da linguagem gráfica para a expressão de seus resultados. No entanto,
nesse período, houve uma significativa redução da inovação nesse campo. Enfatizou-
se mais a expansão do uso das ferramentas então disponíveis do que seu aperfeiçoa-
mento ou a invenção de novas.
O terceiro quarto do século contou com uma extraordinária evolução na produ-
ção de resultados estatísticos, graças à introdução do uso do computador, o que esti-
mulou também a geração de conteúdo visual e gráfico e promoveu a popularização de
infográficos.
Sistemas de Apoio à Decisão para Business Intelligence 115
O computador ainda não estava sendo utilizado para produzir resultados gráfi-
cos, mas já engatinhava ao gerar imagens digitais em sistemas experimentais restritos.
A partir do último quarto do século XX, a capacidade gráfica dos computado-
res recebeu grande impulso, principalmente com a popularização dos computadores
pessoais. Jogos e interfaces gráficas se tornaram progressivamente mais comuns e as
primeiras ferramentas geradoras de gráficos surgiram na década de 1980. Teve início
então um grande desenvolvimento da capacidade de armazenamento e processamen-
to de dados, que teve reflexos também na área de processamento de imagens e gera-
ção de gráficos digitais, que começam a se popularizar. Unindo esforços intelectuais,
artísticos e tecnológicos, novas e numerosas formas de expressão gráfica de dados
têm sido apresentadas.
4.1.1 Gráficos
© violetkaipa / / Fotolia
© Coloures-pic / / Fotolia
A cultura de quem observa um diagrama influencia significativamente na absor-
ção de seu significado. Não podemos esquecer que uma imagem também é uma forma
de comunicação, e é necessário que a mensagem seja transmitida em uma linguagem
comum entre o emissor e o receptor.
É fundamental conhecer o público-alvo do diagrama e considerar os tipos de grá-
ficos com os quais tem mais familiaridade. Em geral, o uso de explicações em info-
gráficos é restrito e a necessidade de apresentar documentação extensiva é um forte
indício de que o tipo de representação gráfica escolhida não é apropriado.
Um público de formação científica terá mais facilidade de assimilar um diagra-
ma que apresente uma curva ou o cálculo de uma função matemática, o que possivel-
mente apresentará mais dificuldades para observadores leigos.
Por outro lado, o uso de figuras populares em legendas (personagens de um dese-
nho animado, por exemplo) poderá gerar a impressão de algo demasiadamente informal
em um diagrama de resultados corporativo.
O uso de cores representa uma dimensão importantíssima na exposição de infor-
mações por um veículo gráfico; mas, se mal utilizada, pode representar um ruído. O
uso de tons femininos para um público masculino ou de cores que são culturalmente
Sistemas de Apoio à Decisão para Business Intelligence 117
repudiadas (as cores da bandeira de um país inimigo, por exemplo) poderão represen-
tar um forte obstáculo à leitura e compreensão de um diagrama.
Diagramas em três dimensões podem ser facilmente produzidos, visto que o
hardware necessário para o cálculo se tornou bastante acessível. Mas seu uso poderá
produzir um efeito mais estético que informativo e, assim, gerar ruído em vez de valo-
rizar os dados.
A motivação (ou o porquê) é o terceiro critério para a seleção de um método de
apresentação. A informação a ser mostrada conta uma história e deverá provocar uma
reação na plateia, ou seja, algum tipo de transformação de conhecimento, de compor-
tamento ou de expectativa.
Toda pesquisa tem o objetivo de responder alguma pergunta. Essa pergunta deve
ser feita no momento de elaboração do diagrama para nortear o conteúdo e o formato
da resposta.
Cores, efeitos 3D, gravuras e legendas poderão ou não contribuir para elevar o va-
lor informativo de um gráfico. Esses atributos poderão servir para realçar aspectos que
se deseja apresentar ou poluí-los.
Um aspecto fundamental da comunicação visual é o uso das cores. Se, por um
lado, as cores podem ser escolhidas e utilizadas de forma a agradar e informar, por ou-
tro podem ter um efeito reverso, afugentando e desviando a atenção.
A tecnologia atual possibilita um uso massivo de cores, mas quantidade nesse
caso não necessariamente significa qualidade. Em muitos casos, o uso de tons de cin-
za, ou mesmo do branco e do preto, ainda é a estratégia mais apropriada para trans-
missão de informação.
Que critérios podem ser utilizados para fazer um uso racional e positivo desse im-
portante recurso? As cores podem e devem ser usadas para evidenciar a importância
ou o significado de um dado. Uma cor intensa, por exemplo, naturalmente atrairá a
atenção do observador e transmitirá a noção de um valor maior.
Além disso, as cores sugerem emoções e podem mesmo influenciar, de forma su-
til, a maneira como o observador recebe uma informação. O artigo O Significado das
Cores (JUICE ANALYTICS, 2014) explica uma forma de utilização das cores em gráfi-
cos. Nesse texto é mencionado que tons naturais têm um efeito calmante, enquanto
tons não naturais ou antinaturais provocam agitação.
Sistemas de Apoio à Decisão para Business Intelligence 118
2.546 2.546
6.598 6.598
8.452 8.452
Design Gráfico: Bernardo Beghetto
Jan. Jan.
Fev. Fev.
Mar. Mar.
Comparação de brilho de cores.
Sistemas de Apoio à Decisão para Business Intelligence 120
4.2.4 Publicação
A última etapa é a publicação ou apresentação dos resultados da análise. Por
exemplo: após o fechamento anual de uma organização, os resultados alcançados
serão apresentados para os interessados, internos ou externos. É importante ob-
servar que, dependendo do público-alvo dessa informação, o formato deverá ser
diferenciado.
Sistemas de Apoio à Decisão para Business Intelligence 121
O termo dashboard vem do inglês e pode ser traduzido como “painel de ins-
trumentos” (ou ainda “painel de bordo”, ou “painel de indicadores”). Trata-se de uma
metáfora que compara esse diagrama ao painel de um avião, que apresenta inúmeros
mostradores ativos que relatam a situação da aeronave durante o voo. O piloto normal-
mente utiliza diversos desses mostradores em um dado momento para tomar uma deci-
são importante. Não serão todos, mas um subconjunto que apresente dados relevantes
a respeito de algum evento em foco. Os dashboards digitais seguem o mesmo princípio
na seleção e apresentação dos dados.
A natureza dinâmica dos dashboards dá aos gestores uma nova forma de monitorar
o andamento e a evolução de seus negócios, praticamente em tempo real. De forma resu-
mida, podemos dizer que um dashboard tem o potencial para fornecer uma série de bene-
fícios, tais como:
• ajudar a alta administração a estabelecer o que é importante;
• educar os membros da organização a respeito dos assuntos importantes;
• definir os objetivos individuais e de grupos de colaboradores;
• mostrar aos gerentes o andamento dos processos organizacionais;
• encorajar ações específicas em momentos apropriados;
• evidenciar situações de exceção por meio da apresentação de alertas;
• comunicar a ocorrência de sucesso ou andamento de processos;
• fornecer os meios para ter acesso a dados de importância e manipulá-los.
Todos esses aspectos reforçam a noção de importância que um dashboard pode
ter para uma organização. As alternativas para a apresentação de dados em um
dashboard são muito variadas. Isso não quer dizer que todas devem ser usadas em
dado momento – e o largo leque de opções pode até mesmo representar um perigo.
A finalidade de um dashboard é apresentar uma gama de dados sob formas diver-
sas, mas esses dados precisam estar em harmonia com os propósitos do observador.
É importante ter em mente que algumas modalidades de visualização são mais
apropriadas a tipos de dados específicos. Algumas das diversas possibilidades de vi-
sualização de dados:
Gráficos de linhas são indicados para apresentar a evolução de valores de uma ou
mais variáveis ao longo de uma escala – por exemplo, o tempo. Permite a visualização
simultânea de mais de uma variável, o que facilita sua comparação. Suponha que a ta-
bela a seguir descreva o valor de vendas em milhões de reais de uma empresa fictícia
durante um ano.
Sistemas de Apoio à Decisão para Business Intelligence 123
Tabela de vendas
Vendas 2013
Jan. R$ 2.546,00
Fev. R$ 8.452,00
Mar. R$ 6.598,00
Abr. R$ 2.156,00
Mai. R$ 5.978,00
Jun. R$ 4.682,00
Jul. R$ 8.911,00
Ago. R$ 6.851,00
Set. R$ 5.489,00
Out. R$ 6.879,00
Nov. R$ 7.985,00
Dez. R$ 10.569,00
4.000
2.546
2.000 2.156
0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de linhas.
Sistemas de Apoio à Decisão para Business Intelligence 124
Mui
to b
Bom om
Ex
cel
im
Ru
en
te
Suponha então que você queira criar um mostrador de progresso para as metas
de sua empresa, fornecendo apenas a meta e quanto já foi realizado. Supondo uma
meta de 25.000 e um realizado de 4.500, a planilha fará o cálculo de quanto ainda res-
ta a realizar (nesse caso, 20.500) e a variação (82%). Geralmente, esse tipo de gráfico é
utilizado para visualização de dados armazenados em planilhas.
50%
25% 75%
0% 100%
Gráficos de barras ou de colunas são muito bons para comparar níveis de resulta-
dos ao longo do tempo, pois transmitem uma noção intuitiva de volume que é rapida-
mente assimilada pelo observador. Um exemplo é a ocorrência de falhas de operação
de uma máquina em cada mês do ano. A seguir, temos os mesmos dados da tabela já
apresentada sob a forma de um gráfico de barras.
Mai. 5.978
Abr. 2.156
Mar. 6.598
Fev. 8.452
Jan. 2.546
0 2.000 4.000 6.000 8.000 10.000 12.000
Exemplo de gráfico de barras.
Sistemas de Apoio à Decisão para Business Intelligence 126
0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de colunas.
Gráficos de pizza são úteis quando o que se deseja é uma avaliação percentual
entre os diversos valores de uma variável. Devem ser usados com cuidado, pois per-
dem rapidamente a eficácia quando o número de variáveis é grande ou estas apre-
sentam valores muito próximos. Um bom uso poderia ser a avaliação de tipos de
ocorrências relatadas por usuários a respeito de um produto (percentual de reclama-
ções, percentual de elogios, percentual de dúvidas, percentual de sugestões etc.).
A seguir, temos um exemplo de gráfico de pizza para as vendas realizadas na ta-
bela anterior, mas normalmente não se utiliza esse tipo de gráfico quando o número
de fatias é grande, pois isso pode dificultar a comparação dos meses com tantas cores
semelhantes. Observe, por exemplo, como a análise das vendas ficou mais simples no
gráfico anterior (de colunas) quando comparado ao gráfico de pizza, que, ainda agra-
vado pela perspectiva, dificulta a interpretação. Observe que, sem a leitura dos valo-
res, em um primeiro momento teríamos a impressão de que o mês de julho apresentou
o maior valor de vendas, quando na verdade foi o mês de dezembro.
Sistemas de Apoio à Decisão para Business Intelligence 127
Jan.
Vendas (em R$)
Fev.
2.546 Mar.
10.569 8.452
Abr.
7.895 6.598
Mai.
2.156 Jun.
Jul.
6.879 5.978
Ago.
Mapas de calor são muito bons para visualizar a distribuição de tendências ou vo-
lumes em um território, por exemplo, o volume de vendas atingido nos diversos esta-
dos de um país. Nesse tipo de gráfico as cores ganham valor especial, pois contribuem
para uma assimilação quase instantânea da informação.
Variável:
pessoas de 25 anos ou mais, residentes
em domicílios particulares, pessoa
responsável – Total.
Até 553.087
Acima de 553.087 até 799.199
Acima de 799.199 até 1.714.450
Design Gráfico: Bernardo Beghetto
© White / / Fotolia. (Adaptado).
Mapa de calor.
Sistemas de Apoio à Decisão para Business Intelligence 128
Uva
Cenoura
Maçã
Repolho
Banana
Kiwi
Gráfico de bolhas
60%
R$ 57.870,00
R$ 90.552,00
50% R$ 42.389,00 R$ 75.980,00
R$ 67.895,00
40%
Série 1
30%
R$ 40.132,00 Série 2
20%
R$ 78.027,00
R$ 76.900,00 R$ 65.900,00
10%
R$ 59.080,00
0%
2008 2009 2010 2011 2012 2013 2014
Ano
Observe no gráfico que o tamanho das bolhas é correspondente ao valor das ven-
das, ou seja, quanto maior o valor da venda, maior o tamanho da bolha.
Gráficos de dispersão permitem a avaliação da distribuição de um conjunto de
dados em relação a duas (dispersão bidimensional) ou três variáveis (dispersão tridi-
mensional). Cada variável é representada por um eixo e os dados que assumem esses
valores são distribuídos no plano (ou no volume), permitindo a avaliação de efeitos de
dispersão ou agrupamento de dados.
Para exemplificar esse tipo de gráfico, suponha que uma protetora de cães de
Curitiba deseja gerar um gráfico com o número de cães recolhidos em cada mês de de-
terminado ano.
Sistemas de Apoio à Decisão para Business Intelligence 130
Jan. 25
Fev. 12
Mar. 5
Abr. 6
Mai. 8
Jun. 12
Jul. 16
Ago. 8
Set. 6
Out. 8
Nov. 7
Dez. 21
0
0 2 4 6 8 10 12
Meses de ano
Diagrama de dispersão.
Sistemas de Apoio à Decisão para Business Intelligence 131
Observe que nos meses de janeiro, julho e dezembro, o número de cães recolhi-
dos é maior, talvez por serem períodos de férias escolares, durante os quais diversas
famílias viajam e deixam seus cães nas ruas.
Suponha agora que em Londrina também exista uma protetora de cães que
possua uma planilha semelhante. A tabela com os dados de ambas as cidades ficaria
assim:
Cães recolhidos
Mês Curitiba Londrina
Jan. 25 16
Fev. 12 13
Mar. 5 6
Abr. 6 2
Mai. 8 8
Jun. 12 10
Jul. 16 26
Ago. 8 5
Set. 6 2
Out. 8 9
Nov. 7 7
Dez. 21 16
20
Número de cães
15
Design Gráfico: Bernardo Beghetto
10
0
0 2 4 6 8 10 12
Meses de ano
Verificamos que em Londrina o padrão se repete: nos meses de janeiro, julho e de-
zembro há um número maior de cães nas ruas. Embasando-se nesse gráfico, é possível
propor a criação de políticas públicas e de conscientização que minimizem o problema
nas duas cidades.
Pequenas tabelas (não mais de cinco colunas e 20 linhas) também podem apre-
sentar dados numéricos variados e, em alguns casos, são até preferíveis em relação a
gráficos.
Durante a construção de um dashboard, o mais importante é focalizar no obje-
tivo, que dependerá do público-alvo dos dados. A cultura e as expectativas do públi-
co-alvo unidas aos motivos da apresentação dos dados irão determinar a disposição
gráfica de apresentação na tela do computador.
4.3.2 Scorecards
Scorecards são painéis de visualização de resultados muito similares aos dashboards,
o que faz com que sejam frequentemente confundidos.
Dashboards são utilizados para monitorar variáveis e grandezas de natureza ope-
racional. São recomendados para monitorar a evolução de processos de negócios em
tempo real.
Scorecards são utilizados para acompanhar a evolução de indicadores sintéticos
em relação a metas preestabelecidas. Essas metas, chamadas de indicadores-chave de
desempenho (KPI, do inglês “key performance indicators”), estão relacionadas a métri-
cas de natureza tática ou estratégica de uma organização.
A tabela a seguir apresenta diferenças fundamentais existentes entre as duas
ferramentas.
Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação
Dados Dados
Dados
Dados Dados Dados Dados
Dados Dados
Dados Dados Padrões Conhecimento
pré-processados transformados
Processo KDD.
Informações de transações
de clientes web
Aplicações de mineração
de dados para descoberta Gerentes
de padrões relacionados
aos comportamentos dos
D clientes, por exemplo.
CRM tradicional – a
informações de clientes t
a Representantes
de vendas
W Aplicações OLAP para
a descoberta de relações
r nos dados para descobrir
e tendências históricas.
Aplicação de call center – h Analistas de
informações de suporte o negócios
u
s
e Design Gráfico: Bernardo Beghetto
Ferramentas de relatórios
para projeções de vendas,
por exemplo. Fornecedores
Aplicação de vendas –
informações de clientes
Ferramenta Scorecard
Ferramenta Descrição
d3.js – Data-Driven Documents Biblioteca JavaScript para processamento e visualização de documentos HTML.
InetSoft Dashboardfre – Style Scope Aplicativo web gratuito para criação de dashboards interativos em Flash e outras
Free Edition visualizações.
XDAT – X-dimensional Data Analysis Ferramenta que pode trabalhar com dados de grandes dimensões para análise de
Tool todas as dimensões ao mesmo tempo.
Pudemos observar que não existe uma ferramenta que atenda a todas as neces-
sidades de uma organização. A escolha da ferramenta irá depender da informação que
se deseja visualizar e de que maneira.
Vamos apresentar, a seguir, uma ferramenta freeware para exemplificar a visua-
lização de dados. Escolhemos a Linguagem R, um pacote estatístico que implementa
algoritmos de mineração de dados e permite a geração de diversos tipos de visualiza-
ções, além de permitir programação especializada em computação com dados.
Embora não seja específica para mineração de dados, escolhemos essa ferramen-
ta porque, de acordo com a pesquisa 2013 Rexer Analytics Data Miner Survey, 70% dos
desenvolvedores de aplicações para mineração de dados a utilizam. É uma linguagem
gratuita, criada por Ross Ihaka e Robert Gentleman na Universidade de Auckland, na
Nova Zelândia, sob os termos da Licença Pública Geral GNU 3, e atualmente é mantida
pela comunidade mundial de desenvolvedores (THE R, 2007).
Para a mineração de dados com essa linguagem, utilizaremos o software Rattle (R
analytical tool to learn easily), também freeware. Essa ferramenta apresenta uma inter-
face gráfica que facilita a utilização da Linguagem R para análise, manipulação e mine-
ração de dados.
Para a realização dos experimentos, criamos uma tabela para os testes. Suponha
que o objetivo seja descobrir a existência de relações do tipo “quem compra x tam-
bém compra y” entre os produtos escolhidos. Essa é uma das principais aplicações co-
merciais utilizadas pelas empresas: realizar promoções que combinem dois produtos
que são muito comprados, ou dois produtos que são muito comprados junto com ou-
tro que não tem vendas tão expressivas.
Sistemas de Apoio à Decisão para Business Intelligence 138
ID Pão Manteiga Torrada Vassoura Bolacha Caneta Saco p/ lixo Fralda Arroz
Esses dados foram usados como input pela ferramenta Rattle. Utilizamos o algo-
ritmo de classificação Apriori para a descoberta de regras. Para análise dos atributos,
o Rattle apresenta um gráfico no qual é possível observar a frequência relativa de cada
produto em análise e as regras descobertas.
Sistemas de Apoio à Decisão para Business Intelligence 139
0.7
0.6
Frequência de itens (relativa)
0.5
0.4
0.3
0.2
0.1
O
SIM
ÃO
SIM
ÃO
SIM
ÃO
NÃ
NÃ
NÃ
NÃ
=N
=N
=N
o=
o=
a=
ta=
oz=
ura
iga
ura
ha
lda
Pã
lix
ad
ne
sso
lac
Arr
p/
nte
Fra
sso
rr
Ca
Bo
To
co
Va
Ma
Va
Sa
4.3.4 Tendências
Uma tendência em visualização de dados é a utilização de realidade virtual (VR).
As aplicações visuais recentes incluem desenvolvimentos em VR, o que, é claro, envol-
ve mais do que apenas ver imagens.
As representações de VR permitiram avanços em diversas áreas da medicina, so-
bretudo no ensino. Simulações em realidade virtual possibilitam uma maneira de edu-
car médicos e dentistas sobre a sensação e a aparência de procedimentos cirúrgicos
reais. Imagens tridimensionais de órgãos tornaram possível a cirurgia robótica. A VR
também pode ser usada no tratamento de fobias.
Realidade virtual é uma tecnologia interativa 3D que fornece ao usuário uma sensação de que ele
está fisicamente presente em um mundo virtual (produzido em computador) (TURBAN, 2010).
© pressmaster / / Fotolia
A visualização de dados pode utilizar modelos para o mapeamento e a apresenta-
ção gráfica de dados, com o objetivo de agregar valor e aprimorar a tomada de decisão.
As técnicas de visualização podem variar conforme os tipos de dados que es-
tão sendo analisados: mostradores de progresso (gauges) para a apresentação do an-
damento de um processo, o volume de ocupação ou de utilização de um recurso ou o
nível de desempenho de determinado indicador em relação a determinada meta; grá-
ficos de barras para comparação de níveis de resultados ao longo do tempo; gráficos
em pilha e de pizza para avaliação percentual entre diversos valores de uma variável e
mapas de calor para a exploração de tendências ou volumes ao longo de regiões geo-
gráficas. Pequenas tabelas, com cerca de cinco colunas e vinte linhas, também podem
ser utilizadas para apresentar dados numéricos variados. Em alguns casos são mais re-
comendáveis que os gráficos.
Atualmente, a visualização de dados é muito diversificada, podendo ser feita por
meio de simples gráficos de barras, pizza ou coluna, ou sofisticados mapas interativos.
Vale destacar que a interatividade é um dos diferenciais que faz com que os gráficos
sejam mais atrativos para os usuários, além da possibilidade de trabalhar simultanea-
mente com multidimensões.
Sistemas de Apoio à Decisão para Business Intelligence 142
Referências
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
JUICE ANALYTICS. Color has Meaning. 2014. Disponível em: <http://www.juiceanalytics.
com/design-principles/color-has-meaning>. Acesso em: 30/04/2014.
KDNUGGETS. Visualization and Data Mining Software. Disponível em: <http://www.
kdnuggets.com/software/visualization.html>. Acesso em: 30/04/2014.
MARTIN, J. R. What is Data Mining? Disponível em: <http://maaw.info/DataMining.htm>.
Acesso em: 09/02/2014.
REXER ANALYTICS. 2011 Data Miner Survey. Disponível em: <http://www.rexeranalytics.
com/Data-Miner-Survey-Results-2011.html>. Acesso em: 13/10/2013.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do
negócio. Porto Alegre: Bookman, 2009.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
Wikimedia Commons. Geothermal Heat Map US. Disponível em: <http://commons.
wikimedia.org/wiki/File:Geothermal_heat_map_US.png>. Acesso em: 09/02/2014.
Sistemas de Apoio à Decisão para Business Intelligence 144