You are on page 1of 144

SiStemaS de

apoio à deciSão para


BuSineSS intelligence
Denise Fukumi Tsunoda
Superintendente Prof. Paulo Arns da Cunha
Reitor Prof. José Pio Martins
Pró-Reitora Acadêmica Profa. Márcia Teixeira Sebastiani
Diretor de EAD Prof. Roberto de Fino Bentes
Gerente Editorial e de Tutoria Profa. Manoela Pierina Tagliaferro
Gerente de Metodologia Profa. Dinamara Pereira Machado
Autoria Profa. Denise Fukumi Tsunoda
Supervisão Editorial Fabieli Campos Higashiyama
Análise de Conteúdo Francine Ozaki
Análise de Qualidade Betina Dias Ferreira
Edição de Texto Caroline Chaves de França e Ignácio Dotto Neto
Design Instrucional Wagner Gonçalves da Silva, Lucelí de Souza Fabro
e Luana Przybylovicz
Design de Atividades Mariana Moschkovich Athayde
Layout de Capa Valdir de Oliveira
Imagem de Capa Juliano Henrique
Edição de Arte Denis Kaio Tanaami
Diagramação Regiane Rosa
Design Gráfico Carlos Henrique Stabile
Estágio de Design Gráfico Bernardo Beghetto
Revisão Ana Luísa Pereira, Marina López Moreira
e Yohan Barczyszyn

Dados Internacionais de Catalogação na Publicação (CIP)


Biblioteca da Universidade Positivo – Curitiba – PR

T882 Tsunoda, Denise Fukumi


Sistema de apoio à decisão para business intelligence. /
Denise Fukumi Tsunoda. – Curitiba : Universidade Positivo, 2014.
144 p. : il.

Sistema requerido: Adobe Acrobat Reader.


Modo de acesso: <http://www.up.edu.br>
Título da página da Web (acesso em 29 abr. 2015).
ISBN 978-85-8486-091-3

1. Processo decisório. 2. Planejamento estratégico. I. Título.


CDU 65.012.4

*Todos os gráficos, tabelas e esquemas são creditados à autora, salvo quando indicada a referência.
Informamos que é de inteira responsabilidade da autora a emissão de conceitos. Nenhuma parte
desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos
direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal.
Copyright Universidade Positivo 2014
Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido
Curitiba-PR – CEP 81280-330
Ícones
Afirmação Curiosidade

Assista
Dicas

Biografia

Esclarecimento
Conceito

Contexto Exemplo
Sumário
Apresentação��������������������������������������������������������������������������������������������������������������������7
A autora�����������������������������������������������������������������������������������������������������������������������������8
Capítulo 1
Sistemas de apoio à decisão���������������������������������������������������������������������������������������������9
1.1 Tomada de decisão�����������������������������������������������������������������������������������������������������9
1.2 Conceitos e estrutura de sistemas de apoio à decisão���������������������������������������������24
1.2.1 Sistemas de apoio à decisão e sistemas de informação�������������������������������������������������������������������������������������� 24
1.2.2 Estrutura dos sistemas de apoio à decisão���������������������������������������������������������������������������������������������������������� 28
1.3 Técnicas e ferramentas����������������������������������������������������������������������������������������������31
1.4 Considerações finais�������������������������������������������������������������������������������������������������38
Referências����������������������������������������������������������������������������������������������������������������������40
Capítulo 2
Data warehouse��������������������������������������������������������������������������������������������������������������43
2.1 Fundamentos������������������������������������������������������������������������������������������������������������44
2.1.1 Características������������������������������������������������������������������������������������������������������������������������������������������������������� 46
2.1.2 Organização dos dados���������������������������������������������������������������������������������������������������������������������������������������� 52
2.1.3 Construção������������������������������������������������������������������������������������������������������������������������������������������������������������ 56
2.2 OLAP�������������������������������������������������������������������������������������������������������������������������59
2.2.1 Fundamentos de OLAP����������������������������������������������������������������������������������������������������������������������������������������� 60
2.2.2 Tipos de OLAP������������������������������������������������������������������������������������������������������������������������������������������������������� 61
2.2.3 Recursos de um OLAP������������������������������������������������������������������������������������������������������������������������������������������ 62
2.2.4 Comparação entre OLAP e OLTP��������������������������������������������������������������������������������������������������������������������������� 66
2.3 Ferramentas��������������������������������������������������������������������������������������������������������������67
2.4 Considerações finais�������������������������������������������������������������������������������������������������67
Referências����������������������������������������������������������������������������������������������������������������������69
Capítulo 3
Introdução ao KDD����������������������������������������������������������������������������������������������������������71
3.1 Etapas do KDD����������������������������������������������������������������������������������������������������������71
3.2 Data mining��������������������������������������������������������������������������������������������������������������74
3.2.1 Algoritmos/heurísticas����������������������������������������������������������������������������������������������������������������������������������������� 77
3.2.2 Regras de associação�������������������������������������������������������������������������������������������������������������������������������������������� 78
3.2.3 Classificação���������������������������������������������������������������������������������������������������������������������������������������������������������� 83
3.2.4 Clustering�������������������������������������������������������������������������������������������������������������������������������������������������������������� 95
3.3 Aplicativos���������������������������������������������������������������������������������������������������������������101
3.4 Considerações finais�����������������������������������������������������������������������������������������������106
Referências��������������������������������������������������������������������������������������������������������������������108
Capítulo 4
Visualização de resultados�������������������������������������������������������������������������������������������� 111
4.1 Origens da visualização de dados��������������������������������������������������������������������������113
4.1.1 Gráficos��������������������������������������������������������������������������������������������������������������������������������������������������������������� 115
4.2 Ciclo de vida da visualização de dados������������������������������������������������������������������120
4.2.1 Aquisição de dados��������������������������������������������������������������������������������������������������������������������������������������������� 120
4.2.2 Limpeza de dados���������������������������������������������������������������������������������������������������������������������������������������������� 120
4.2.3 Análise e visualização exploratória�������������������������������������������������������������������������������������������������������������������� 120
4.2.4 Publicação����������������������������������������������������������������������������������������������������������������������������������������������������������� 120
4.3 Ferramentas de visualização����������������������������������������������������������������������������������121
4.3.1 Dashboards��������������������������������������������������������������������������������������������������������������������������������������������������������� 121
4.3.2 Scorecards������������������������������������������������������������������������������������������������������������������������������������������������������������ 132
4.3.3 Visualização de resultados em mineração de dados����������������������������������������������������������������������������������������� 133
4.3.4 Tendências���������������������������������������������������������������������������������������������������������������������������������������������������������� 140
4.4 Considerações finais�����������������������������������������������������������������������������������������������141
Referências��������������������������������������������������������������������������������������������������������������������143
Inserir Aqui o Título da Obra
7

Apresentação

Os sistemas de apoio à decisão têm se mostrado fortes aliados dos processos ge-
renciais e de tomada de decisões, pois vêm acompanhando as evoluções tecnológicas.
Atualmente, termos como big data, data warehouse, data mining, business intelligen-
ce, SAD (Sistema de Apoio à Decisão) e SIG (Sistema de Informação Gerencial) estão
se popularizando fora dos círculos de especialistas da área e podem ser encontrados
até mesmo em publicações não especializadas.
A Educação à Distância (EAD) potencializa a troca de experiências e permite que
indivíduos de diferentes áreas de atuação encontrem pontos de convergência no inte-
resse comum pelo aprendizado contínuo.
Inserir Aqui o Título da Obra
8

A autora
A Professora Denise Tsunoda é Doutora em Engenharia Elétrica e Informática
Industrial – Engenharia Biomédica (UTFPR, 2004), Mestre em Engenharia Elétrica e
Informática Industrial (UTFPR, 1996) e Graduada em Informática (UFPR, 1992). Possui
experiência na área de Bioquímica, com ênfase em Bioinformática, e atua principal-
mente nos seguintes temas: descoberta de padrões em banco de dados, mineração de
dados, computação evolucionária, algoritmos genéticos, programação genética e in-
formação e estrutura de proteínas.

Currículo Lattes:
<http://lattes.cnpq.br/8265885406314576>

Dedico esta obra ao Alex, amigo e marido,


pelas sugestões e pela compreensão
em diversas circunstâncias.
Aos meus pais, por me ensinarem que nem
sempre o caminho mais fácil é o correto
e que tudo pode ser conquistado com amor,
perseverança e justiça.
A Deus, pois sem Ele nada disso seria possível.
1 Sistemas de apoio à decisão
Este capítulo apresenta os principais conceitos relacionados aos Sistemas de
Apoio à Decisão (SAD), os processos gerenciais de tomada de decisão, os componen-
tes e características dos SADs, suas potencialidades como ferramentas de apoio admi-
nistrativo e as ferramentas analíticas frequentemente disponíveis nesses sistemas.

1.1 Tomada de decisão


A tomada de decisão é um fato rotinei-
ro na vida da maioria das pessoas, pois desde
que acordamos até o momento em que va-
mos dormir tomamos decisões. Por exemplo:

© Coloures-pic / / Fotolia
levantarei imediatamente ou esperarei mais
cinco minutos? O que consumirei no café da
manhã? Qual roupa vestirei hoje? Irei à aca-
demia? Irei ao cinema? O que almoçarei?
Muitas vezes, tomamos decisões de forma automática, por exemplo: qual pé
apoiamos primeiro ao nos levantar, qual mão utilizamos para escovar os dentes, qual
braço utilizamos para pentear os cabelos etc. E, para piorar, dependendo de fatores
externos, temos que reprogramar nossas decisões. Por exemplo: decido à noite qual
roupa utilizar para trabalhar na manhã seguinte, mas, ao acordar, percebo que o cli-
ma está completamente incompatível com a roupa escolhida, e novas decisões deve-
rão ser tomadas.

Segundo Chiavenato (2004), decisão é o processo de análise e escolha de uma entre as várias
alternativas disponíveis, ou, ainda, de qual ação deve ser tomada (ou qual curso de ação deve
ser utilizado) pelo tomador de decisão.

Analisando a questão de outra forma, podemos dizer que as decisões são influen-
ciadas por diversos fatores, fornecidos pelo ambiente e pela experiência de vida das
pessoas (influência dos aspectos culturais, crenças e valores, formação intelectual e
convívio com grupos sociais). Por isso, mesmo diante de situações iguais, que apresen-
tem alternativas idênticas, as pessoas acabam tomando decisões diferentes.
Assim, no nível individual, percebemos e analisamos situações e tomamos deci-
sões. Já no nível organizacional a complexidade aumenta, pois vários gestores estão
decidindo simultaneamente nos diferentes níveis: estratégico, tático e operacional, e
incentivam seus colaboradores a tomarem decisões em relação às tarefas a serem rea-
lizadas e metas a serem alcançadas.
Sistemas de Apoio à Decisão para Business Intelligence 10

A figura a seguir apresenta uma pirâmide organizacional (com seus três níveis) e
exemplos de decisões a serem tomadas no caso do lançamento de um novo produto.

Pirâmide organizacional

Decisões e planejamento tático:


plano de produção (quais os
métodos e tecnologias a serem
Decisões e planejamento
estratégico: criação de utilizados), plano financeiro
Nível
um novo produto. (quais as formas de captação de
estratégico
recursos), plano de marketing
(como o produto será distribuído
e comercializado), plano de
Nível recursos humanos (quais os
tático profissionais necessários para a
criação e monitoramento do novo
produto), etc.

Nível
operacional

Design Gráfico: Carlos Henrique Stabile


Decisões e planejamento operacional: quais os recursos necessários para a criação do novo
produto, quais os procedimentos a serem adotados, qual o cronograma de produção, qual o
resultado final esperado etc.

É importante observar, também, que a eficácia empresarial tem relação dire-


ta com as decisões tomadas pelos diversos gestores e deve estar em sintonia com os
objetivos da organização. Surge, então, a necessidade de fornecer aos gestores algum
instrumento de apoio para auxiliá-los na escolha da melhor alternativa.

Segundo Chiavenato (2004), tomar decisões é identificar e selecionar uma opção, entre várias al-
ternativas, para lidar com um problema específico ou extrair vantagens em uma oportunidade.
Sistemas de Apoio à Decisão para Business Intelligence 11

Alguns autores diferenciam tomar decisões e resolver problemas, uma vez que
este último pode requerer mais do que uma decisão a ser tomada. É importante obser-
var que, em muitos casos, um problema pode oferecer uma oportunidade a ser apro-
veitada e, normalmente, reconhecer a existência do problema é o primeiro passo para
se encontrar uma oportunidade. Por exemplo, suponha que os clientes de uma organi-
zação estejam reclamando sobre os prazos (atrasos) de entrega de seus produtos. Esse
problema pode oferecer uma oportunidade para revisar os procedimentos de logística
de entrega de mercadorias, redesenhar processos de produção ou, ainda, melhorar os
próprios serviços ao consumidor.

Segundo Chiavenato (2004) e Robbins (2006), problema é algo fora do planejado, uma discre-
pância entre o estado atual e o desejado e que pode bloquear o alcance dos resultados espera-
dos. Em alguns casos, pode ser representado como a diferença entre as metas iniciais e o que
foi alcançado.

As decisões podem ser classificadas em dois tipos: programadas (estruturadas) e


não programadas (ou não estruturadas). Decisões programadas normalmente se apli-
cam aos problemas rotineiros, com regras, procedimentos ou hábitos bem definidos.
Chiavenato (2004) menciona as características desse tipo de decisão:
• Baseadas em dados adequados.
• Baseadas em dados repetitivos.
• Tomadas em condições estáticas e imutáveis.
• Sob condições de previsibilidade.
• Baseadas na certeza.
• Podem ser computacionais.
Essas decisões são tomadas conforme políticas e regras, escritas ou não, e são
simplificações de tomadas de decisão a serem aplicadas em situações que têm a ten-
dência a se repetir. De certa forma, delimitam a ação do tomador de decisão, uma vez
que, na maioria das vezes, é a organização que determina o que será feito. Um exem-
plo de decisão programada é o lançamento de um novo produto no mercado (veículo,
vestuário, alimentício, pacotes de férias etc.).
Por outro lado, uma decisão é dita não programada quando as soluções são criadas
por um processo não estruturado para resolver um problema específico, incomum, excep-
cional e não rotineiro. Então, observe que, se um problema não surge com frequência su-
ficiente para ser resolvido por uma política, ele deve ser resolvido por uma decisão não
programada. Chiavenato (2004) menciona as características desse tipo de decisão:
Sistemas de Apoio à Decisão para Business Intelligence 12

• Baseadas em dados inadequados.


• Baseadas em dados únicos e novos.
• Tomadas em situações dinâmicas e mutáveis.
• Sob condições de imprevisibilidade.
• Baseadas na incerteza.
• Devem ser tomadas sob julgamento pessoal.
Em uma situação real, grande parte dos problemas enfrentados por um adminis-
trador requer uma decisão não programada e, por esse motivo, a maioria dos progra-
mas de desenvolvimento de gestores tem capacitações específicas para a tomada de
decisão não programada, programas esses nos quais se destaca que as decisões preci-
sam ser lógicas e os problemas devem ser analisados de forma sistemática.
Turban e Volonino (2013) apontam, ainda, um terceiro tipo de decisão, que cha-
mam de semiestruturada, ou seja, parte da solução possui um método bem definido
enquanto outra parte depende de inteligência, conhecimento ou experiência das pes-
soas, assim como de dados e modelos de solução.

Modelo de decisão

Processo decisório
Identificação do Formulação de Avaliação das Seleção de uma
problema soluções soluções solução

Tomada de
decisão
Design Gráfico: Carlos Henrique Stabile

Planejamento Execução Controle

Modelo de
Missão Visão Valores
gestão

Modelo de tomada de decisão empresarial.


Sistemas de Apoio à Decisão para Business Intelligence 13

A figura anterior ilustra um modelo de decisão empresarial. Os fatores que forne-


cem suporte ao processo de tomada de decisão são: missão, visão e valores, combina-
dos com o modelo de gestão.
Estabelecer um modelo de gestão significa gerir, por meio de exemplos, para o
alcance das metas empresariais definidas. Um modelo de gestão observa em sua con-
cepção as principais determinações, vontades e expectativas organizacionais, ou seja,
determina como as atividades devem acontecer – por meio de normas e princípios que
orientam os gestores responsáveis na escolha das alternativas – para que a empresa
cumpra sua missão com eficácia.
A missão de uma organização é seu objetivo fundamental, constituindo-se na
verdadeira razão de sua existência, tendo, assim, um caráter permanente. A missão
representa o motivo ou a finalidade pela qual a empresa foi concebida e qual é sua com-
petência. Pode-se defini-la por meio de três perguntas, apresentadas por Chiavenato
(2004): “quem somos nós?”, “o que fazemos?” e “por que fazemos o que fazemos?”.
A visão corresponde ao conjunto de convicções que norteiam a trajetória da orga-
nização. Segundo Chiavenato (2004), é a imagem que a organização tem a respeito de
si mesma e de seu futuro.
Os valores organizacionais traduzem as convicções que norteiam suas condutas e
dizem respeito aos princípios empresariais, dos quais emanam as diretrizes gerais que
posicionam a empresa frente a seus clientes, fornecedores, funcionários, comunidade,
governo e ao ramo de negócio no qual deseja atuar.
Apenas a título de exemplo, a figura a seguir traz a missão, a visão e o lema da
empresa Mundo Verde (2013), do ramo de produtos naturais. Nessa figura, a visão “ser
marca mundial em bem-estar” reforça a ideia de que se deve demonstrar a direção a
ser seguida. A missão define o motivo pelo qual a empresa existe – do exemplo, é “ofe-
recer qualidade de vida, consumo responsável e sustentabilidade”.

Visão
Ser marca
mundial em
bem-estar.

Missão
Oferecer qualidade de
Design Gráfico: Carlos Henrique Stabile

vida, consumo responsável e


sustentabilidade.

Nosso lema
Preserve o VERDE, o MUNDO é seu!

Fonte: MUNDO VERDE, 2013. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 14

Orientados pela missão, visão e valores, os gestores estabelecem o modelo de


gestão da empresa, que servirá de guia para a condução de suas atividades.
O tomador de decisão eficaz deve ser capaz de aprender a tomar decisões satis-
fatórias norteado pelos objetivos de sua organização. Alguns elementos são essenciais
para aumentar a racionalidade do processo:
• Buscar todo e qualquer dado ou informação de qualidade que possa ser rele-
vante para a tomada de decisão.
• Selecionar a alternativa que maximize a satisfação e a eficiência do tomador de
decisão e minimize as consequências negativas.
O’Brien e Marakas (2012) definem os atributos de uma “informação de qualidade”,
conforme figura a seguir. Nela, os fatores estão distribuídos em três dimensões:
• Tempo (oportunismo, atualidade, frequência e período).
• Conteúdo (precisão, relevância, completude, concisão, escopo e desempenho).
• Forma (clareza, detalhe, ordem, apresentação e mídia).

Fatores de uma informação de qualidade


Design Gráfico: Carlos Henrique Stabile

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 15

Nas figuras a seguir, cada um dos itens será detalhado.

Dimensão
de tempo
Oportunismo
Atualidade
Frequência
Período de tempo

Oportunismo
A informação deve ser fornecida
quando necessário.

Atualidade
A informação deve estar atualizada
quando for fornecida.

Frequência
A informação deve ser fornecida
quantas vezes forem necessárias.
Design Gráfico: Carlos Henrique Stabile

Período de tempo
A informação refere-se a algum
período passado, presente ou futuro.

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 16

Dimensão
de conteúdo
Precisão
Relevância
Completude
Concisão
Escopo
Desempenho

Precisão
A informação não deve conter erros.
Relevância
A informação deve estar relacionada às
necessidades de informações de um receptor
específico em uma situação específica.
Completude
Toda informação necessária deve ser
fornecida.
Concisão
Somente a informação necessária deve ser
fornecida.
Escopo
A informação pode ser de escopo amplo ou
Design Gráfico: Carlos Henrique Stabile

restrito, ou de foco interno ou externo.


Desempenho
A informação pode revelar.

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 17

Dimensão
de forma
Clareza
Detalhe
Ordem
Apresentação
Mídia

Clareza
A informação deve ser fornecida em formato
fácil de entender.
Detalhe
A informação pode ser fornecida de forma
detalhada ou resumida.
Ordem
A informação pode ser organizada em
sequência predeterminada.
Apresentação
A informação pode ser apresentada de forma
narrativa, numérica, gráfica ou outra.
Mídia
Design Gráfico: Carlos Henrique Stabile

A informação pode ser fornecida em forma de


documento impresso, exibição de vídeo
ou outro meio.

Fonte: O’BRIEN; MARAKAS, 2012. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 18

Dependendo da decisão a ser tomada, uma dessas dimensões (ou algum de seus
componentes) será determinante para a escolha da alternativa que maximize a satisfa-
ção e a eficiência do tomador de decisão e minimize as consequências negativas. Por
exemplo, para avaliar o maior retorno sobre investimento (ROI), dadas duas ações (A1
e A2), e quais as consequências se uma delas acontecer antes da outra, é necessário
considerar tanto o ambiente externo quanto o interno.
Machado (1997, p. 86) afirma que um modelo de gestão contempla crenças e va-
lores da empresa e direciona as decisões e ações dos gestores. Assim, de posse de um
dado ou informação de qualidade, o gestor pode avaliar alguns elementos do proces-
so decisório, de modo a melhorar a racionalidade da decisão na escolha e avaliação das
alternativas disponíveis. Esses elementos serão apresentados a seguir. O importante é
que eles sejam observados pelo gestor, no entanto, não é necessário que seja seguida
qualquer ordem de prioridade:
• Estado de natureza: são as condições de incerteza, risco ou certeza que exis-
tem no ambiente de decisão e que o tomador precisará enfrentar.
• Tomador de decisão: indivíduo ou grupo que faz a opção por uma alternativa
em detrimento de diversas outras.
• Objetivos: fins ou resultados almejados com a decisão.
• Preferências: critérios que serão utilizados no momento da escolha.
• Situação: aspectos do ambiente que podem afetar o resultado da decisão, mui-
tos dos quais alheios à vontade, ao controle, ao conhecimento ou à compreen-
são do tomador de decisão.
• Estratégia: percurso que o tomador de decisão escolhe para atingir os objetivos.
• Resultado: consequência da estratégia adotada.
Sistemas de Apoio à Decisão para Business Intelligence 19

Ainda sobre a eficiência do tomador de decisão, Turban e Volonino (2013) apre-


sentam os papéis dos gerentes no processo decisório:

Atividades envolvidas na decisão

Ambiente externo Ambiente interno

Avaliação de informações
relevantes

Design Gráfico: Carlos Henrique Stabile


Análise qualitativa Análise quantitativa

Interpretação: há um problema
ou uma oportunidade?
Não Não
Sim: entrada para tomada de decisão

Decisão: o que fazer

Fonte: TURBAN; VOLONINO, 2013. (Adaptado).

Observe que, nessa figura, tanto os ambientes interno e externo quanto as aná-
lises qualitativa e quantitativa são insumos para o reconhecimento da necessidade e
posterior tomada de decisão. Após os gerentes do processo decisório identificarem o
problema ou a oportunidade, devem observar quatro fases sistemáticas: inteligência,
proposta de modelo (design), escolha e implementação.
Sistemas de Apoio à Decisão para Business Intelligence 20

Fases da decisão

Fase de inteligência
REALIDADE Exame Objetivos organizacionais
Problemas Procedimentos de pesquisa
Oportunidades Coleta de dados
Identificação do problema
Classificação do problema
Formalização do problema

Fase de design
Validação do modelo Formular um modelo (suposições)
Especificar critérios de escolha
Procurar alternativas
Prever e medir resultados (simulação)

Fase de escolha
Verificação e teste da Solução para o modelo
solução proposta Análise de sensibilidade
Seleção da melhor alternativa
Planejar a implementação (ação)

Design Gráfico: Carlos Henrique Stabile


Design de um sistema de controle

Sucesso Implementação da solução

Falha
Fonte: TURBAN; VOLONINO, 2013. (Adaptado).

Chiavenato (2004) divide o processo decisório em seis etapas. A primeira etapa, a


de identificação, procura obter uma visão geral de toda a situação, problema ou opor-
tunidade. Aqui, três aspectos merecem destaque: definição do problema, diagnóstico
das causas e identificação dos objetivos da decisão.
Sistemas de Apoio à Decisão para Business Intelligence 21

Na segunda etapa, a de obtenção de informações sobre a situação, o gestor es-


tuda relatórios, realiza entrevistas, observa a situação, pesquisa sobre o assunto e ve-
rifica acontecimentos anteriores. Essa fase é fundamental para que seja minimizada a
incerteza sobre determinada situação ou problema.
A terceira etapa é dedicada à ge-
ração de alternativas de ação, ou seja,
é nesse estágio que são propostas solu-
ções; mas, a princípio, elas não são ava-
liadas sob nenhum aspecto, inclusive de

© Rawpixel / / Fotolia / / Fotolia. (Adaptado).


viabilidade. Para as decisões programa-

Design Gráfico: Carlos Henrique Stabile


das é sempre mais fácil o levantamento
das alternativas e a escolha da solução.
No entanto, para as decisões não progra-
madas, essa etapa adquire uma complexi-
dade bem maior, principalmente quando
não existem restrições ou qualquer outro
tipo de limitação para a escolha.
Nessa etapa, alguns administradores utilizam uma técnica conhecida por
brainstorming, na qual os membros das equipes propõem alternativas de forma espon-
tânea e qualquer senso crítico é eliminado para que sejam estimuladas as gerações de
alternativas.
Na quarta etapa, as alternativas são avaliadas e comparadas e é escolhida a ação
a ser utilizada. A ação escolhida deve minimizar as consequências negativas e maximi-
zar o ganho, evitando, por exemplo, que uma solução “excelente” para determinado
departamento produza efeitos negativos nos demais.
A quinta etapa é colocar em prática a solução ou curso de ação escolhido na quar-
ta etapa. Pode parecer uma fase fácil, mas envolve muito mais do que simplesmente
dar ordens. Os recursos devem ser escolhidos, adquiridos e alocados e o administrador
deve realizar o planejamento de orçamento de despesas e ganhos, programar ações e
preparar os meios para medir o andamento das atividades e tomar eventuais decisões
corretivas, quando for o caso.
Finalmente, no último estágio, os resultados da solução são monitorados e ava-
liados. Alguns indicadores são utilizados para, por exemplo, mostrar se o desempenho
dos colaboradores está de acordo com as expectativas, apresentar as consequências
no ambiente interno e externo à organização, as respostas dos concorrentes e identifi-
car se determinado problema foi parcialmente ou totalmente resolvido.
Sistemas de Apoio à Decisão para Business Intelligence 22

É importante observar que cada etapa influencia todas as demais. Dependendo


da pressão, algumas etapas são abreviadas ou até mesmo eliminadas (como as etapas
2 e 3). Por outro lado, quando não existe pressão, algumas etapas podem ser amplia-
das. Dessa forma, até que o objetivo proposto seja alcançado, cada decisão leva a ou-
tra, produzindo uma árvore de decisões.

Etapas do modelo decisório

• Identificar a essência do problema ou da oportunidade.


Identificar • Verificar quais os subproblemas ou aspectos da oportunidade.
a situação
• Ter visão holística e não apenas de parte da situação.

• Buscar dados, fatos e informações a respeito.


Obter • Buscar informações em fontes internas e externas.
informações
• Envolver o cliente, usuário ou interessado.

• Desenvolver possíveis soluções.


Formular • Usar criatividade e inovação.
soluções
• Avaliar a relação custo/benefício de cada possível solução.

• Avaliar as alternativas considerando, por exemplo: custo, tempo


Avaliar e e eficácia.
escolher
soluções • Utilizar a escala de pontos para avaliar alternativas.
• Escolher uma solução.

Colocar em • Implantar a solução escolhida.


prática a • Pensar holisticamente, e não localmente.
solução
escolhida • Ser prático para colocar a solução em ação.
Design Gráfico: Carlos Henrique Stabile

• Monitorar o andamento da solução.


Avaliar • Verificar se o problema foi solucionado.
resultados
• Avaliar resultados e consequências.

Fonte: CHIAVENATO, 2004. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 23

Chiavenato (2004, p. 258) apresenta a árvore de decisão para a avaliação de alter-


nativas, conforme a figura a seguir.

Árvore de decisões de avaliação de alternativas

Descartar
alternativa
Não

A alternativa é Descartar
viável? alternativa
Não
Sim
A alternativa é Descartar
satisfatória? alternativa
Não
Sim
A alternativa

Design Gráfico: Carlos Henrique Stabile


resolve o
problema?
Sim
Levar a outras
avaliações

Fonte: CHIAVENATO, 2004.

Observe que a árvore “mostra a sequência de todo o processo de decisão e o des-


dobramento de alternativas de cursos de ação e as decisões seguintes” (CHIAVENATO,
2004). Ou seja, a árvore pode ser “lida” da seguinte forma: iniciando-se no nodo-raiz
“a alternativa é viável?”: se não for viável, a alternativa será descartada. Se, por outro
lado, for viável, será analisado se “a alternativa é satisfatória” – isto é, se atende, pelo
menos de forma aceitável, aos requisitos do problema – e, se não for, será descartada.
Caso contrário, será respondida a questão “a alternativa resolve o problema?”. Se não,
esta será descartada, mas, caso contrário, teremos uma possível decisão e outras ava-
liações serão realizadas.
Sistemas de Apoio à Decisão para Business Intelligence 24

Vimos nesta seção a importância dos cuidados na tomada de decisão. Obser-


vamos que as fases da tomada de decisão propostas por Turban e Volonino (2013) que
abordam a decisão como um ciclo (prevendo o retorno às fases decisórias na ocorrên-
cia de falhas) e as etapas do modelo decisório de Chiavenato (2004) (identificação da
situação e avaliação de resultados) são complementares.

1.2 Conceitos e estrutura de sistemas de apoio à decisão


Atualmente, a informação, apesar de muitas vezes não ser nem tangível nem men-
surável, é considerada um dos elementos mais valiosos porque proporciona “poder” às
organizações.

1.2.1 Sistemas de apoio à decisão e sistemas de informação

© Warakorn / / Fotolia

Um Sistema de Apoio à Decisão (SAD), também chamado de Sistema de Suporte


à Decisão (SSD), segundo Turban et al. (2010), é um sistema de informação, basea-
do no computador e em outros dispositivos eletrônicos, que combina modelos e da-
dos para a proposta de soluções não estruturadas ou semiestruturadas, enquanto os
Sistemas de Informação (SIs) fornecem suporte aos problemas estruturados.

Um sistema de informação, segundo Turban et al. (2010), é aquele que coleta, processa, arma-
zena, analisa e dissemina informações para atingir objetivos organizacionais específicos.
Sistemas de Apoio à Decisão para Business Intelligence 25

Lacombe e Heilborn (2003, p. 451) definem o SAD como um “sistema interati-


vo” que pode dar suporte à análise da resolução de um problema específico, avaliar a
oportunidade estratégica ou ainda fornecer suporte a uma operação em andamento.
Turban e Volonino (2013) mencionam três características essenciais aos SADs:
• Fornecer interface interativa e de fácil utilização.
• Utilizar, por exemplo, modelos que permitam análise de sensibilidade ou aná-
lise what-if e simulação.

Turban et al. (2010) afirmam que um SI, como qualquer sistema, possui entradas (dados, in-
formações), realiza processamento (com o uso de tecnologias) e produz saídas (planilhas, re-
latórios). Eventualmente, um mecanismo de feedback pode ser introduzido para auxiliar no
controle do sistema.

A análise de sensibilidade é um estudo sobre os efeitos que uma determinada mudança, em uma
ou mais variáveis de entrada, causam em uma solução proposta (MOORE; WEATHERFORD, 2005).

• Exploração de bancos de dados internos e externos pode ser utilizada para


auxiliar na resolução, conforme escolha do tomador de decisão.
Para Turban et al. (2010, p. 499), algumas vantagens da utilização de modelos seriam:
• Modelos possuem custos menores quando comparados aos testes em sistemas
reais. Apenas a título de exemplo, vamos tomar um teste de um air-bag: o cus-
to associado a um acidente simulado em um computador é menor se compara-
do ao de um veículo real. Obviamente os testes em modelos não descartam os
testes em sistemas reais, apenas minimizam a necessidade de alguns deles.
• A simulação em modelos demanda menor tempo, ou seja, simulações que de-
morariam décadas na prática podem ser realizadas em segundos em mode-
los, uma vez que estes permitem que se crie ambientes ideais de simulação.
Por exemplo: no teste de um para-raios, pode ser criado um ambiente artificial
para a simulação de tempestades, o que dispensaria a necessidade de aguardar
uma tempestade real.
Sistemas de Apoio à Decisão para Business Intelligence 26

• As variáveis (parâmetros) dos modelos podem ser manipuladas com maior fa-
cilidade, fazendo com que o teste não interfira na rotina diária da organiza-
ção. Por exemplo, uma simulação de impactos ambientais na concepção de um
novo prédio residencial pode ser realizada com a utilização de diversas cores e
materiais distintos para as janelas, sem que isso impacte diretamente na rotina
diária da empresa responsável pela obra.
• Os custos das tentativas e erros são menores em modelos. Por exemplo, a si-
mulação das vendas de uma nova tecnologia embutida em um relógio pode ser
realizada em sistemas de previsão de vendas, até mesmo para que se possa de-
finir o público-alvo do produto e a logística adotada para sua distribuição.
• A modelagem permite a criação de ambientes herméticos de simulação, ex-
cluindo-se agentes externos que introduziriam incertezas. Esses cenários hipo-
téticos permitem a inserção controlada de incertezas e análises do tipo “o que
aconteceria se”, também conhecidas por análises what-if. Segundo Turban e
Volonino (2013), a análise what-if (“e se”) se refere ao teste de hipóteses, supo-
sições ou dados no modelo para verificar quais os impactos dessas mudanças
nos resultados. Por exemplo, se uma previsão de vendas está baseada em um
aumento de 12% na demanda de clientes, uma análise what-if pode determinar
quais os impactos nos resultados se as demandas forem diferentes (abaixo ou
acima dos 12% esperados). Um exemplo prático pode ser observado no merca-
do imobiliário, no qual, por exemplo, espera-se uma redução de 10% nos valo-
res de imóveis em algumas cidades no próximo ano. Mas quais os impactos se a
redução for maior ou menor do que os 10% previstos?
• Os modelos permitem análise e comparação de infinitas soluções alternativas.
Por exemplo: uma mesma camiseta pode ser “produzida” no computador em
diversas cores e modelos. Os possíveis clientes podem optar pela cor e modelo
de sua preferência. A resposta a essa pesquisa simples pode interferir em toda
a cadeia de produção da referida camiseta, mas com impacto mínimo na rotina
da empresa.
A tabela a seguir apresenta um resumo de alguns tipos de sistemas de informa-
ção de suporte, incluindo os sistemas de suporte à decisão. Essa tabela foi baseada nas
proposições de Turban e Volonino (2013, p. 42), excluindo-se alguns tipos de sistemas
e incluindo-se outros, de forma que ficasse adaptada à realidade brasileira.
Sistemas de Apoio à Decisão para Business Intelligence 27

Sistemas de informação
Sistemas de informação Colaboradores suportados Descrição Exemplo de aplicação

Fornece dados e infor-


Visualizações de resulta-
mações rotineiras para
Sistema de Informação dos de vendas e relatórios
Gestores intermediários organizar, planejar e con-
Gerencial (SIG) de vendas semanais de cada
trolar operações em áreas
vendedor.
funcionais.

Supervisão contínua de di-


Combina modelos e da-
versas obras, permitindo
dos para resolução de pro-
intervenção mais rápida em
Sistema de Apoio à Decisão Tomadores de decisão e blemas não estruturados
caso de irregularidades no
(SAD) gestores ou semiestruturados com
orçamento, bem como com-
a participação intensa de
parar os resultados espera-
usuários.
dos com os realizados.

Determinar quais os clien-


Reúne e utiliza grandes
Tomadores de decisão tes mais propensos a ad-
quantidades de dados para
e gestores, com desta- quirir um novo produto ou,
Business Intelligence (BI) análise por meio de visões
que para os gestores do ainda, os clientes mais pro-
analíticas de negócio e téc-
conhecimento pensos a passarem para a
nicas de BI.
concorrência.

Permite que os engenheiros Simulação de resistên-


CAD/CAM Engenheiros realizem o desenvolvimento cias de novos materiais em
e testes de protótipos. automóveis.

Processos jurídicos total-


Sistema de Gestão Automatiza a gestão, o ar-
Funcionários mente automatizados, mi-
Eletrônica de Documentos mazenamento e o fluxo de
administrativos nimizando o trânsito de
(GED) documentos eletrônicos.
papéis.

Base de dados com o regis-


Gestores, com desta- Apoia a coleta, a organiza-
Sistema de Gestão de tro das principais soluções
que para os gestores do ção e o uso do conhecimen-
Conhecimento (GC) para determinado tipo de
conhecimento to em uma organização.
problema em automóveis.

Permite aprendizagem so- Determinar padrões de con-


Mineração de Dados (MD) e bre casos históricos por duta e perfil de criminosos
Gestores do conhecimento
Mineração de Textos (MT) meio da descoberta de pa- em determinados bairros de
drões nas bases de dados. uma cidade.

Fornece suporte aos cola-


Sistema de Gerenciamento boradores que lidam com Permitir acesso ao cadastro
do Relacionamento com o Gestores e atendentes o cliente e precisam tomar e principais questionamen-
Cliente (CRM) decisões rapidamente, nor- tos realizados por clientes.
malmente em tempo real.

Fonte: TURBAN; VOLONINO, 2013. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 28

Convém destacar que todos os sistemas anteriormente mencionados reque-


rem um profissional especialista na área para especificar, desenvolver, testar e validar
a aplicação do sistema escolhido. Por exemplo, para a concepção de um sistema de
mineração de dados para a área de segurança pública, é necessário que profissionais
dessa área estejam disponíveis para a especificação e validação dos resultados.

Mineração de dados é a principal etapa do processo de descoberta de conhecimento em uma


base de dados. Nessa etapa, é realizada a busca por conhecimentos novos e úteis a partir dos da-
dos de entrada (PIATETSKY-SHAPIRO, 1990).

1.2.2 Estrutura dos sistemas de apoio à decisão


Os componentes básicos de um SAD são o banco de dados, a interface com o usuá-
rio e os usuários. Adicionalmente, uma base de conhecimento também pode ser incluída.
• Banco de dados: o SAD utiliza um banco de dados normalmente alimentado
por diversas fontes. Em alguns SADs, os bancos de dados não são preenchidos
apenas por dados digitados – alguns atributos são coletados automaticamente
por sensores, por exemplo.
• Modelo de base: agrupa modelos completos e conjuntos de regras utilizados
para a construção dos SADs. Os tipos de modelos podem ser, por exemplo: o
econômico, o logístico, o estatístico etc. Esses modelos fornecem potencialida-
des de análises estatísticas às aplicações.
• Interface com o usuário: abrange todos os aspectos de comunicação da aplica-
ção com o usuário. Uma interface bem planejada pode aumentar a produtivi-
dade do usuário e minimizar os erros.
• Usuários: um SAD é uma ferramenta concebida para ser utilizada por um
stakeholder que, pela sua estreita relação com o sistema, é considerado uma
de suas partes integrantes. As principais classes de usuários são os gerentes e
especialistas.
• Base de conhecimento: diversos problemas não estruturados e semiestrutura-
dos apresentam uma complexidade que exige perícia para suas soluções. Essa
perícia, ou expertise, pode ser fornecida por uma base de conhecimento e um
sistema especialista.

Um sistema especialista é aquele projetado para simular o conhecimento humano em uma


área específica. Por exemplo, temos sistemas especialistas em jogar xadrez, em diagnosticar
dores no tórax e em prever modificações na bolsa de valores.
Sistemas de Apoio à Decisão para Business Intelligence 29

A figura a seguir ilustra a relação entre os componentes de um SAD.

Fluxo de decisão
Outros sistemas
informatizados

Funções de planilhas eletrônicas


Gerenciamento Modelo de Modelos lineares
Dados
de dados gestão Modelos customizados
(internos e externos)
Internet

Gestão do
conhecimento
Data warehouse

Design Gráfico: Carlos Henrique Stabile


Interface com
Base de o usuário
conhecimento

Melhores práticas

Problemas

Usuário

Solução

Fonte: TURBAN; VOLONINO, 2013. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 30

Alguns aspectos da figura anterior merecem destaque: o usuário, ao se deparar


com um problema (P), utiliza a interface (IU) para ter acesso ao módulo de gestão do
conhecimento e ao processo de gerenciamento dos dados. Estes, por sua vez, têm liga-
ções com os dados internos e externos, modelos de gestão, outros sistemas que possam
ter relevância nessa tomada de decisão e, eventualmente, com o data warehouse (DW) e
a base de conhecimento (BC) da organização. Após a solução do problema (SP) ter sido
encontrada, ela é adicionada à base de conhecimento como “melhores práticas” e fica
disponível para consultas em futuras ocorrências idênticas ou similares.
A próxima figura é um esquema simplificado dos componentes de um SAD e seus
relacionamentos. O problema representado é o seguinte: um cliente, com mais de dez
anos de relacionamento com a empresa e com os pagamentos em dia, ultrapassou em
5% o limite de gastos no cartão de crédito. O sistema utiliza o módulo de gestão para
buscar na base de conhecimento (BC) uma possível melhor prática já cadastrada. Caso
ainda não exista, os outros módulos de gerenciamento de dados e modelo de gestão
são utilizados para a tomada de decisão, que poderia ser, considerando-se o perfil do
cliente, aumentar seu limite em 10%.

Exemplo de SAD
Outros sistemas
informatizados

Dados: cadastro Funções de planilhas eletrônicas


do cliente: nome,
endereço, data de Gerenciamento Modelo de Modelos lineares
nascimento, fatura de dados gestão Modelos customizados
atual.
Internet
Design Gráfico: Carlos Henrique Stabile

Gestão do
DW: histórico: id, conhecimento
gastos realizados,
datas e valores dos
pagamentos.

BC: quais os principais IU: limite de gastos no


procedimentos já cartão ultrapassado em 5%
adotados em casos
idênticos ou similares.

Melhores práticas
SP: usuário com
mais de dez anos de
cadastro, pagamentos em
dia, limite aumentado
em 10%.
Usuário

Solução

Fonte: TURBAN; VOLONINO, 2013. (Adaptado).


Sistemas de Apoio à Decisão para Business Intelligence 31

1.3 Técnicas e ferramentas


A literatura apresenta diversas técnicas quantitativas que podem ser utilizadas
para auxiliar o processo de tomada de decisão. Robbins (2006) resumiu algumas des-
sas técnicas em um quadro.

Técnica Descrição resumida

Esse indicador financeiro enfatiza a relação entre receita, custos e lucros e ajuda os toma-
dores de decisão a determinar se um determinado volume de vendas resultará em prejuí-
Análise do ponto
zo ou em lucro. A análise do ponto de equilíbrio requer que o tomador de decisão conheça o
de equilíbrio
preço da unidade do produto vendida (P), o custo variável por unidade (CV) e os custos fixos
totais (CFT).

Retorno sobre o Esse critério mede a produtividade dos recursos ou lucros como uma porcentagem do capi-
investimento tal investido e viabiliza comparações entre empresas de ramos iguais ou diferentes.

A análise incremental ou marginal ajuda os tomadores de decisão a otimizar lucros ou mini-


Análise marginal mizar custos. A análise marginal lida mais com o custo adicional do que com o custo médio
de uma determinada decisão.

Utilizada para ajudar os tomadores de decisão a licitar contratos, fazer acordos trabalhis-
tas e planos de expansão. Essa técnica emprega modelos matemáticos para analisar conse-
Teoria dos jogos quências de decisões. O tomador de decisão esboça especificamente como serão tomadas
as decisões e atribui probabilidades a todos os resultados possíveis. A análise se concentra
em prever se será alcançado um acordo e, se este ocorrer, qual será sua natureza específica.

Essa técnica utiliza métodos gráficos ou algébricos para otimizar a alocação de recursos.
Programação
Ela supõe que pelo menos duas atividades competirão por recursos escassos e que existe
linear
uma relação linear entre o problema e o objetivo.

Técnica usada para balancear o custo de uma fila de espera comparado ao custo de manu-
Teoria da fila tenção dessa fila. Para determinar quantas bombas são necessárias nos postos de gasolina,
por exemplo, a teoria da fila pode ajudar a maximizar o serviço e minimizar o custo.

Fonte: ROBBINS, 2006, p. 60. (Adaptado).

Técnicas quantitativas para o processo de tomada de decisão.

Essas técnicas podem ser utilizadas em análises simples com o uso de planilhas
eletrônicas. No entanto, já temos disponíveis aplicativos e ferramentas mais sofistica-
dos que podem auxiliar a decisão, como as ferramentas de Business Intelligence (BI).
As primeiras ferramentas de business intelligence de que se tem relato aparece-
ram no início dos anos 1970 e tinham como característica o uso intenso da programa-
ção linear, o que elevava os custos de análise e desenvolvimento. No entanto, com a
adoção dos bancos de dados, dos computadores pessoais, das interfaces gráficas, das
comunicações e, principalmente, das redes locais pelas organizações dos mais diversos
segmentos de atuação, os desenvolvedores de soluções começaram a colocar no mer-
cado produtos direcionados para os tomadores/analistas de decisão com melhores fun-
cionalidades e interfaces mais amigáveis.
Sistemas de Apoio à Decisão para Business Intelligence 32

Business intelligence é um mode-


lo conceitual para suporte à decisão que
combina arquiteturas (estruturas físi-
cas e lógicas de sistemas), ferramentas
de análise e bancos de dados. Os objeti-
vos incluem permitir acesso interativo aos
dados, proporcionar ferramentas de ma-
nipulação e fornecer aos gerentes e ana-
listas de negócio condições de análise e

© Rawpixel / / Fotolia
tomada de decisão (TURBAN et al., 2009,
p. 27). Alguns benefícios sobre o uso e a
aplicação do BI nas organizações são:
• buscar o máximo retorno possível sobre o investimento, criando projetos de
tecnologia alinhados às metas estabelecidas pela organização;
• compreender as tendências (métodos preditivos) dos negócios, melhorando a
consistência (certeza) no momento de decisão de estratégias e ações a serem
tomadas;
• facilitar a identificação de riscos, permitindo que estratégias de contingência
sejam criadas e disseminadas;
• realizar planejamento corporativo mais amplo, com a participação do maior
número possível de colaboradores, mesmo que por meio de tecnologias como
wiki, fóruns, chats etc.;

Banco de dados operacional é uma coleção de itens de dados armazenados de forma orga-
nizada para facilitar a recuperação de dados e informações (TURBAN et al., 2010).

• facilitar o acesso e distribuir informação de modo mais amplo e amigável para


aumentar o envolvimento dos colaboradores da organização;
• minimizar o tempo de oferta de dados estratégicos para análise da ocorrência
real da transação ou evento dentro da empresa.
No começo da década de 1990, a maioria das grandes organizações já dispunha
de Centros de Informação (CI) que, em sua maioria, se restringiam a “estocar” os da-
dos e ofereciam pouca disponibilidade de informação. Ainda assim, auxiliavam na to-
mada de decisão com a geração de “relatórios e gráficos gerenciais”.
Sistemas de Apoio à Decisão para Business Intelligence 33

Com o avanço da tecnologia da informação e o aumento da competitividade empre-


sarial, as organizações passaram a investir em ferramentas que pudessem oferecer infor-
mações precisas e no momento certo para definir ações para a melhoria do desempenho
no mundo dos negócios.
Assim, no início dos anos 1990, surgiu o Data Warehouse (DW), cujo objetivo era
o armazenamento de dados de forma integrada em um único repositório. Sob a ótica
da maioria dos gestores, é importante que a empresa que deseja utilizar ferramentas
de análise de dados e informações disponha de um repositório específico para reunir
os dados já transformados em informações. Esse repositório não precisa ser necessa-
riamente um DW; pode ser desenhado de forma personalizada (para assuntos ou áreas
específicas) ou um banco de dados operacional dedicado ao armazenamento dos da-
dos que serão utilizados na realização das análises e projeções.

Segundo Turban et al. (2010), wiki é uma ferramenta que permite que usuários criem e editem li-
vremente o conteúdo de uma página web por meio de um navegador.
Fórum é um ambiente virtual que serve de apoio para que se possa discutir temas específicos.
Sua interface é assíncrona, por meio de quadro de mensagens, direcionadas a pessoas com
acesso autorizado. As mensagens são estruturadas de forma hierárquica e destacam os assun-
tos das discussões (UFBA, 2007).
Chats são salas de discussão on-line sobre determinado assunto. Também conhecidas como sa-
las de bate-papo, têm como principal característica a comunicação síncrona, ou seja, a possibili-
dade de se enviar e receber mensagens de forma imediata (UFBA, 2007).

Atualmente, a diversidade de produtos de BI é grande e continua em constante


evolução e crescimento tecnológico. As ferramentas de BI têm em comum a caracte-
rística de facilitar a transformação de grandes volumes de dados e informações em um
formato que pode auxiliar os diversos níveis de uma empresa na tomada de decisões.
Sistemas de Apoio à Decisão para Business Intelligence 34

Entre as diversas opções de formato, destacamos as seguintes:

© Sergey Nivens / / Fotolia. (Adaptado).


Design Gráfico: Carlos Henrique Stabile

Algumas planilhas eletrônicas implementam funcionalidades de BI. Os dados


podem ser classificados, organizados e utilizados para a elaboração de relatórios e
scorecards. Também podem ser empregados recursos analíticos para a visualização e
exploração dos dados.

Scorecard é uma ferramenta que fornece a representação visual dos indicadores-chave de desem-
penho (indicadores selecionados que auxiliam as empresas a medir e gerenciar seu desempenho).
Sistemas de Apoio à Decisão para Business Intelligence 35

Área de tarefa Recursos Descrição

Dados nativos são dados que não possuem liga-


ção externa. Isso é normalmente utilizado para
Obter dados Dados nativos análises estatísticas de dados atualizados ma-
nualmente. Por exemplo: registro de boletins de
ocorrência em delegacias especializadas.

Dados externos são dados que residem em outro


computador e são acessados por meio de cone-
xões externas. Essas fontes externas podem ser
arquivos txt, formato nativo de outras planilhas,
Obter dados Dados externos
sites e outros. Por exemplo: obtenção de ende-
reço pela internet quando digitado o Código de
Endereçamento Postal (CEP) em um campo de
cadastro.

Um modelo de dados é um conjunto de dados


que contém várias tabelas. Esses modelos são
utilizados para a união de fontes de dados dis-
tintas, com o objetivo de geração de relatórios,
Trabalhar com dados Modelos de dados scorecards e painéis. Por exemplo: reunir dados
como nome e data de nascimento (base de dados
de cadastro) ou compras realizadas em um perío-
do (base de dados de vendas) para oferta de no-
vos produtos para esse cliente.

A análise de tendência é um conjunto de ferra-


mentas de análise de dados que permite que
sejam realizadas simulações para se verificar
Trabalhar com dados Análise de tendências qual(is) o(s) resultado(s) obtido(s). Por exemplo:
utilizando-se métodos matemáticos e estatís-
ticos, verificar qual é o reflexo da alteração do
dól’ar no orçamento mensal da organização.

Os relatórios podem incluir tabelas e gráficos


Criar relatórios Relatórios
(pizza, coluna, linha, barra e radar, entre outros).

Scorecards são tipos especiais de relatórios que


apresentam se o desempenho obtido está (ou
não) alinhado aos objetivos em uma ou mais
métricas. Os scorecards normalmente utilizam
os indicadores-chave de desempenho (KPIs),
que comparam valores atuais a valores previs-
Criar relatórios Scorecards tos, e usam um indicador gráfico, como cores
ou símbolos, para mostrar, de forma gráfica, o
desempenho.
Algumas planilhas permitem que você utilize
KPIs já disponíveis em um banco de dados, mas
também crie os seus.

Exemplos de recursos em planilhas eletrônicas.


Sistemas de Apoio à Decisão para Business Intelligence 36

Dashboard é uma ferramenta que fornece uma visão abrangente e ao mesmo tempo
resumida do desempenho dos negócios de uma organização. Com uma representação grá-
fica semelhante ao painel de um carro, mostra medidas de desempenho, tendências e ex-
ceções e integra informações de diferentes áreas de negócios (TURBAN et al., 2010)
A solução viabiliza a exploração, visualização e gestão de dados e informações e a
geração de relatórios como forma de monitorar o desempenho e identificar oportuni-
dades de crescimento. Algumas das potencialidades desse tipo de análise podem aju-
dar profissionais de negócio, usuários de TI e desenvolvedores nos seguintes aspectos:
• Transformar dados em relatórios acionáveis, ou seja, transformar dados em re-
latórios que permitam simulações.
• Responder aos questionamentos do negócio, por exemplo: o que acontece se
as vendas diminuírem em 50%.
• Melhorar o processo decisório por meio de apresentações interativas que per-
mitam simulações em tempo real, por exemplo, em dashboards.
• Viabilizar a visão de informações personalizadas, precisas e atualizadas. Nem
todos os usuários devem receber a mesma informação da mesma forma. Por
exemplo: um gestor da área de vendas pode preferir realizar simulações utili-
zando uma planilha enquanto um diretor da mesma área pode preferir a utiliza-
ção dos sliders (como committed e upside).
Agora, vamos abordar um produto que pode se considerado uma ferramenta de
suporte à decisão, o MicroStrategy Business Intelligence corporativo, que nos auxi-
liará a ilustrar alguns conceitos já abordados. Na referida ferramenta existe uma fun-
cionalidade de entrada de dados conhecida como business intelligence de ciclo fechado
(closed-loop), que permite que executivos e demais profissionais passem do insight di-
retamente para a ação de negócios.
Sistemas de Apoio à Decisão para Business Intelligence 37

1. Coleta
de dados
2. Modelagem
de dados

Ciclo fechado BI
5. Ação

3. Relatório

Design Gráfico: Carlos Henrique Stabile


4. Análise

Fonte: MICROSTRATEGY, 2013. (Adaptado).

Os gestores, por exemplo, podem interagir com os relatórios inserindo dados,


aprovando solicitações, ajustando previsões e adicionando comentários. Essas ações
são enviadas aos sistemas transacionais em tempo real, dando início a determinados
processos e, eventualmente, acelerando as atividades de negócios.
A figura a seguir exemplifica um dashboard da base de vendas de uma empresa fictí-
cia. Observe que o gauge representa o desempenho corporativo; o gráfico de linhas, per-
mite visualizar qual região está tendo melhor desempenho (nesse caso, o Sul); o gráfico de
bolhas permite a análise de agrupamentos e evidencia que a venda de eletrônicos, ainda
que não seja tão alta em quantidade, é a que tem o maior retorno financeiro. A ilustração
também apresenta uma tabela, que mostra que o maior número de livros vendidos no pe-
ríodo em análise é de arte e arquitetura.
Essa potencialidade é interessante, pois uma mesma tela pode permitir diversas aná-
lises sobre um mesmo problema. Por exemplo: observamos que na análise de categorias
os livros têm o maior volume de vendas. Essa mesma subcategoria está detalhada na ta-
bela ao lado, na qual se observa que, de todos os livros, os mais vendidos são de ciência e
tecnologia.
Sistemas de Apoio à Decisão para Business Intelligence 38

Em posse dessa informação, decisões estratégicas podem ser adotadas: cam-


panhas para promoção de livros na área de literatura (considerando que o volume de
vendas é o menor observado) ou, ainda, convidar especialistas da área de ciência e tec-
nologia para lançamentos de suas obras nessa empresa.

Design Gráfico: Carlos Henrique Stabile


Fonte: MICROSTRATEGY, 2013. (Adaptado).
Exemplo de um dashboard.

1.4 Considerações finais


No ambiente de alta competitividade no qual as empresas estão inseridas, é funda-
mental que o conhecimento, os dados e as informações utilizados como suporte à toma-
da de decisão tenham qualidade e pontualidade, atributos que podem representar não
apenas o lucro ou a perda, mas também o sucesso ou a falência de toda a organização.
Em 2010, a Avanade®, uma empresa que oferece soluções de tecnologia de ne-
gócios, publicou o resultado de uma pesquisa que demonstrou que, apesar de as em-
presas estarem preocupadas com o acúmulo de dados, 46% dos executivos tomam
decisões incorretas porque se apoiam em informações imprecisas ou desatualizadas. O
estudo, intitulado The Business Impact of Big Data, envolveu 543 empresas de grande
porte em 17 países da América do Norte, Europa e Ásia (AVANADE, 2010).
Sistemas de Apoio à Decisão para Business Intelligence 39

Big data pode ser definido como um enorme conjunto de dados que requer ferramentas pre-
paradas para lidar com grandes volumes, de forma que toda e qualquer informação possa ser
encontrada, analisada e aproveitada em tempo aceitável para tomada de decisão (HILBERT,
2013).

Ainda em 2011, a IDC (International Data Corporation), uma das principais empre-
sas de pesquisa de mercado norte-americana, publicou um relatório segundo o qual o
volume de dados nas empresas dobra a cada 18 meses e as projeções do Gartner sinali-
zam que as bases de dados deveriam aumentar 650% até 2016 (SOARES, 2011).
Segundo Olavsrud (2014), os três Vs (volume, velocidade e variedade) do big data
continuarão crescendo em 2014 e novas ferramentas de análise (inclusive SADs) serão
necessárias para explorar essa grande massa de dados. Olavsrud prevê que novas solu-
ções de banco de dados, análise e visualização irão surgir no mercado.
Na avaliação do vice-presidente da Avanade, Tyson Hartman, as companhias não
estão conseguindo gerenciar seus dados de maneira satisfatória, pois a quantidade de
informações não estruturada está aumentando e a falta de controle está impactando
nos resultados dos negócios. Prova disso é que a pesquisa realizada ainda apontou que
56% dos executivos entrevistados relevaram “sobrecarga de informações” no dia a dia
e 61% disseram que precisariam de acesso direto e rápido para reduzir as incertezas
das decisões (AVANADE, 2010).
Percebe-se que é necessário identificar como, em qual contexto e por quem de-
terminada informação será utilizada e o que ela deve apresentar como características
básicas: exatidão, formato e confiabilidade. Em outras palavras, a tecnologia por si só
não é suficiente para agregar valor aos negócios das organizações; é preciso tecnolo-
gia, dados, informações, conhecimentos e, principalmente, pessoas capacitadas.
Como vimos, as soluções de SAD automatizadas são diversas e a escolha depen-
de das necessidades de cada organização, considerando-se, entre outros aspectos: va-
lor disponível a ser investido, compatibilidade da ferramenta com o atual fornecedor
do banco de dados da organização, compatibilidade da ferramenta com eventuais sis-
temas legados, os relatórios esperados e manutenção e suporte da ferramenta, além
de outros aspectos de análise de sistemas.
Sistemas de Apoio à Decisão para Business Intelligence 40

Referências
AVANADE. Global Survey: the business impact of big data. Disponível em: <http://www.
avanade.com/Documents/Research%20and%20Insights/Big%20Data%20Executive%20
Summary%20FINAL%20SEOv.pdf>. Acesso em: 22/07/2014.
BRASIL FOODS. Site da empresa. Disponível em: <http://www.brasilfoods.com/ri/siteri/
web/conteudo_pt.asp?idioma=0&conta=28&tipo=32151>. Acesso em: 30/09/2013.
CHIAVENATO, I. Administração nos Novos Tempos. Elsevier: Rio de Janeiro, 2004.
HILBERT, M. Big Data for Development: from information to knowledge societies.
Janeiro de 2013. Disponível em: <http://papers.ssrn.com/sol3/papers.cfm?abstract_
id=2205145>. Acesso em: 08/02/2014.
LACOMBE, F.; HEILBORN, G. Administração: princípios e tendências. São Paulo: Saraiva,
2003.
MACHADO, A. C. Sistema de Informações para Gestão Econômica no Comércio
Varejista: estudo dos principais modelos de decisões envolvidos. Dissertação. Faculdade
de Economia, Administração e Contabilidade da Universidade de São Paulo. São Paulo:
1997.
MICROSOFT. Recursos de BI no Excel e nos Serviços do Excel (SharePoint Server 2013).
Disponível em: <http://technet.microsoft.com/pt-br/library/jj219751.aspx>. Acesso em:
07/10/2013.
MICROSTRATEGY. Business Intelligence para a Empresa. Disponível em: <http://www.
microstrategy.com.br/software/business-intelligence/>. Acesso em: 08/10/2013.
MOORE, J. H.; WEATHERFORD, L. R. Tomada de Decisão em Administração com
Planilhas Eletrônicas. 6. ed. Porto Alegre: Bookman, 2005.
MUNDO VERDE. Site da empresa. Disponível em: <http://www.mundoverde.com.br/mis-
sao-e-visao/>. Acesso em: 30/04/2014.
O´BRIEN, J. A.; MARAKAS, G. M. Administração de Sistemas de Informação. 15. ed. São
Paulo: McGraw-Hill, 2012.
OLAVSRUD, T. Big Data: veja 10 tendências para 2014. In: Computerworld. Janeiro de
2014. Disponível em: <http://computerworld.com.br/tecnologia/2014/01/06/big-data-veja-
-dez-tendencias-para-2014/>. Acesso em: 08/02/2014.
PIATETSKY-SHAPIRO, G. Knowledge Discovery in Real Databases: a report on the
IJCAI-89 Workshop. AI magazine, v. 11, n. 4, p. 68, 1990.
ROBBINS, S. P. Administração: mudanças e perspectivas. São Paulo: Saraiva, 2006.
Sistemas de Apoio à Decisão para Business Intelligence 41

SANTOS, E. S.; PONTE, V. Modelo de Decisão em Gestão Econômica. In: Caderno de


Estudos ou Revista Contabilidade & Finanças. Disponível em: <http://www.scielo.br/
scielo.php?pid=S1413-92511998000300004&script=sci_arttext>. Acesso em: 08/02/2014.
SAP. Sap Crystal. Disponível em: <http://www.sap.com/brazil/solutions/sap-crystal-solu-
tions/it-users/index.epx>. Acesso em: 07/10/2013.
SOARES, E. Quase Metade das Empresas Usa Dado Errado para Tomar Decisão. 2011.
Disponível em: <http://computerworld.com.br/gestao/2011/03/28/quase-metade-das-em-
presas-usa-dado-errado-para-tomar-decisao/>. Acesso em: 22/07/2014.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do ne-
gócio. Porto Alegre: Bookman, 2009.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
UFBA. Oficina de Moodle Online: projeto formação de professores para a docência onli-
ne. 2007. Disponível em: <http://www.moodle.ufba.br/mod/resource/view.php?id=12356>.
Acesso em: 08/02/2014.
2 Data warehouse

© everythingpossible / / Fotolia
Este capítulo tem como objetivo apresentar os benefícios dos data warehouses
e data marts, que operam integradamente com os sistemas de informações geren-
ciais para fornecer suporte a níveis mais precisos e coerentes de decisões de negócios.
São explorados também os principais conceitos e ferramentas vinculados aos data
warehouses, notadamente a modelagem multidimensional de dados e os servidores
OLAP, com suas características, fundamentos, tipos e recursos.

Data mart é uma versão reduzida dos data warehouses, com menor custo. Em outras palavras,
podemos dizer que um data mart é um pequeno data warehouse projetado para uma unidade es-
tratégica de negócio ou departamento (TURBAN et al., 2010).

Segundo Turban et al. (2009), data warehouse é um tipo de Banco de Dados (BD)
preparado para dar suporte a aplicações de tomada de decisão ou para agregar dados
oriundos do BD operacional para fins de análise, entre os quais destacamos a análise
de tendências de mercado e o suporte ao planejamento e à tomada de decisão.
O principal benefício trazido pelo data warehouse é a integração e a organização
dos dados de toda a empresa em um formato específico. Esse formato de organização
de dados obedece ao modelo multidimensional, que dá a oportunidade de avaliar si-
multaneamente um mesmo fato sob diferentes pontos de vista e possibilita a desco-
berta de comportamentos e eventos ocultos no grande volume de dados.
Sistemas de Apoio à Decisão para Business Intelligence 44

2.1 Fundamentos
O primeiro disco rígido foi inventado em
1956 pela IBM (modelo 350, parte do compu-
tador IBM 305 RAMAC) e deu início ao pro-
cesso de armazenagem de dados. Esse
dispositivo servia basicamente para o
armazenamento de dados operacio-
nais (aqueles que são gerados du-
rante um processo de atividade-fim,
como um registro telefônico, uma
venda, uma compra, um depósito
bancário etc.). Por exemplo, os regis-
tros de uma venda eram armazena-
dos para propósitos contábeis e fiscais
e continham dados brutos gerados du-
rante os processos da atividade-fim da

Design Gráfico: Carlos Henrique Stabile


© Sara Berdon / / Fotolia. (Adaptado).
organização.
Rapidamente se observou um processo de arma-
zenagem massiva de dados, atingindo o nível em que havia mais dados sendo registra-
dos do que a capacidade de interpretá-los. Esse processo durou décadas e representou
um avanço substancial em termos de tecnologia de negócios.

Comparando aos dias de hoje, podemos observar uma enorme discrepância no


uso da tecnologia de computação. No passado (por volta de 40 anos atrás), o propó-
sito era o mero processamento dos dados, realizado por meio de programas isolados.
Hoje a agressividade do mundo dos negócios requer mais e a tecnologia de compu-
tação visa dar suporte para a tomada de decisões em níveis gerencial e estratégico.
Atualmente, procura-se usar a tecnologia de informação para tornar a empresa mais
inteligente.
Os dados continuam a ser gerados em volume avassalador e sua análise requer
estratégias sofisticadas. Nesse contexto, surgem duas tecnologias que oferecem ferra-
mentas para apoio à alta administração: data warehouse e OLAP.
O data warehouse (armazém de dados) procura integrar, transformar e armazenar
informação em uma disposição e organização que permita sua análise. Semelhante às
bases de dados operacionais, o data warehouse também é uma base de dados, embora
Sistemas de Apoio à Decisão para Business Intelligence 45

apresente características próprias de organização, que em geral assumem os modelos


estrela, floco de neve ou a combinação dos dois.
As bases operacionais visam registrar dados operacionais, ou seja, os dados gera-
dos durante os processos operacionais de uma organização. Esses dados são armaze-
nados em uma estrutura que privilegia a execução das diversas operações de negócio
que transcorrem enquanto a empresa está em funcionamento. Por serem dedicadas
ao processamento de transações, são muitas vezes chamadas de On-Line Transaction
Processing (OLTP). São sistemas dedicados a registrar as transações contidas em de-
terminado domínio e com vistas a satisfazer algum processo de negócio.
O data warehouse é um repositório de dados especial, que mantém estreita rela-
ção com as outras bases de dados existentes em uma organização.
O ambiente que integra um data warehouse obedece a uma arquitetura já estabe-
lecida. Nele podemos ver que a entrada desse repositório de fatos e dimensões é o re-
sultado de um processo chamado ETL (do inglês extract, transform, load – ou “extrair,
transformar, carregar”), que funciona como um tradutor de diversas bases de dados
para um padrão consistente.
O ETL opera em diversas bases operacionais, cujos dados são gerados quando os
processos da empresa estão em atividade. Diversos sistemas armazenam seus dados
em variadas formas, convenções e padrões. Como o data warehouse é um repositório
que faz uso de todos esses dados, eles precisam ser inteiramente compatibilizados, e o
ETL executa essa tarefa.

© Nmedia / / Fotolia
Sistemas de Apoio à Decisão para Business Intelligence 46

A partir do data warehouse construído e alimentado com os dados operacionais


tratados pelo ETL, as saídas são formas variadas, voltadas à análise sofisticada, que
ajudam na tomada de decisões mais inteligentes (decisões que revertam em benefí-
cios), munida de dados mais precisos e valiosos obtidos a partir da análise cruzada de
diversos eventos identificados.
Por exemplo, um supermercado poderia efetuar o processo de ETL sobre suas ba-
ses de dados operacionais de compras e vendas e constituir um data warehouse que
lhe permitisse uma melhor predição de volume de demanda de determinados produtos
em certas épocas do ano. E, com essa informação, poderia aprimorar seu controle de
estoque e elevar margens de lucro.
O data warehouse é preenchido com dados traduzidos ou gerados a partir dos da-
dos operacionais. Ou seja, não se trata da entrada de dados a partir de usuários. Esses
dados são organizados com o propósito claro de permitir a análise e a consulta, não o
registro puro e simples para processamento.
Há algumas características marcantes em um data warehouse (KIMBALL; ROSS,
2002):

1 Conteúdo não volátil.

2
Design Gráfico: Carlos Henrique Stabile

Orientado por assunto.


© garrifrotto / / Fotolia. (Adaptado).

3 Integrado.

2.1.1 Características
Uma base de dados operacional sofre a inclusão de novos dados, em alguns ca-
sos, a todo momento. Por exemplo, uma operadora de telefonia celular registra uma li-
gação ou o envio de uma mensagem de texto (SMS) no momento em que ocorre, para
efeitos de cobrança posterior. Quando uma ligação é encerrada, o registro que arma-
zena seu início precisa ser atualizado para conter a duração total da ligação, visto que
com base nesse dado (duração) será realizada a cobrança. Nota-se, então, que a base
de dados operacional pode sofrer alterações nos dados que armazena. Como os dados
podem ser atualizados, são considerados voláteis.
Sistemas de Apoio à Decisão para Business Intelligence 47

Ou seja, um registro que foi em dado momento incluído poderá ser posterior-
mente alterado ou excluído.
Observe-se que não faz diferença se um sistema de segurança impede algumas
pessoas de alterarem ou excluírem dados da base. Se ela foi projetada para admitir
(mesmo que em situações especialíssimas) essas operações, podemos afirmar que es-
ses dados são voláteis.
Os dados reunidos em um data warehouse não são voláteis. Uma vez armazena-
dos, não mais sofrerão alterações e poderão existir por muitos anos (TANLER, 1998).
Quando atingirem uma idade que torne seu valor desprezível para as análises, poderão
ser removidos. Por esse motivo, os dados são marcados com um selo temporal (times-
tamp), com o qual se poderá avaliar sua idade e seu valor analítico.
Um data warehouse é composto por dados operacionais consolidados e sumariza-
dos e representa uma fotografia de um momento da organização. Assim como em um
filme, que é formado por diversas fotografias em sequência, o data warehouse armaze-
na diversos momentos de um organismo empresarial, visando permitir a comparação
desses momentos para a realização de análises comportamentais com vistas à geração
de informação.
Quando observamos um único fotogra-
ma de um filme, temos uma ideia limitada do
todo. Apenas um momento congelado no tem-
po. Mas quando vários fotogramas são coloca-
dos em movimento, o filme dinâmico nos dá
uma noção muito mais vívida e rica dos aconte-
cimentos e permite até mesmo que possamos
compreender as origens da situação para, as-
sim, supor possibilidades de futuro.
O mesmo ocorre em um data warehouse.
Seu conteúdo não é volátil por tratar-se de um
conjunto de registros históricos que poderão
ser altamente otimizados para efeitos de con-
© ra2 studio / / Fotolia

sulta. Esse aspecto histórico do conteúdo do


data warehouse é normalmente referido como
time-variant (variável ao longo do tempo).
Em uma base operacional, os dados são organizados de forma a facilitar a opera-
ção das aplicações que os produzem e processam. Podemos dizer que os critérios para
organização dos dados são basicamente técnicos e tecnológicos. As tabelas são criadas
e relacionadas para que as aplicações que as utilizam possam realizar sua operação de
Sistemas de Apoio à Decisão para Business Intelligence 48

forma rápida, segura e correta. Normalmente também incluem outros critérios tecnoló-
gicos como escalabilidade e manutenibilidade, além de boas práticas geralmente provi-
das pelas disciplinas da engenharia de software.

Escalabilidade é a capacidade que um sistema apresenta de manter sua operação em um nível


de qualidade considerado aceitável mesmo quando submetido ao crescente aumento na carga
de trabalho.

Manutenibilidade é a capacidade do produto de software ser modificado. As modificações


podem incluir correções, melhorias ou adaptações do software devido a mudanças no ambiente e
em seus requisitos ou especificações funcionais (NBR ISO/IEC 9126-1).

Em um data warehouse, por outro lado, o objetivo principal é a consulta e a aná-


lise para descobrir informações e novos conhecimentos. Nesse sentido, a organização
dos dados é fortemente influenciada pelo tipo de questionamento a que será subme-
tido. Por exemplo, se a organização está interessada em conseguir melhores decisões
no que tange a seu fluxo de caixa, o data warehouse será organizado para armazenar
os dados que descrevem esses fluxos e relacioná-los com outros dados vinculados, de
forma a rastreá-los mais rapidamente.
O projeto de um data warehouse está focado primeiramente em necessidades de
negócio (KIMBALL; ROSS, 2002). Por esse motivo, conceitos e variáveis relacionados à
área de negócio e ao modelo comercial e financeiro da organização certamente terão
forte influência nessa estrutura, que será dedicada a prover o mais rapidamente possí-
vel os cruzamentos de dados mais importantes para a tomada de decisões inteligentes.
Uma organização é composta por di-
versas divisões, departamentos, seções ou
setores. Geralmente, cada uma dessas uni-
dades menores terá algum tipo de suporte
computacional, realizado na forma de apli-
cações desenvolvidas especificamente para
otimizar seus processos operacionais.
Por exemplo, no setor de RH encon-
© vizafoto / / Fotolia

traremos um sistema de folha de paga-


mento que visa fornecer facilidades para a
elaboração e o controle dos pagamentos
Sistemas de Apoio à Decisão para Business Intelligence 49

dos funcionários. Já no departamento financeiro haverá um sistema de contas a pagar


e a receber, visando dar suporte às operações que envolvem o fluxo de caixa da empre-
sa. Geralmente, cada um desses departamentos opera de forma independente e, as-
sim, faz uso de aplicações e bases de dados também independentes.
O data warehouse tem um objetivo integrado, pois visa fornecer subsídios para
a alta administração. Nesse nível estratégico, a organização tem que ser vista como
um sistema completo e integrado de partes articuladas. As perguntas e análises terão
um escopo sistêmico, ou seja, versarão sobre toda a empresa, não apenas suas par-
tes. Quando uma empresa constrói um data warehouse, integra nele os dados de di-
versos departamentos, com o objetivo de realizar análises que evidenciem relações de
desempenho existentes entre os diversos departamentos com vistas a um ganho cor-
porativo. Um Data Warehouse é integrado, isto é, é um repositório derivado de dados
originados de todos os departamentos da empresa. Possui, portanto, um escopo sistê-
mico e possibilita análises que envolvam todas as áreas.
Assim, um data warehouse apresenta um desafio particular em sua implementa-
ção: armazenar dados operacionais provenientes de diversas fontes, não necessaria-
mente compatíveis (KIMBALL; ROSS, 2002).

Documentos Análise de cenários


eletrônicos Data mart
1

Data mart Análise estatística


Sistemas legados 2

Data mart Análise


ETL 3 multidimensional

Sistemas OLTP Data mart


4 Relatórios
Design Gráfico: Carlos Henrique Stabile

Data mart
n
Arquivos isolados Planejamento

Fontes de dados Data warehouse Aplicações de negócios


central
Sistemas de Apoio à Decisão para Business Intelligence 50

Os dados de origem precisarão ser compatibilizados, padronizados e submeti-


dos a convenções para que possam ser inseridos no data warehouse de maneira con-
sistente. Essa etapa geralmente é uma das mais complexas no início do projeto de
qualquer data warehouse e poderá representar a diferença entre o sucesso e o fracasso
do empreendimento. O processo responsável por essa compatibilização é chamado de
Extract-Transform-Load, ou simplesmente ETL.
É concebível, também, que se construa uma versão mais limitada de um data
warehouse, que contenha unicamente dados de determinada área. É possível, por
exemplo, construir um “mini data warehouse” do departamento financeiro com vistas
ao suporte apenas nas tomadas de decisões mais inteligentes dessa área. A ideia será
a mesma: reunir dados derivados de todos os registros operacionais (de natureza fi-
nanceira, nesse caso) e, assim, dar ao departamento financeiro condições de melhorar
suas estratégias. Esse “mini data warehouse” é conhecido como data mart.
Uma forma alternativa de descrever um data mart é considerá-lo uma porção ou sub-
conjunto de um data warehouse. Assim, um data warehouse pode também ser entendido
como um conjunto de data marts que, ao mesmo tempo que compõe o data warehouse,
também constitui visões parciais, dedicadas ao uso dos diversos departamentos.
Por ter um escopo mais restrito, o custo de construção de um data mart é signifi-
cativamente menor que de um data warehouse, o que muitas vezes é um dos motivos
que justificam seu desenvolvimento.
Por exemplo, uma empresa composta por diversos departamentos (financeiro, de
compras, estoque etc.), cada um com seu próprio data mart, poderá construir um data
warehouse que integre todos eles com vistas a potencializar ainda mais os benefícios
que já são oferecidos.
De uma forma geral, os itens de dados presentes dentro de um data warehouse
são conhecidos como fatos. Um fato descreve um evento de interesse registrado e é
caracterizado por uma métrica, que é um valor que descreve uma propriedade numéri-
ca de um fato (KIMBALL; ROSS, 2002).
Sistemas de Apoio à Decisão para Business Intelligence 51

Chamando...

Chamando...

Chamando...

© PureSolution / / Fotolia. (Adaptado); © Happy Art / / Fotolia. (Adaptado).


Chamando...

Chamando...

Design Gráfico: Carlos Henrique Stabile


Chamando...

Por exemplo, consideremos uma empresa de telefonia celular e os registros de li-


gações de seus clientes. Em um dado minuto, por exemplo, são gerados mil registros
de ligação na base operacional. Dessas mil ligações, 820 foram conectadas com suces-
so, mas 180 encontraram o sistema sobrecarregado e não puderam ser completadas.
Esses mil registros da base operacional, quando transportados para o data warehouse
(ou data mart), produzirão três fatos, que são a ocorrência de ligações, das quais algu-
mas foram completadas com sucesso e outras foram rejeitadas. A métrica, nesse caso,
é a quantidade de ligações que se enquadram em cada fato:
• Quantidade de ligações total: 1.000.
• Quantidade de ligações completadas: 820.
• Quantidade de ligações rejeitadas: 180.
Sistemas de Apoio à Decisão para Business Intelligence 52

Imediatamente notamos que os mil registros operacionais não foram inteiramen-


te transportados para o data warehouse, mas sim um resumo essencial do que real-
mente é importante para efeitos de análise de disponibilidade do sistema. Esses são os
fatos brutos (raw facts), e já permitem certo grau de análise e conclusão, mas podem
ser muito enriquecidos quando organizados em dimensões.
Dimensão é um agrupamento de fatos com vistas à filtragem, agrupamento ou
rotulação. Frequentemente, as dimensões apresentam um grande número de atribu-
tos textuais que explicam, no vocabulário da cultura da organização, o significado da
dimensão.
Em nosso exemplo, os fatos relacionados ao volume de ligações feitas, completa-
das e rejeitadas podem ser agrupados em termos do horário em que ocorrem e assim
produzir uma dimensão chamada horário, que permitiria avaliar em quais momentos
do dia a infraestrutura telefônica fica mais sobrecarregada.
Outra dimensão chamada bairro po-
deria ser criada para dispor os mesmos fa-
tos organizados segundo os bairros em
que as ligações foram originadas e, assim,
permitir avaliar quais estão mais bem pro-
vidos de antenas e quais estão menos.
Temos então duas dimensões isoladas (dois
agrupamentos diferentes para os mesmos
fatos) que poderão ser cruzadas para per-
mitir uma conclusão importante: qual bair-
© vizafoto / / Fotolia

ro está menos provido de antenas e em que


momento do dia esse problema se mostra
mais crítico.
Há ainda a possibilidade de criar uma nova dimensão que agrupe os fatos por re-
torno financeiro, ou seja, quanto de lucro cada ligação avaliada fornece. Juntando-se
essa dimensão às outras duas, podemos decidir se os bairros com maiores problemas
são os mais ou menos rentáveis e se devemos ou não investir neles prioritariamente.
Percebemos que os fatos são sempre os mesmos, mas as diversas dimensões pro-
duzem interpretações diferentes e seu cruzamento fornece condições para uma deci-
são estratégica mais sofisticada, que é a motivação primária do data warehouse.

2.1.2 Organização dos dados


A forma de acessar os fatos e as dimensões é o principal fator para o sucesso ou in-
sucesso de um data warehouse e tem um efeito direto e imediato nos resultados.
Sistemas de Apoio à Decisão para Business Intelligence 53

A forma como os dados estão organizados terá impacto significativo na capacida-


de de análise do conteúdo do data warehouse. Há duas grandes vertentes ou modelos
para a organização de dados em um data warehouse:
• Organização dimensional, proposta por Ralph Kimball (KIMBALL; ROSS, 2002).
• Organização normalizada, proposta por Bill Inmon (INMON, 2005).
Na abordagem de Ralph Kimball, os dados estão organizados segundo os fa-
tos e dimensões, que são diretamente derivados da área de negócios que fará uso do
data warehouse/data mart. Por isso, esse modelo tende a prover uma organização de
compreensão intuitiva para o usuário, pois sua terminologia e seus conceitos são os
mesmos usados para construir os fatos e as dimensões. Outra vantagem é que essa or-
ganização costuma apresentar um bom desempenho nas consultas, o que certamente
contribui com os resultados esperados.

Ralph Kimball é PhD em Engenharia Elétrica pela Stanford University. Desde 1982 desenvol-
ve pesquisas e conceitos vinculados ao data warehouse e é o autor da proposta de organização
multidimensional.

Quando organizados dimensionalmente, os fatos assumem o que se chama de


conformação em esquema estrela (star schema). Esse esquema distribui os dados em
tabelas de fatos (que registram as métricas relativas aos eventos de interesse) e ta-
belas de dimensão (que constituem atributos relacionados aos fatos). Nesse caso,
os fatos apresentam uma série de chaves estrangeiras para as diversas dimensões.
Graficamente, temos uma tabela de fatos rodeada e relacionada com inúmeras tabelas
de dimensão, o que lembra a imagem de uma estrela.

Dim_Data Dim_Filial
Id Id
Data Endereço
DiaDaSemana País
Ano Gerente

Fato_Vendas
Id_Data
Id_Filial
Id_Produto
VolumeVendido
Design Gráfico: Carlos Henrique Stabile

Dim_Produto
Id
Exemplo de tabelas no esquema estrela. Descritivo
Marca
Categoria
Sistemas de Apoio à Decisão para Business Intelligence 54

Com as tabelas-fato relacionadas às tabelas-dimensão, temos a possibilidade de


executar consultas com joins envolvendo fatos e dimensões, o que virá a produzir as
diversas interpretações desejadas.

Join é uma operação muito utilizada em sistemas de banco de dados relacionais, que consiste
em vincular linhas de duas ou mais tabelas por meio de algum atributo comum entre elas.

Esse modelo requer que as regras de normalização das tabelas que compõem o
banco de dados sejam relaxadas, o que produzirá um esquema de banco de dados não
normalizado.

Normalização de dados é o processo de aplicar um conjunto de regras que norteiam a organi-


zação dos dados em um banco de dados relacional. Essas regras promovem a armazenagem
consistente e eficiente dos dados, pois reduzem sua redundância (CODD, 1970).

A principal vantagem da organização dimensional é a possibilidade de criação


de consultas mais simples e com melhor tempo de resposta. Por outro lado, a falta de
normalização entre as tabelas cria a duplicação de dados e a possibilidade real de pro-
blemas de consistência. As funcionalidades para garantia de integridade entre os da-
dos têm menos espaço para aplicação. Isso quase nunca é um problema, porque em
geral os dados são inseridos no data warehouse por meio de operações em lote auto-
matizadas que, se programadas com cuidado, evitarão as inconsistências.
O modelo de Bill Inmon respeita de forma estrita as regras de normalização de
bancos de dados relacionais. Como resultado, o que se tem é um conjunto maior de ta-
belas e uma grande quantidade de relacionamentos entre elas. Não existem duplica-
ções ou inconsistências, mas determinados conceitos poderão ser separados em mais
de uma tabela por efeito das regras de normalização.

William (Bill) H. Inmon é um cientista da computação americano a quem se atribui a criação


dos sistemas de data warehouse. Foi ele quem classificou esse tipo de sistema como orientado
por assunto, não volátil, variante no tempo e integrado.
Sistemas de Apoio à Decisão para Business Intelligence 55

O aspecto positivo dessa abordagem é o fato de ter à disposição todas as ferra-


mentas fornecidas pelos sistemas gerenciadores de banco de dados que asseguram a
consistência dos dados, pois a base de dados respeita as regras de normalização.
Após a normalização dos dados, a distribuição gráfica das tabelas em um diagra-
ma lembra (para alguns) a imagem de um floco de neve (snowflake schema), o que ori-
ginou seu nome.

Tabela-detalhe Tabela-detalhe Tabela-detalhe Tabela-detalhe

Tabela-dimensão Tabela-dimensão

Tabela-fato

Tabela-detalhe

Design Gráfico: Carlos Henrique Stabile


Tabela-dimensão

Exemplo de tabelas no esquema floco de neve.

A grande quantidade de tabelas e relacionamentos pode fazer com que algumas


consultas fiquem complexas o suficiente para exigir que o modelo entidade-relacio-
namento (E-R) correspondente seja conhecido pelos usuários. Além disso, essas con-
sultas serão menos intuitivas porque a organização dos dados obedece aos critérios
técnicos, e não de negócios.
Nesse modelo, tabelas de detalhe aparecem para conter os dados que de outra
forma estariam duplicados em diversas tabelas de dimensão. Ao sofrer a normaliza-
ção, o modelo cresce em complexidade, mas diminui a duplicação de dados.
Sistemas de Apoio à Decisão para Business Intelligence 56

2.1.3 Construção
A construção de um data warehouse tem um objetivo claro: ajudar a empresa a
tomar decisões mais inteligentes, embasadas em análises de cruzamentos dos dados
que foram sumarizados a partir de registros operacionais de vários sistemas.
Por tratar-se de uma ferramenta sistêmica, o processo de construção de um data
warehouse pode ser caro, demorado e muito complexo. Os detalhes desse proces-
so têm relação direta com as condições financeiras e tecnológicas da organização no
momento em que o projeto é iniciado. Basicamente, existem dois grandes modelos de
trabalho:
• Modelo bottom-up, proposto por Ralph Kimball (KIMBALL; ROSS, 2002).
• Modelo top-down, proposto por Bill Inmon (INMON, 2005).
Ralph Kimball (KIMBALL; ROSS, 2002) propôs um método de desenvolvimento
de data warehouses conhecido como bottom-up, ou seja, um modelo ascendente. É as-
sim chamado porque se inicia pelo desenvolvimento de data marts dedicados a áreas
de negócio específicas. Entende-se como ascendente porque os data marts prelimina-
res funcionam como pilares para a construção do data warehouse. Como se inicia pelos
fundamentos e então se atinge o topo, é um método que vai de baixo para cima.
Uma virtude evidente dessa abordagem é permitir um avanço progressivo e ga-
nhos em capacidade de análise e inteligência, que se mostram tão logo o primeiro data
mart fique pronto. Também tem o benefício de servir como projeto piloto e dar condi-
ção de experimentação em uma escala mais restrita, em um universo mais controlado.
Por exemplo, um data mart da área de vendas pode ser escolhido para iniciar o proces-
so. Dificuldades tecnológicas e culturais já serão sentidas e poderão ser tratadas mais
rapidamente, servindo de experiência para as etapas posteriores.
Em contrapartida, esse método de
trabalho permite apenas uma visão parcial
das situações que serão vivenciadas no de-
senvolvimento dos próximos data marts.
É possível que a equipe de vendas esteja
culturalmente mais preparada para fazer
uso dessa ferramenta e que as aplicações
usadas por essa equipe forneçam mais fa-
cilmente seus dados operacionais para a
© evildark / / Fotolia

alimentação do data mart do que os ou-


tros setores. Ao se experimentar com certo
Sistemas de Apoio à Decisão para Business Intelligence 57

departamento, pode ser que várias diferenças existentes nos outros departamentos não
sejam percebidas, o que certamente vai gerar dificuldade inesperada e frustrações.
Outro fator impactante é que, ao se construir o data mart sem colocá-lo sob a pers-
pectiva de um sistema integrado (data warehouse), este pode ser organizado para operar
muito bem isoladamente, mas não quando estiver integrado a outros data marts.
Um artefato fundamental para essa abordagem é a construção do barramento, ou
bus, que é o ponto de encontro entre os vários data marts e é constituído por um con-
junto de dimensões de conformidade. Essas dimensões (que serão comuns a todos os
data marts) estabelecerão um conjunto de padrões que permitirá que cada data mart
seja acessado pelo data warehouse.
Assim, desde o primeiro data mart já deverá existir a preocupação com dimen-
sões de conformidade, que deverão ser as mesmas para os próximos data marts. É
possível que a construção do segundo data mart mostre que certas dimensões de con-
formidade não estão em condições de servi-lo tão bem quanto serviram ao primeiro
data mart. Será o caso de adaptar essas dimensões, o que invariavelmente provocará a
necessidade de manutenção no data mart que já estava em atividade.

OLTP Documentos Outras fontes


eletrônicos

ETL

Data mart Data mart Data mart


1 2 3
Design Gráfico: Carlos Henrique Stabile

Barramento de dimensões de conformidade

Processo de construção bottom-up do data warehouse.


Sistemas de Apoio à Decisão para Business Intelligence 58

A resistência em mudar produtos já terminados e em operação (os diversos data


marts) terá que ser vencida em favor de uma visão sistêmica (o futuro data warehouse).
O esforço poderá ser grande, mas, com o barramento em perfeito funcionamento, o
data warehouse proverá o cruzamento de dimensões pertencentes a diferentes depar-
tamentos, o que representa um ganho de valor inestimável para as análises que serão
realizadas.
O modelo proposto por Bill Inmon (INMON, 2005) aborda o data warehouse com-
pleto como o primeiro objetivo, para depois desdobrar os diversos data marts na forma
de visões do conteúdo corporativo. Novamente existe o data warehouse estabelecido
sobre um conjunto de data marts, que operam como pilares.
Nessa estratégia, o processo de construção parte do data warehouse e termina nos
data marts. Por esse motivo, essa abordagem é chamada de cima para baixo (top-down),
ou descendente.

Documentos
OLTP Outras fontes
eletrônicos

ETL

Data warehouse corporativo


Design Gráfico: Carlos Henrique Stabile

Data mart Data mart Data mart


1 2 3

Desenvolvimento top-down.
Sistemas de Apoio à Decisão para Business Intelligence 59

Esse modelo é baseado em um esquema de dados totalmente normalizado e so-


lidamente construído, para depois desenvolver as diversas dimensões que estarão dis-
ponibilizadas pelos data marts. O data warehouse é o núcleo do que se chama Fábrica
de Informações Corporativas (Corporate Information Factory – CIF), que fornece a estru-
tura lógica que conecta todas as dimensões em todos os data marts.
Como ponto forte, esse modelo mostra-se robusto e bastante adaptável a mu-
danças na estrutura do negócio. A produção de novas dimensões sobre os dados já es-
truturados é uma tarefa relativamente simples.
A principal desvantagem da abordagem descendente é seu tempo de desenvolvi-
mento. Os resultados do produto somente são perceptíveis após a conclusão de todo o
trabalho.

2.2 OLAP
Dado que um data warehouse é uma base de dados, as informações nele armazena-
das podem ser analisadas por meio de linguagens de consulta, como SQL. Os dados estão
todos armazenados e relacionados, mas isso não quer dizer que a elaboração das queries
(consultas) seja simples.
As pressões mercadológicas exigem resultados rápidos e de fácil interpreta-
ção. E, em resposta a essa demanda, existem as ferramentas de OLAP (TURBAN;
VOLONINO, 2013).
O on-line analytical processing (processamento analítico interativo), ou simples-
mente OLAP, apresenta-se como um recurso que coopera com o data warehouse e
procura aumentar as oportunidades e estratégias de análise de dados para, com isso,
evidenciar relações e fatos presentes na enorme massa de dados armazenados.
Diferentemente de uma base de dados relacional composta de tabelas relacionadas
por meio de campos simples que funcionam como chaves estrangeiras, uma base OLAP
é constituída por agrupamentos de dados (fatos) diretamente conectados a outros agru-
pamentos de dados (dimensões). Enquanto a estruturação de uma base de dados rela-
cional tem propósito geral, para acomodar diversos tipos de aplicação, a estrutura de
uma base OLAP é dedicada ao processo de análise multidimensional.
Os dados são gerados a partir da interação dos usuários finais com os diversos
sistemas de informação em operação e posteriormente são importados, filtrados
(dado que nem todos os dados são relevantes, os menos importantes são deixados de
lado) e inseridos no data warehouse, onde deixarão de ser dados operacionais e passa-
rão a ser analíticos.
Sistemas de Apoio à Decisão para Business Intelligence 60

Diversas são as oportunidades de pôr um OLAP em operação. Um supermerca-


do, por exemplo, pode construir um OLAP para avaliar o fluxo de estoque de produtos
ao longo do tempo para avaliar as melhores épocas para investir em certos produtos.
Outro exemplo poderia envolver uma empresa de consultas públicas, que alimentaria
sua base de dados com as diversas respostas obtidas em seus questionários e poderia
fazer análises de tendências em certas épocas do ano e em diferentes regiões do país,
para assim perceber as diferenças de tendências em face de condições diversas.

2.2.1 Fundamentos de OLAP


Como sabemos, um data warehouse é composto por uma série de tabelas-fato,
que constituem o registro de métricas sobre eventos relevantes a respeito dos proces-
sos de negócio. Esses fatos estão vinculados a dimensões que são características e de-
talhes dos fatos sob determinado ponto de vista. A análise dessas dimensões se torna
interessante quando existe o cruzamento de diversas delas, permitindo observar suas
influências em conjunto (GORDON; GORDON, 2006).
Por exemplo, poderíamos organizar uma tabela cruzada (cross table) baseada nos
fatos registrados pela empresa de telefonia celular. O fato poderia ser a quantidade de
ligações rejeitadas. Uma forma potencialmente interessante para um analista realizar
avaliações poderia ser dada pela tabela a seguir:

Bairro 1 Bairro 2 Bairro 3 Bairro 4


Manhã 128 54 0 45 Design Gráfico: Carlos Henrique Stabile

Tarde 67 98 13 425
Noite 3 0 0 12

Exemplo do cruzamento de duas dimensões de dados.

Percebemos aqui o cruzamento de duas dimensões (bairro e período) em um


dado mês e a totalização das ligações rejeitadas pelo sistema telefônico em diversos
locais da cidade, em diferentes períodos. Naturalmente, duas dimensões produzirão
uma estrutura tabular, que geometricamente poderia ser chamada de plano, que à se-
melhança do plano da geometria também apresenta duas dimensões.
Sistemas de Apoio à Decisão para Business Intelligence 61

Períodos do dia

Design Gráfico: Carlos Henrique Stabile


Meses

Bairros
Cubo OLAP construído pela superposição de várias tabelas.

Podemos agora imaginar que várias dessas tabelas podem ser geradas, uma para
cada dia, e superpostas ao longo dessa terceira dimensão. Estaríamos assim adicio-
nando um terceiro eixo e todas essas métricas ganhariam a forma de um cubo.
O conceito central dessa ferramenta é o cubo OLAP. Um cubo OLAP é uma orga-
nização simultânea de diversas dimensões. Se imaginarmos o cruzamento de três des-
sas dimensões, teremos condição de visualizar os fatos organizados na forma de um
cubo geométrico, o que origina o nome dessa estrutura.
No entanto, a tecnologia nos permite extrapolar para modelos com mais dimensões.
Por causa dessa capacidade, esse cubo OLAP é muitas vezes chamado de hipercubo.

Em geometria, um hipercubo é um análogo multidimensional de um quadrado (duas dimensões)


e um cubo (três dimensões), ou seja, uma figura geométrica abstrata que apresenta as mesmas
propriedades matemáticas das outras duas formas, mas com mais de três dimensões.

A análise com mais de três dimensões não pode ser graficamente representada,
mas o modelo abstrato pode ser construído e processado e seus resultados podem ser
analisados.

2.2.2 Tipos de OLAP


As primeiras implementações de OLAP operavam unicamente sobre uma estru-
tura multidimensional (esquema estrela) e, por esse motivo, eram muitas vezes chama-
das de OLAP multidimensional ou MOLAP (Multidimensional OLAP) (TURBAN, 2010).
Sistemas de Apoio à Decisão para Business Intelligence 62

Posteriormente, os data warehouses passaram a ser construídos também com


uma organização de dados relacional (esquema floco de neve), o que veio a originar
uma implementação OLAP relacional, chamada de ROLAP (Relational OLAP).
Correntemente, as duas estratégias de organização de dados são aplicadas con-
juntamente, levando a um sistema híbrido denominado OLAP híbrido ou HOLAP
(Hybrid OLAP). A estratégia híbrida procura reunir virtudes dos dois outros modelos,
ou seja, o ótimo tempo de resposta do MOLAP com a escalabilidade do ROLAP.
Há também o Desktop OLAP (DOLAP, OLAP de mesa) e o Web OLAP (WOLAP,
OLAP na web), e outras modalidades ainda podem surgir. Essas variações de OLAP vi-
sam adequar o produto a diferentes restrições tecnológicas, como custos ou arquitetu-
ra de rede.
No entanto, em todos esses casos estamos falando de diferentes implementa-
ções dos mesmos conceitos que visam aos mesmos propósitos.

2.2.3 Recursos de um OLAP


Em uma ferramenta OLAP, o importante é a flexibilidade para realizar transfor-
mações e caminhamentos (deslocamentos para a observação de fatos a partir de ou-
tros relacionados) sobre os diversos fatos organizados em suas diversas dimensões.
Essas transformações, que tornam o OLAP tão produtivo, podem ser operadas inte-
rativamente sem um prévio planejamento, desde que os cubos já estejam construídos.
Partindo do cubo OLAP construído, uma ferramenta OLAP permite sua ex-
ploração interativa e a obtenção de resultados e avaliações de forma progressiva
(ANZANELLO, 2013), por meio de um conjunto de operações comumente presentes.
As dimensões são geralmente organizadas hierarquicamente. Por exemplo, pode-se
ter um conjunto de fatos que registram a contagem de rejeições telefônicas e um con-
junto de dimensões que as relacionam a períodos de tempo e bairros. Uma dimensão
de acumulação mensal pode ser detalhada em uma dimensão semanal.
A figura a seguir ilustra graficamente um caso em que o cubo original apresen-
ta uma dimensão chamada Meses, que está dividida em uma subdimensão chamada
Semanas.
Sistemas de Apoio à Decisão para Business Intelligence 63

Períodos do dia

Meses

Períodos do dia

Bairros

Design Gráfico: Carlos Henrique Stabile


Semanas

Bairros
Avanço progressivo em nível-detalhe por meio de drill-down.
Em nosso exemplo da empresa de telefonia que avalia a tabela cruzada, tínha-
mos a contagem de ligações rejeitadas acumuladas por período do dia (manhã, tarde e
noite), distribuídas por bairros e ao longo do tempo. Com o cubo construído, o analis-
ta poderá selecionar um conjunto de fatos dentro de determinado mês e, conforme a
necessidade, avançar em uma análise mais granular, navegando para uma visualização
semanal dentro daquele mês. Essa análise em detalhamentos progressivos é chamada
de drill-down.
Por outro lado, em muitos casos, o que realmente interessa na análise é uma
quantificação genérica de um conjunto de fatos, que atuará como um resumo ao longo
de uma dimensão. As totalizações podem responder não somente na forma de soma-
tórios ou médias, mas em outras fórmulas definidas pelo analista.
No exemplo da tabela cruzada organizada em um cubo ao longo de vários meses,
um analista poderia realizar uma totalização de certos dados específicos. Por exemplo,
totalizar a contagem de rejeições ao longo de um dado mês, mas considerando apenas
um bairro em particular e em um determinado período do dia (das 16 às 20 horas, por
exemplo).
Assim, gera-se um conjunto de dados que não estavam previamente armazena-
dos no cubo, mas que puderam ser calculados a partir deste. Essa operação é chamada
de roll-up.
Sistemas de Apoio à Decisão para Business Intelligence 64

Se tomarmos o cubo formado pelas diversas tabelas cruzadas de ligações rejei-


tadas e selecionarmos uma delas, referente a um dado mês, estaremos extraindo uma
fatia do cubo. Essa operação é chamada de slicing (fatiamento).

Períodos do dia

Meses

Períodos do dia
Bairros

Um dado
mês

Design Gráfico: Carlos Henrique Stabile


Bairros

Extração de um subconjunto planar do cubo por meio de um slicing.

Por exemplo, o analista poderia estar interessado em avaliar duas fatias do cubo
em questão – uma referente ao mês de dezembro e outra referente ao mês de janei-
ro – e, assim, avaliar a influência desses meses sobre o problema das rejeições. Como
o cubo é constituído por uma (por assim dizer) sucessão de diversas tabelas (uma para
cada dia), o analista extrairia duas tabelas (duas fatias, na terminologia OLAP), que
posteriormente compararia para identificar eventuais relações ocultas.
Sistemas de Apoio à Decisão para Business Intelligence 65

Um analista poderia se sentir atraído por um subcubo do cubo principal, isto é,


um conjunto de dimensões e, dentro destas, por um recorte de apenas alguns dados.
Por exemplo, poderia selecionar alguns bairros de maior interesse (uma dimensão) em
um intervalo de meses específico (que seria um recorte de outra dimensão) e assim
avaliar as rejeições de ligações em alguns bairros em um dado período. A geração de
um cubo a partir de outro é chamada de dicing.

Períodos do dia

Meses
Períodos do dia

Design Gráfico: Carlos Henrique Stabile


Bairros Meses
jun., jul.
e ago.
Bairros X, Y e Z

Extração de um subcubo por meio de um dicing.

A tabela cruzada de ligações rejeitadas foi organizada em linhas de bairros e co-


lunas de períodos do dia. Quando sobrepostas ao longo de meses, geramos um cubo.
No entanto, pode ser interessante avaliar a distribuição das métricas em outra or-
dem de dimensões. Por exemplo, poderíamos ter uma tabela cruzada envolvendo bair-
ros em linhas e períodos do dia em colunas (as duas dimensões foram rotacionadas
em 90 graus entre si) e manter os meses como uma terceira dimensão (profundida-
de). Estaríamos, então, efetuando uma rotação no cubo para uma observação diferen-
te dos mesmos dados. O nome dessa operação é pivoting.
Sistemas de Apoio à Decisão para Business Intelligence 66

Períodos do dia

Bairros

Meses

Design Gráfico: Carlos Henrique Stabile


Bairros

Meses

Períodos do dia

Rotação do cubo por meio de um pivoting.

2.2.4 Comparação entre OLAP e OLTP


As operações OLAP são frequentemente realizadas sobre um data warehouse,
visto que este já apresenta os dados resumidos, agregados e organizados em fatos,
medidas e dimensões.
Os dados utilizados para a realização de operações OLAP estão organizados para
satisfazer a um processo de análise, realizado por um analista de negócios.
O quadro a seguir apresenta um comparativo entre os sistemas OLAP e OLTP.
Uma aplicação OLAP apresenta uma variedade de diferenças quando comparada com
uma aplicação OLTP. Essas diferenças são todas motivadas pelos objetivos inerente-
mente diversos que cada tipo de aplicação apresenta.
Tais diferenças são suficientes para colocar as aplicações OLAP em uma catego-
ria específica. Podemos concluir, então, a partir dessas comparações, que a principal dife-
rença existente entre esses sistemas é que eles são muito próximos e ao mesmo tempo
diferentes.

Critério OLTP OLAP

Operação típica Transação Análise

Granularidade Atômico Agregado


Temporalidade dos dados Os mais atualizados Histórico
Recuperação Poucos registros Muitos registros
Quantidade de usuários Muitos Poucos
Orientação Registros Conjuntos de registros
Consulta Predefinida Dinâmica (ad hoc)
Fonte: TURBAN, 2013.
Comparativo entre OLTP e OLAP.
Sistemas de Apoio à Decisão para Business Intelligence 67

2.3 Ferramentas
Com a popularização do conceito de OLAP e das promessas associadas a ele, di-
versos fornecedores de tecnologia de software passaram a desenvolver e oferecer
produtos voltados para esse tipo de mercado. Em geral, esses produtos procuram en-
quadrar-se como fornecedores de ferramentas de business intelligence. Algumas dessas
ferramentas suportam diversos tipos de organização de dados, como MOLAP, ROLAP
e HOLAP, simultaneamente.
Frequentemente esses produtos permitem a criação de um dashboard com os
mostradores desejados pelo usuário e seu monitoramento por meio de navegadores da
internet, o que confere uma grande facilidade de acesso às informações.
Por questão de conveniência para o usuário e também como um apelo comercial,
é frequente que produtos na área de BI permitam a integração com ferramentas do
tipo office (suítes de aplicativos de utilidade), visando assim aproveitar a cultura dos
clientes para difundir seus recursos.
Alguns produtos oferecem linguagens de consulta especializadas em explorar os
cubos OLAP, como a linguagem MDX (MultiDimensional eXpressions). Do ponto de vis-
ta de programação, existem também APIs disponíveis para linguagens C, Visual Basic,
Java e Pearl, entre outras.

2.4 Considerações finais


Vimos que o data warehouse é o resultado do esforço concentrado no uso da tecno-
logia para fornecer dados que embasem decisões inteligentes por parte de organizações.
Decisões inteligentes são aquelas que produzem benefícios para a organização, diminuin-
do os erros e aumentando os acertos.
Ainda que seja um banco de dados, o propósito de um data warehouse difere dos
sistemas do tipo OLTP em diversos aspectos de seu projeto (não volatilidade dos da-
dos, variância no tempo, integração, modelo floco de neve ou estrela), implementação
(abordagem top-down ou bottom-up) e manutenção.
Hoje em dia, esse tipo de sistema ainda
é predominantemente construído sobre siste-
mas de banco de dados relacionais, visto que
são os mais difundidos. No entanto, a nature-
© Alexander Raths / / Fotolia

za particularmente diversa da organização e


das relações dos dados (notadamente o con-
ceito de dimensão e fato) faz com que esses
sistemas apresentem limitações e empecilhos
Sistemas de Apoio à Decisão para Business Intelligence 68

técnicos que tornam a construção, a manutenção e a seleção dos cubos OLAP mais ca-
ras do que o desejado.
Com o advento dos sistemas no-SQL, abre-se um universo de possibilidades a ser
explorado no futuro. No entanto, é certo que o data warehouse já apresenta um lugar
de destaque nas tecnologias de inteligência de negócios para as próximas décadas e se
tornará progressivamente mais presente nas organizações.

Sistemas de banco de dados no-SQL apresentam uma organização de dados diferente dos rela-
cionais, dando suporte a agrupamentos de dados não homogêneos, além de não exigirem a exe-
cução de comandos por meio da linguagem SQL.

Já as ferramentas de OLAP apresentam-se como um colaborador para viabilizar e


valorizar o uso do rico conteúdo dos data warehouses. As duas ferramentas em conjun-
to oferecem as bases para novas formas de colocar a tecnologia a serviço dos negócios
e garantem vantagem competitiva às organizações.
O propósito de ferramentas OLAP é dar aos usuários a oportunidade de construir
interativamente consultas, gráficos e relatórios, efetuando caminhamentos sobre os da-
dos presentes nos cubos construídos.
A implantação de um data warehouse requer que certas questões sejam respon-
didas. Por exemplo: se uma empresa quer ver resultados muito rapidamente para seu
investimento, poderá preferir uma abordagem bottom-up e começar com alguns data
marts, mas deverá compreender que estes terão que ser adaptados à medida que o
data warehouse for constituído.
Também precisa saber quais questões estratégicas de seu negócio deseja ter res-
pondidas e assim selecionar a bases OLTP que poderão dar origem às diversas dimen-
sões do data warehouse (ou do data mart).
As dimensões escolhidas têm importância fundamental, pois é sobre elas que o
OLAP irá atuar. A escolha incorreta das dimensões levará à construção de cubos com
pouco retorno informacional, o que colocará em risco todo o resultado do projeto.
Sistemas de Apoio à Decisão para Business Intelligence 69

Referências
ANZANELLO, C. A. OLAP: conceitos e utilização. Universidade Federal do Rio Grande do
Sul. Disponível em: <http://www.softsystemit-ead.com.br/phocadownload/BI/Conceitos%
20OLAP.pdf>. Acesso em: 01/10/2013.
CHEN, P. The Entity-Relationship Model: toward a unified view of data. ACM Transactions
on Database Systems, v. 1, p. 9-36, março de 1976.
CODD, E. F. A Relational Model of Data for Large Shared Data Banks. Communications of
ACM, v. 13, p. 377-387, junho de 1970.
GORDON, S. R.; GORDON, J. R. Sistemas de Informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Building the Data Warehouse. 2. ed. Indiana: Wiley, 2005.
KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: the complete guide to dimensional
modeling. 2. ed. Indiana: Wiley, 2002.
SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de Banco de Dados. 5. ed.
Rio de Janeiro: Elsevier, 2006.
TANLER, R. Intranet Data Warehouse. Rio de Janeiro: Infobook, 1998.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
3 Introdução ao KDD
A literatura da área, até o momento, não apresenta um consenso quanto aos ter-
mos utilizados para caracterização das atividades de busca de padrões em conjun-
tos de dados. Entre as diversas denominações encontradas, destacamos: information
recovery, information retrieval, knowledge discovery in database (KDD), data mi-
ning (DM), knowledge extraction, information discovery, data archaeology, information
harvesting e data pattern processing. Esses termos, embora possuam significados dis-
tintos, são muitas vezes tratados como sinônimos.
Neste capítulo vamos abordar a mineração de dados (data mining), uma das eta-
pas do KDD (Knowledge Discovery in Database).
KDD é um processo de pesquisa e identificação de padrões em dados armazena-
dos em bases de dados muitas vezes dispersas e até então inexploradas. O objetivo é
a geração de conhecimento potencialmente útil para aumentar os ganhos, reduzir os
custos, aumentar a competitividade ou melhorar o desempenho do negócio.
O termo foi proposto em 1989 para referir-se às etapas que produzem conheci-
mentos a partir de dados e, principalmente, à etapa de mineração dos dados, que é a
fase que transforma dados em informações (FAYYAD et al., 1996).
Esse processo é interativo e iterativo e envolve uma série de etapas que requerem
do usuário capacidade de análise e tomada de decisão.
Em resumo, o KDD envolve a descoberta e a interpretação de padrões nos dados
por meio da repetição dos algoritmos e da análise de seus resultados.

3.1 Etapas do KDD


Segundo Fayyad et al. (1996), desde a
coleta de dados até a descoberta de conhe-
cimento, o KDD segue um processo iterativo
composto de sete etapas básicas:
1.ª – Integração: definição do tipo de
conhecimento que se pretende descobrir.
Pressupõe a compreensão do domínio da apli-
cação, bem como do tipo de decisão que ne-
cessita desse conhecimento. Nessa etapa,
© venimo / / Fotolia

muitas vezes é necessária a participação do


usuário final do conhecimento descoberto.
Diversas fontes de dados, frequentemente
Sistemas de Apoio à Decisão para Business Intelligence 72

heterogêneas e de diversas origens, podem ser combinadas em uma fonte de dados


comum que será utilizada para descoberta de conhecimento. Por exemplo: podemos
utilizar dados oriundos de bases de dados de vendas, estatísticas da internet e padrões
do Instituto Brasileiro de Geografia e Estatística (IBGE), entre outros.
2.ª – Seleção: fase na qual os dados relevantes ao problema são identificados e pas-
sados para as próximas fases do processo. Por exemplo: nem todos os dados cadastrais
são relevantes para a descoberta de padrões.
3.ª – Limpeza de dados: nessa etapa são realizadas ações para adequar os dados
à ferramenta de mineração: formatação, remoção de ruídos e escolha de estratégias
para processamento de campos de dados ausentes. Por exemplo: campos de dados au-
sentes podem ser preenchidos com a média ou com o valor mais comum.
4.ª – Transformação: tem como objetivo a localização de características úteis
para melhor representação dos dados para atingir o objetivo da tarefa. Assim, há uma
redução do número de instâncias a serem consideradas para o conjunto de dados. Por
exemplo: dependendo do problema, a data de nascimento pode ser transformada em
faixa etária.
5.ª – Mineração de dados (data mining): nessa etapa, os métodos a serem uti-
lizados para a descoberta dos padrões são selecionados e executados. Em alguns ca-
sos é necessário um ajuste meticuloso de parâmetros ao problema. Por exemplo:
uma mesma base de dados pode ser minerada utilizando-se tanto o método C4.5
(QUINLAN, 1993) quanto o Prism (CENDROWSKA, 1987).
6.ª – Interpretação e avaliação dos padrões minerados: nessa fase, de acordo
com o problema, os padrões identificados são avaliados, segundo medidas predefini-
das ou com o auxílio de especialistas na área do problema. Eventualmente, pode haver
a necessidade de retornar às etapas anteriores para ajustes.
7.ª – Implantação ou apresentação do conhecimento descoberto: nessa fase, o
conhecimento descoberto é apresentado ao usuário em uma linguagem acessível para
que este possa entender e interpretar os resultados obtidos.

Apesar da apresentação didática em diversas etapas, é comum a combinação de al-


gumas delas em um único passo. Por exemplo, a limpeza e a integração dos dados po-
dem acontecer em conjunto, como um pré-processamento para a criação da base de
dados na qual será realizada a mineração. A seleção de dados e a transformação tam-
bém podem ser unificadas, com a consolidação dos dados como o resultado da seleção.
Ou, ainda, a seleção pode ser realizada com os dados transformados.
KDD.

Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação

Dados Dados

Dados Dados
Dados
Sistemas de Apoio à Decisão para Business Intelligence

Dados Dados Dados Dados

Dados Dados Dados Dados Padrões Conhecimento


Design Gráfico: Carlos Henrique Stabile

pré-processados transformados

Fonte: FAYYAD, 1996. (Adaptado).

Descoberta de conhecimento em bases de dados.


A figura a seguir (FAYYAD, 1996) destaca apenas cinco etapas do processo de
73
Sistemas de Apoio à Decisão para Business Intelligence 74

a. Seleção: consiste na análise dos dados existentes e seleção dos que serão utiliza-
dos para a descoberta de padrões.
b. Pré-processamento: consiste no tratamento e preparação dos dados para serem
utilizados na mineração. Nessa etapa são identificados e retirados valores inváli-
dos, inconsistentes ou redundantes.
c. Transformação: nessa etapa geralmente são aplicadas técnicas para adequar os
dados ao problema. Por exemplo, do endereço completo é extraído apenas o bair-
ro ou a região dentro da cidade.
d. Mineração: consiste na busca por padrões por meio da aplicação de métodos
específicos.
e. Interpretação: consiste na análise dos resultados da mineração e na geração de
conhecimento para o usuário.
Entre os diversos tipos de descoberta de conhecimento citados por Agrawal,
Imielinski e Swami (1993), destacaremos dois: classificação e associação.

3.2 Data mining


O KDD utiliza métodos da mineração de dados para extrair (ou descobrir) conhe-
cimento em conjuntos de dados. Mineração de dados (Data Mining – DM) é uma das
principais etapas de um processo de KDD. Consiste na construção de modelos para a
descoberta automática de novos fatos e relacionamentos entre dados a partir da apli-
cação iterativa, e muitas vezes interativa, de métodos de busca.
Segundo Fayyad et al. (1996), a mineração de dados é uma das etapas do processo
de descoberta de conhecimento em banco de dados e consiste em algoritmos que desco-
brem padrões em um conjunto de dados.

A mineração de dados, por ser a principal etapa do processo de descoberta de conhecimento


em base de dados (KDD), muitas vezes é utilizada como nome de todo o processo. Por isso são
comuns frases como “minerar a base de dados”.

O termo minerar pressupõe a busca por algo precioso. Minerar dados pressupõe o
“garimpo” em bases de dados em busca de algo que possa oferecer vantagem competi-
tiva às organizações. A mineração pode, então, ter como objetivo descrever ou prever o
comportamento futuro.
A descrição busca por padrões que expliquem resultados ou valores obtidos em
determinados dados ou negócios, e a previsão, com base em registros históricos, tenta
antecipar o comportamento de algum fenômeno ou variável de interesse.
Sistemas de Apoio à Decisão para Business Intelligence 75

Métodos de mineração de dados de análise preditiva são tentativas de se criar,


com o auxílio de um sistema informatizado, uma espécie de “bola de cristal” que apre-
sente uma visão do futuro, prevendo o resultado de um evento ou situação. No en-
tanto, diferentemente da “bola de cristal”, essas ferramentas utilizam como entrada
dados históricos para a descoberta de padrões e relações.
Os métodos descritivos descrevem a base por meio dos padrões encontrados e
também analisam bases de dados históricas.
Os dois métodos são utilizados para examinar de forma automática grandes
quantidades de dados com diferentes variáveis por meio de alguns métodos: agrupa-
mento, árvores de decisão, análise de cestas de compras, modelagem de regressão,
redes neurais e algoritmos genéticos, entre outros.

Tarefas de mineração
de dados

Análise preditiva Análise descritiva

Regras de Design Gráfico: Carlos Henrique Stabile


Classificação ... Regressão Agrupamento ...
associação

Tipos de análise de mineração de dados.


Na busca por indícios que possam relacionar atributos, dados ou fatos, diferentes
estratégias podem ser utilizadas para minerar/garimpar as bases de dados, dentre as
quais destacamos: classificação, agrupamento (clustering), regras de associação e re-
gressão. A seguir, vamos apresentar em detalhes os algoritmos/heurísticas de três des-
sas ferramentas: classificação, agrupamento (clustering) e regras de associação.
A classificação tem como objetivo a divisão do conjunto de dados de entrada em
classes ou categorias. Características identificadas em cada classe podem ser utiliza-
das para a realização de predições para conjunto de dados ainda não classificados. As
classes podem ser binárias (como 0 e 1) ou complexas, como as diversas famílias do
reino animal. Essa é uma das técnicas mais utilizadas, uma vez que classificar é uma
Sistemas de Apoio à Decisão para Business Intelligence 76

tarefa bastante comum entre os seres humanos: classificamos relações (colegas de tra-
balho, familiares, amigos etc.), elaboramos protocolos de comportamento em dife-
rentes lugares e ambientes (quem entra antes, quem senta antes, quem levanta antes
etc.) e criamos preconceitos segundo estereótipos, entre outros exemplos.

© Julien Eichinger / / Fotolia


Em termos práticos, podemos ter classes binárias – se uma pessoa comprará ou não
um produto (veículo, tênis, camiseta, arroz etc.) – ou complexas (quais cores devem ser
utilizadas em um novo tênis). Um método de classificação pode descobrir, por exemplo,
para qual perfil de pessoa devo direcionar a campanha do lançamento de um novo carro
no mercado nacional, de forma que muitas decisões serão orientadas pelos padrões des-
cobertos durante essa classificação. Uma heurística bastante utilizada para essa tarefa é
a C4.5, apresentada por Quinlan em 1993, que é uma variação do método ID3, proposto
pelo mesmo autor em 1986.
Agrupamento (clustering) consiste na busca por similaridades nos dados de entrada,
de forma que seja possível a definição de um conjunto finito de classes ou categorias que os
contenha e descreva. A principal diferença entre agrupamento e classificação é que no pri-
meiro não se tem conhecimento prévio sobre o número de classes possíveis nem a possível
pertinência dos exemplos usados na modelagem, enquanto na classificação isso está defi-
nido no atributo “meta”. Aqui vale a observação de que alguns métodos de agrupamento
utilizam como parâmetro de entrada o número de grupos que serão descobertos, mas não
como eles serão compostos.
A descoberta de grupos homogêneos de clientes é uma das possíveis aplicações e
pode ser utilizada para a definição da estratégia de marketing ou negócio a ser adotado por
determinada empresa. Por exemplo, pode ser utilizada para definir um bairro para a aber-
tura de uma panificadora ou, ainda, para selecionar quais os produtos a serem comerciali-
zados nesse estabelecimento, considerando o perfil dos clientes da região.
Sistemas de Apoio à Decisão para Business Intelligence 77

A descoberta de regras de associações representa padrões encontrados nos da-


dos de entrada, normalmente conjuntos de itens que ocorrem em conjunto. Os méto-
dos de associação podem ser utilizados para encontrar regras, tais como: “se alguém
compra carne e abacaxi, então também compra batata, com uma certeza de 75%”.
Tem como propósito a identificação de padrões de correlação no conjunto de dados
de entrada. Um algoritmo para descoberta de regras de associação é o Apriori, apre-
sentado por Agrawal na ACM SIGMOD Conference em 1993, e é o mais utilizado, com
suas diversas variações.
A regressão consiste na busca por uma função que represente, com a maior apro-
ximação possível, o comportamento apresentado pelo fenômeno pesquisado. A re-
gressão mais conhecida é chamada de linear simples e utiliza uma reta para minimizar
o erro médio entre todos os valores considerados. Uma aplicação de regressão linear é
apresentada por Medeiros e Bianchi (2009) para a previsão de demanda com vistas a
melhorar o planejamento da produção em uma empresa.
Estão disponíveis diversas técnicas/algoritmos/heurísticas que podem ser utiliza-
das na implementação dessas tarefas. O quadro a seguir apresenta algumas delas.

Tarefa Algoritmo
Classificação Árvores de decisão, algoritmos genéticos, redes neurais
Agrupamento Métodos estatísticos
Associação Métodos estatísticos, teoria de conjuntos
Regressão Métodos de regressão e redes neurais

3.2.1 Algoritmos/heurísticas
Aqui vale uma diferenciação entre algoritmo e heurística. Um algoritmo é um
conjunto definido de instruções computacionais que ocorrem em sequência, utilizado
para obter um determinado resultado a partir de dados fornecidos. As heurísticas tam-
bém são algoritmos, mas que se aplicam a problemas complexos que demandariam
muito tempo para serem resolvidos de forma exata. Ou seja, uma heurística nem sem-
pre encontra a melhor solução para um problema, mas a encontra dentro de um tempo
aceitável.
No cotidiano, um algoritmo “simples” pode ser uma linha de montagem de um
carro, por exemplo, e uma heurística pode ser o trajeto a ser seguido do trabalho para
casa considerando os congestionamentos. Observe que, nesse exemplo de heurística,
existe um componente de decisão que foge a um simples conjunto de passos a serem
seguidos.
Sistemas de Apoio à Decisão para Business Intelligence 78

3.2.2 Regras de associação


Regra de associação é um relacionamento da forma “se X, então Y”, ou ainda
“X Y”, sendo que X e Y são conjuntos de itens cuja interseção (X Y) é o conjunto
vazio. Nessa representação, o X é dito antecedente e o Y o consequente da regra. Cada
regra de associação é associada a um fator-suporte, denominado FSup, e a um fator de
confiança, FConf.

© Andrey Kuzmin / / Fotolia. (Adaptado).


Design Gráfico: Carlos Henrique Stabile

A tarefa de descobrir regras de associação consiste em extrair de uma base de da-


dos todas as regras com FSup e FConf maiores ou iguais aos FSupMin e FConfMin, pre-
viamente especificados pelo usuário.
Observe que a definição dos fatores mínimos serve para introduzir uma medida
capaz de distinguir as associações que interessam, dado que as regras geradas em for-
ma binária elevam em muito o espaço de busca de qualquer algoritmo minerador.
Sistemas de Apoio à Decisão para Business Intelligence 79

A descoberta de regras de associação é geralmente executada em dois passos.


1. Um algoritmo determina todos os conjuntos de itens que têm FSup
maior ou igual ao FSupMin especificado pelo usuário. Esses conjuntos são
chamados conjuntos de itens frequentes.
2. Para cada conjunto de itens frequentes, todas as possíveis regras can-
didatas são geradas e testadas utilizando como parâmetro o FConfMin.
Uma regra candidata é gerada por algum subconjunto de itens de um con-
junto de itens frequentes como antecedente da regra e os itens rema-
nescentes do conjunto de itens frequentes como consequente da regra.
Apenas regras candidatas com FConf maior ou igual ao FConf especifica-
do pelo usuário são dadas como saída do algoritmo.

O algoritmo APRIORI é apresentado da seguinte forma:

F1 = {frequent 1-itemsets}
for (k = 2; Fk−1 = Ø; k ++) do begin
Ck = apriori-gen(Fk−1); //New candidates
foreach transaction t ∈ D do begin
Ct = subset(Ck , t); //Candidates contained in t
foreach candidate c ∈ Ct do
c.count ++;
end
Fk = {c ∈ Ck |c.count ≥ minsup };end
Design Gráfico: Carlos Henrique Stabile
© kromkrathog / / Fotolia. (Adaptado).

Answer= ∪k Fk

Fonte: WU; KUMAR, 2009, p. 64.


Sistemas de Apoio à Decisão para Business Intelligence 80

Para a geração de regras (Apriori-gen), o algoritmo é o seguinte:

H1 = Ø / /Initialize
foreach; frequent k−intemset fk , k ≥ 2 do begin
A = (k − 1)-itemset ak-1 such that ak−1 ⊂ fk;
foreach ak-1 ∈ A do begin
conf = support(fk)/support(ak−1);
if (conf ≥ minconf) then begin
output the rule ak−1 ⇒ (fk − ak−1)
with confidence = conf and support = support(fk);
add (fk − ak−1) to H1;
end
end
call ap-genrules(fk , H1);
end

Procedure ap-genrules(fk: frequent k-intemset, Hm : set of m-item


consequents)

if (k > m + 1) then begin


Hm+1 = apriori-gen(Hm);
foreache hm+1 ∈ Hm+1 do begin
conf = support(fk)/support(fk − hm+1);
if (conf ≥ minconf) then
output the rule fk – hm+1 ⇒ hm+1
with confidence = conf and support = support (fk);
else
delete hm+1 from Hm+1;
end
Design Gráfico: Carlos Henrique Stabile
© kromkrathog / / Fotolia. (Adaptado).

call ap-genrules(fk, Hm+1);


end

Fonte: WU; KUMAR, 2009, p. 64.


Sistemas de Apoio à Decisão para Business Intelligence 81

Para analisarmos um exemplo de aplicação do algoritmo Apriori, vamos analisar


cestas de compras de um supermercado para a descoberta de padrões de associações
entre oito itens, com o objetivo de elaborar estratégias de vendas desses produtos
(promoções do tipo “pague dois e leve três” ou “leve dois e ganhe 20% de desconto em
outro”) ou, ainda, apenas alterar a distribuição dos produtos dentro do estabelecimen-
to (aproximando ou afastando alguns deles). Assim, suponha que o próximo quadro in-
dique quem comprou os oito produtos em análise: escova, sabão em pó, arroz, luva,
saco de lixo, trigo, feijão e manteiga. No quadro a seguir, queremos descobrir as regras
de associação com FSupMin = 0,4 e FConfMin = 0,7:

Sabão Saco de
ID Escova Arroz Luva Trigo Feijão Manteiga
em pó lixo

1 NÃO SIM NÃO SIM SIM NÃO NÃO SIM

2 SIM NÃO SIM SIM SIM SIM NÃO NÃO

3 NÃO SIM NÃO SIM SIM NÃO SIM NÃO

4 SIM SIM NÃO SIM SIM NÃO NÃO SIM

5 NÃO NÃO SIM NÃO NÃO NÃO NÃO NÃO

6 NÃO NÃO NÃO NÃO SIM NÃO SIM NÃO

7 NÃO NÃO NÃO NÃO NÃO NÃO NÃO NÃO

8 SIM NÃO SIM NÃO SIM NÃO NÃO NÃO

9 NÃO SIM NÃO SIM NÃO SIM SIM SIM

10 NÃO SIM SIM SIM SIM NÃO SIM NÃO

SupInd 0,3 0,5 0,4 0,6 0,7 0,2 0,4 0,3

Dados de entrada para o algoritmo Apriori.


Após o cálculo do suporte individual (SupInd) e a retirada das colunas que não
apresentaram suporte acima do estabelecido (FSupMin = 0,4), temos a nova situação:
ID Sabão em pó Arroz Luva Saco de lixo Feijão
1 X X X
2 X X X
3 X X X X
4 X X X
5 X
6 X X
7
8 X X
9 X X X
10 X X X X X

Conjunto de dados após o primeiro cálculo de suporte.


Sistemas de Apoio à Decisão para Business Intelligence 82

Na combinação de dois elementos, temos os seguintes suportes e confianças das


regras:
Regra Suporte Confiança

Se sabão em pó, então arroz 0,1 0,2

Se sabão em pó, então luva 0,5 1,0

Se sabão em pó, então saco de lixo 0,4 0,8

Se sabão em pó, então feijão 0,3 0,6

Se arroz, então luva 0,2 0,5

Se arroz, então saco de lixo 0,3 0,8

Se arroz, então feijão 0,1 0,3

Se luva, então saco de lixo 0,5 0,8

Se luva, então feijão 0,3 0,5

Se saco de lixo, então feijão 0,3 0,4

Cálculo de suporte e confiança da combinação de dois elementos.


A combinação de três produtos apresenta os suportes e confianças das regras:

Regra Suporte Confiança

Se sabão em pó, então luva e saco de lixo 0,4 0,8

Se luva, então sabão em pó e saco de lixo 0,4 0,7

Se saco de lixo, então sabão em pó e luva 0,4 0,6

Se luva e saco de lixo, então sabão em pó 0,4 0,8

Se sabão em pó e saco de lixo, então luva 0,4 0,2

Se sabão em pó e luva, então saco de lixo 0,4 0,8

Cálculo de suporte e confiança da combinação de três elementos.

Nas combinações de dois elementos foram encontradas as seguintes regras:


a) Para o conjunto de itens frequentes: sabão em pó, luva, com FSup = 0,5.
• Se sabão em pó, então luva, FConf = 1.
b) Para o conjunto de itens frequentes: sabão em pó, saco de lixo, com FSup = 0,4.
• Se sabão em pó, então saco de lixo, FConf = 0,8.
c) Para o conjunto de itens frequentes: luva, saco de lixo, com FSup = 0,5.
• Se luva, então saco de lixo, FConf = 0,8.
Sistemas de Apoio à Decisão para Business Intelligence 83

Nas combinações de três elementos componentes das regras, para o conjunto de


itens frequentes (sabão em pó, luva e saco de lixo), que apresentam FSup = 0,4, foram
encontradas as seguintes regras:
• Se sabão em pó, então luva e saco de lixo, FConf = 0,8.
• Se luva, então sabão em pó e saco de lixo, FConf = 0,7.
• Se luva e saco de lixo, então sabão em pó, FConf = 0,8.
• Se sabão em pó e luva, então saco de lixo, FConf = 0,8.
Dessa forma, poderíamos sugerir que o sabão em pó, a luva e o saco de lixo fos-
sem colocados em uma promoção conjunta ou, pelo menos, ficassem próximos uns
dos outros. Outra possibilidade seria a combinação desses produtos com outro que
não tem grande volume de vendas.

3.2.3 Classificação
O princípio da classificação é descobrir relacionamentos entre os atributos previsores
e o atributo “objetivo” ou “meta”, de modo a descobrir um conhecimento (ou regra) que
possa ser utilizado para prever uma classe para uma tupla (que nesse caso pode ser enten-
dida como condição) desconhecida, isto é, que ainda não possui uma classe definida.
As formas mais comuns de representação de conhecimento dos algoritmos de clas-
sificação são regras e árvores. Os algoritmos ID3 e C4.5, por exemplo, geram como re-
sultados árvores de decisão, enquanto outros, como Prism e Part, geram regras de
classificação. Outra opção seria a representação por meio de tabelas de decisão imple-
mentada, por exemplo, pelo algoritmo Decision Table. Modelos matemáticos, de regres-
são e redes neurais, também representam resultados de algoritmos como SMO, Linear
Regression e Rede Neural, entre outros.

Raiz

Ramo Ramo Ramo

Nó Nó Nó
Design Gráfico: Carlos Henrique Stabile

Ramo Ramo Ramo Ramo Ramo Ramo

. . . .
. . Folha Folha . .
. . . .
Estrutura de uma árvore de decisão.
Sistemas de Apoio à Decisão para Business Intelligence 84

Observe que na estrutura da árvore aparecem três tipos de nós: raiz (de onde par-
tem os ramos), nós intermediários (ficam entre a raiz e as folhas) e as folhas (de onde
não partem ramos). Os nós ou nodos representam os atributos e os ramos traduzem as
decisões. Cada nó interno da árvore de decisão testa um atributo, cada ramo corres-
ponde ao valor do atributo e cada folha atribui uma classificação (decisão).
Para ilustrar a classificação, Freitas e Lavington (1998) apresentam o seguinte
exemplo: suponha que uma editora de livros publicou um livro chamado Um guia para
restaurantes franceses na Inglaterra. O livro é publicado em inglês, francês e alemão, de
acordo com o país onde é vendido. Suponha também que a editora tem um banco de da-
dos contendo dados sobre seus clientes nos três países: Inglaterra, França e Alemanha.
Seria interessante utilizar esses dados para prever que tipo de clientes estariam
mais interessados em comprar esse novo livro e concentrar os esforços de vendas nes-
ses clientes.

ID Sexo País Idade Comprar

1 Masculino França 25 Sim

2 Masculino Inglaterra 21 Sim

3 Feminino França 23 Sim

4 Feminino Inglaterra 34 Sim

5 Feminino França 30 Não

6 Masculino Alemanha 21 Não

7 Masculino Alemanha 20 Não

8 Feminino Alemanha 18 Não

9 Feminino França 34 Não

10 Masculino França 55 Não

Fonte: FREITAS; LAVINGTON, 1998.


Dados de publicação de livro.
Sistemas de Apoio à Decisão para Business Intelligence 85

Algumas regras descobertas no quadro anterior são:


Se (PAÍS = Alemanha), então COMPRAR = NÃO.
Se (PAÍS = Inglaterra), então COMPRAR = SIM.
Se (PAÍS = França e IDADE <= 25), então COMPRAR = SIM.
Se (PAÍS = França e IDADE > 25), então COMPRAR = NÃO.
O conhecimento descoberto é frequentemente representado na forma de regras
SE-ENTÃO. Essas regras são interpretadas da seguinte maneira:
“SE os atributos preditivos de uma tupla satisfazem as condições no antecedente
da regra, ENTÃO a tupla tem a classe indicada no consequente da regra”.
Um dos métodos mais utilizados para classificação foi apresentado por Quinlan
(1993) e é inspirado no algoritmo ID3 (QUINLAN, 1986). Esse método procura inferir
árvores de decisão por meio da utilização de uma abordagem recursiva de particiona-
mento da base de dados de entrada. Como critérios para a criação das diversas subár-
vores, o método utiliza o cálculo de entropia, conceito apresentado por Shannon e
estudado em disciplinas como Teoria da Informação.
O C4.5, assim como a maioria dos algoritmos de indução de árvores de decisão,
está dividido em duas fases: construção da árvore e simplificação (poda).
Na fase de construção, a árvore é gerada pelo particionamento sucessivo e recur-
sivo dos dados de treinamento (base de dados de entrada). O conjunto de treinamento
é subdividido em duas ou mais partições, dependendo do conjunto de valores de cada
atributo. Esse processo recursivo é repetido até que todos ou a maioria dos exemplos
em cada partição tenham uma classe associada.
Nessa fase, dois pontos merecem destaque: a avaliação do atributo que será utili-
zado para a divisão da árvore em cada ponto e a criação de partições usando o melhor
ponto (atributo). No C4.5, por exemplo, o critério utilizado é o ganho de informação.
São calculados os ganhos de informação dos atributos previsores e aquele que obtiver
o maior ganho será utilizado para a divisão da árvore.
Sistemas de Apoio à Decisão para Business Intelligence 86

O algoritmo C4.5 é o seguinte:

Input: an attribute-valued dataset D


1: Tree = {}

2: if D is “pure” OR other stopping criteria met then


3: terminate
4: end if

5: for all attribute a ∈ D do


6: Compute information-theoretic criteria if we split on a
7: end for

8: abest = Best attribute according to above computed criteria


9: Tree = Create a decision node that tests abest in the root
10: Dv = Induced sub-datasets from D based on abest

11: for all Dv do


12: Treev = C4.5(Dv)

Design Gráfico: Carlos Henrique Stabile


© kromkrathog / / Fotolia. (Adaptado).
13: Attach Treev to the corresponding branch of Tree
14: end for

15: return Tree

Fonte: WU; KUMAR, 2009, p. 3.

Para demonstrar o funcionamento do algoritmo C4.5, vamos propor um exercício


de previsão de movimento em um shopping. O quadro a seguir apresenta o movimen-
to de pessoas em um shopping (pouco-P, médio-M ou muito-Mu), considerando como
atributos previsores o dia da semana (DDS), que, nesse caso, pode ser sexta, sábado
ou domingo; a chuva (se está ou não chovendo) e o clima (quente ou frio).
Sistemas de Apoio à Decisão para Business Intelligence 87

ID Dia da semana Chuva Clima Movimento

1 Sexta Não Quente Pouco

2 Sábado Sim Frio Pouco

3 Sábado Sim Quente Pouco

4 Sexta Sim Frio Pouco

5 Domingo Não Frio Pouco

6 Sexta Não Quente Muito

7 Sábado Não Frio Muito

8 Sexta Não Quente Pouco

9 Sexta Sim Quente Muito

10 Sexta Sim Frio Pouco

11 Sexta Não Quente Médio

12 Sábado Não Frio Médio

13 Domingo Não Quente Médio

Dados de entrada para o C4.5 (padrão de movimento em shopping).


Calcula-se a entropia do conjunto de dados de treinamento com a fórmula dada
por Shannon (X = jMPjIj = – j = 1MPlog2P) por Shannon:

m
H (x) = Σj – 1 PjIj =Σj – 1 Pj log2 Pj

Para calcular essa entropia, apenas o atributo meta é utilizado (o que se quer pre-
ver, nesse exemplo, é o “Movimento”). Considerando-se que, das 13 linhas, 7 contêm
a definição “Pouco”, o cálculo deve ser o seguinte: 7/13. Com a definição “Médio” fo-
ram observados 3 registros em 13 linhas, portanto, 3/13. E, finalmente, com a definição
“Muito” também foram observados 3 registros em 13 linhas: 3/13. Assim, aplicando es-
ses dados à fórmula de Shannon, temos o seguinte cálculo:

Pouco Médio Muito

H(S) = – 7 × log2 7 – 3 × log2 3 – 3 ×log2 3


Design Gráfico: Carlos Henrique Stabile

13 13 13 1 3 13 13
© by-studio / / Fotolia. (Adaptado).

H(S) = 1,4573 bit


Sistemas de Apoio à Decisão para Business Intelligence 88

Passamos então ao cálculo do ganho de informação do atributo “dia da semana”


(DDS):

H(Sexta) = 1,3788
H(Sábado) = 1,5

H(Domingo) = 1

Ganho(DDS) = 0,09946

Calculamos o ganho de informação do atributo “chuva”:

H(Não) = 1,5613
H(Sim) = 0,7219

Ganho(Chuva) = 0,2188

E o ganho de informação do atributo “clima”: 

H(Quente) = 1,5567
H(Frio) = 1,2516

Ganho(Clima) = 0,04139

Finalizando o primeiro nível da árvore, temos os seguintes ganhos:

1.º Chuva
© redkoala / / Fotolia; © azaze11o / / Fotolia; © kanate / / Fotolia. (Adaptado).

2.º Dia da semana


Design Gráfico: Carlos Henrique Stabile

3.º Clima
Sistemas de Apoio à Decisão para Business Intelligence 89

No passo seguinte (segundo nível da árvore), a tabela principal é dividida utilizan-


do-se o atributo “chuva” conforme a próxima figura.

Design Gráfico: Carlos Henrique Stabile


Chuva

Não Sim

Problema de movimento em shopping – raiz da árvore.


Iniciaremos o segundo nível com o quadro da chuva = não:

Segundo nível da árvore para chuva = não


ID Dia da semana Clima Movimento
1 Sexta Quente Pouco
5 Domingo Frio Pouco
6 Sexta Quente Muito
7 Sábado Frio Muito
8 Sexta Quente Pouco
11 Sexta Quente Médio
12 Sábado Frio Médio
13 Domingo Quente Médio

Calculamos a entropia do conjunto para essa tabela:

H(S) = 1,5613

E os ganhos para dia da semana (DDS) e clima:

Ganho(DDS) Ganho(Clima)
H(Sexta) = 1,5 H(Quente) = 1,5219
H(Sábado) = 1 H(Frio) = 1,5850
H(Domingo) = 1

Ganho(DDS) = 0,3113 Ganho(Clima) = 0,3113


Sistemas de Apoio à Decisão para Business Intelligence 90

O maior ganho é o do dia da semana e a árvore passa a ser representada da se-


guinte forma:

Chuva

Não Sim

Design Gráfico: Carlos Henrique Stabile


DDS
Domingo
Sexta Sábado

Problema de movimento em shopping – chuva = não


O maior ganho é o do DDS, que é utilizado para a divisão da tabela. Iniciando pelo
DDS = sexta:
Terceiro nível da árvore para chuva = não e DDS = sexta
ID Clima Movimento

1 Quente Pouco

6 Quente Muito

8 Quente Pouco

11 Quente Médio

Percebe-se que a classe da maioria é “pouco” e é essa a decisão na folha da


árvore.

Chuva

Não Sim
Design Gráfico: Carlos Henrique Stabile

DDS
Domingo
Sexta Sábado

Problema de movimento em shopping – chuva = não, DDS = sexta.


Sistemas de Apoio à Decisão para Business Intelligence 91

Para o DDS = sábado:

Terceiro nível da árvore para chuva = não e DDS = sábado


ID Clima Movimento

7 Frio Muito

12 Frio Médio

Percebe-se que não existe uma classe da maioria e a decisão será realizada pela
maioria da tabela anterior mais próxima.

Chuva

Não Sim

DDS

Design Gráfico: Carlos Henrique Stabile


Domingo
Sexta Sábado

P P

Problema de movimento em shopping – chuva = não, DDS = sábado.


Finalmente, para DDS = domingo:

Terceiro nível da árvore para chuva = não e DDS = domingo


ID Clima Movimento

5 Frio Pouco

13 Quente Médio
Sistemas de Apoio à Decisão para Business Intelligence 92

Fica evidente a decisão: quando o clima é frio, há pouco movimento no shopping,


e quando está quente, o movimento é médio.

Chuva

Não Sim

DDS
Domingo
Sexta Sábado

P P Clima

Design Gráfico: Carlos Henrique Stabile


Frio Quente

P M

Problema de movimento em shopping – chuva = não, DDS = domingo.


Vamos considerar, agora, chuva = sim:

Segundo nível da árvore para chuva = sim


ID Dia da semana Clima Movimento
2 Sábado Frio Pouco
3 Sábado Quente Pouco
4 Sexta Frio Pouco
10 Sexta Frio Pouco
9 Sexta Quente Muito

Calculamos a entropia do conjunto:

H(S) = 0,7219

E os ganhos dos atributos “DDS” e “clima”:


Ganho(DDS) Ganho(Clima)
H(Sexta) = 0,9183 H(Quente) = 1
H(Sábado) = 0 H(Frio) = 0,0000
H(Domingo) = 0

Ganho(DDS) = 0,1710 Ganho(Clima) = 0,3219


Sistemas de Apoio à Decisão para Business Intelligence 93

Problema de movimento em shopping – chuva = sim.

Chuva

Não Sim

DDS Clima
Domingo Frio Quente
Sexta Sábado

P P Clima

Design Gráfico: Carlos Henrique Stabile


Frio Quente

P M

O maior ganho é do clima.


Passamos então à divisão da tabela pelo atributo “clima”. Iniciando com o clima =
frio:
Terceiro nível da árvore para chuva = sim e clima = frio
ID Dia da semana Movimento

2 Sábado Pouco

4 Sexta Pouco

10 Sexta Pouco

Observe que todas as instâncias apresentam “pouco” no atributo “meta”.

Chuva

Não Sim

DDS Clima
Design Gráfico: Carlos Henrique Stabile

Domingo Frio Quente


Sexta Sábado

P P Clima P

Frio Quente

P M
Sistemas de Apoio à Decisão para Business Intelligence 94

Finalmente, consideramos clima = quente:

Terceiro nível da árvore para chuva = sim e clima = quente


ID Dia da semana Movimento

3 Sábado Pouco

9 Sexta Muito

Fica evidente a decisão: quando o dia da semana é sábado, existe pouco movi-
mento no shopping, e quando o dia da semana é sexta, o movimento é grande.

Chuva

Não Sim

DDS Clima
Domingo Frio Quente
Sexta Sábado

P P Clima P DDS

Frio Quente

Design Gráfico: Carlos Henrique Stabile


Sexta Sábado

P M Mu P

Problema de movimento em shopping – chuva = não, DDS = sábado.


A árvore pode ser utilizada para, por exemplo, classificar novas instâncias:

ID Dia da semana Chuva Clima Movimento

1 Sábado Não Quente ??

2 Domingo Não Frio ??

3 Sexta Sim Quente ??

Novas instâncias para serem classificadas.


Sistemas de Apoio à Decisão para Business Intelligence 95

As classificações de exemplos desconhecidos podem ser realizadas simplesmente


caminhando-se pela árvore de decisão criada. Para os exemplos mencionados:

ID Dia da semana Chuva Clima Shopping

1 Sábado Não Quente Pouco

2 Domingo Não Frio Pouco

3 Sexta Sim Quente Muito

Classificação das novas instâncias utilizando a árvore de decisão.


Para o ID = 1, por exemplo, para a condição: dia da semana = sábado, chuva = não
e clima = quente, então há pouco movimento no shopping.

3.2.4 Clustering
Essa tarefa também é conhecida por agrupamento e é utilizada para particionar
as instâncias de uma base de dados em grupos de tal forma que os componentes de
cada grupo apresentem propriedades comuns que os diferenciem dos elementos dos
outros grupos. Observe que, mesmo instintivamente, as pessoas visualizam os dados
segmentados em grupos, como tipos de plantas ou animais.
A análise de clusters envolve a organização de um conjunto de padrões (normal-
mente representados por vetores de atributos ou pontos em espaços multidimensio-
nais) em grupos, considerando alguma medida de similaridade.
Podemos perceber que instintivamente temos a tendência de agrupar elementos
que possuem características semelhantes, ou seja, compartilham alguma propriedade,
e são justamente essas propriedades que permitem a criação de rótulos para cada gru-
po. Por exemplo, podemos agrupar frutas (estação, peso, cores etc.), verduras (esta-
ção, maço, peso, cores etc.), clientes (esportista, sedentário, homem, mulher, criança,
idoso etc.) e pessoas (baixa, alta, obesa, magra, mulher, homem etc.), entre outros.
Existem diversas técnicas e métodos de clustering disponíveis: K-Means, Fuzzy
K-Means, K-Modes e K-medoid, entre outros.
Segundo Carlantonio (2001), os requisitos que os algoritmos de clustering preci-
sam ter para que tenham melhor desempenho são:
a. Descobrir clusters com formato arbitrário: o formato dos grupos, consideran-
do-se o espaço euclidiano, pode ser esférica, linear, alongada, elíptica, cilíndri-
ca etc.
Sistemas de Apoio à Decisão para Business Intelligence 96

n
A distância euclidiana é calculada com a fórmula Dp,q = Σi = 1 (pi – qi) , enquanto a de Manhattan
2

n
(também conhecida por city block) é calculada com a fórmula Dp,q = Σi = 1 |pi – qi |.

b. Identificar grupos de tamanhos variados: conforme dito no item a, alguns mé-


todos encontram grupos com formatos, tamanhos e densidades similares. No
entanto, grupos de tamanhos variados também são úteis para, por exemplo, a
identificação de exceções.

Diversos tipos de medidas de distância podem ser encontrados em uma obra intitulada
Encyclopedia of Distances, de Deza e Deza (2009).

c. Aceitar diversos tipos de variáveis de entrada: alguns métodos aceitam apenas


variáveis numéricas, enquanto outros apenas categóricas. Quanto maior for a
aceitação do método, por variáveis de diversos tipos – por exemplo: intervala-
das, binárias, nominais (categóricas), ordinais, escaladas em proporção ou, ain-
da, combinações livres desses tipos de variáveis –, mais próximo da realidade
ele estará, pois em um mesmo problema podemos encontrar variáveis de tipo-
logias variadas.
d. Ser insensível à ordem de apresentação das instâncias: a ordem das variáveis
de entrada não deve influenciar a qualidade dos grupos descobertos.
e. Trabalhar com objetos que apresentem qualquer número de atributos (dimen-
sões): os métodos devem permitir trabalhar com objetos com altas dimensões
(ou diversos atributos) e fornecer resultados inteligíveis.
f. Fornecer resultados interpretáveis e utilizáveis: essa é uma característica desejável de
qualquer método de mineração de dados. Os resultados obtidos devem ser facilmen-
te interpretados e utilizáveis.
g. Ruídos: a presença de ruídos não deve influenciar na qualidade dos grupos
obtidos.
h. Aceitar restrições: os métodos devem ser capazes de encontrar grupos de dados
que satisfaçam as restrições especificadas.
i. Número de clusters: encontrar o número ideal de clusters de um conjunto de objetos
é uma tarefa árdua, ao ponto de alguns métodos exigirem que o número de grupos
seja previamente definido.
Sistemas de Apoio à Decisão para Business Intelligence 97

É interessante observar que nenhuma técnica de agrupamento atende a todos es-


ses requisitos anteriormente listados e que estes são compilações de diversos autores.
Os métodos mais utilizados são os hierárquicos e de particionamento.
Carlantonio (2001) menciona ainda que a decomposição hierárquica pode ser re-
presentada por um dendograma, no qual uma árvore é gerada de forma interativa e di-
vide a base de dados em subconjuntos menores até que cada subconjunto seja apenas
um objeto. Nesse tipo de representação, cada nodo da árvore representa um grupo da
base de dados e pode ser criado de duas formas:
a. Abordagem bottom-up ou aglomerativa (agglomerative clustering): cada item
de dado é considerado um grupo de dados que são recursivamente unidos até
produzir um agrupamento final. Essa abordagem é composta pelos seguintes
passos:
• Inicialmente, cada objeto corresponde a um grupo.
• A cada iteração, os objetos ou grupos mais próximos são agrupados.
• Esse processo é repetido até que todos os objetos fiquem em um único grupo
ou um critério de parada previamente definido seja atingido (número máximo
de iterações, por exemplo).
b. Abordagem top-down ou divisão (divisive clustering): o conjunto de todos os
dados é considerado como um grupo que é recursivamente dividido para pro-
duzir uma conformação final. Nessa abordagem, os seguintes passos são
executados:
• Inicialmente, todos os objetos são alocados em um mesmo grupo.
• A cada iteração, os grupos são divididos em grupos menores.
• Esse processo é repetido até que cada grupo contenha um único objeto ou um
critério de parada previamente definido seja atingido (número máximo de ite-
rações, por exemplo).
O K-Means é um método de particionamento executado de acordo com os se-
guintes passos (FONTANA; NALDI, 2009):
• Passo 1: os primeiros k “centros” dos aglomerados/agrupamentos são escolhi-
dos aleatoriamente.
• Passo 2: cada objeto é atribuído ao grupo associado com o centro mais próxi-
mo (rotulação).
• Passo 3: é calculado um novo centro para cada grupo (média dos valores de to-
dos os objetos – centroide).
Sistemas de Apoio à Decisão para Business Intelligence 98

• Passo 4: os passos 2 (com os novos centros) e 3 são repetidos até que não haja
mudança nos centros ou outro critério de parada seja atingido (por exemplo,
número máximo de iterações).
As figuras a seguir representam a aplicação dos dois primeiros passos do
K-Means, supondo uma base de dados com 20 instâncias, com dois atributos contí-
nuos, e considerando k = 3 (ou seja, três grupos: azul, vermelho e cor-de-rosa).

Design Gráfico: Carlos Henrique Stabile


Inicialização das médias Atribuição dos rótulos

K-Means – inicialização e atribuição de rótulos.

Na sequência, as médias (pontos médios) de cada grupo são atualizadas, conside-


rando-se a nova configuração dos grupos.

Design Gráfico: Carlos Henrique Stabile

Atualização das médias Nova atribuição de rótulos e


atualização das médias

Atualização dos pontos médios e atribuição de rótulos.


Sistemas de Apoio à Decisão para Business Intelligence 99

Em um exemplo prático, suponha uma base de dados de um supermercado com


apenas 15 linhas (instâncias) e dois atributos: valor da compra e quantidade de itens
comprados. Gostaríamos de criar três grupos de clientes: ouro, prata e bronze, para
direcionar melhor a próxima promoção do supermercado. Para essa aplicação, vamos
utilizar o K-Means. Como é apenas um exemplo teórico, vamos utilizar a ferramenta li-
vre Weka para a mineração e análise dos resultados.

1 51 12
2 49 15
3 47 18
4 46 22
5 50 18
6 80 32
7 74 32
8 69 31
9 75 33
10 85 38
11 108 65
12 128 57
13 131 50
14 123 39
15 142 50

Dados de entrada para o K-Means.


Com esses dados, o K-Means criou três grupos com as seguintes coordenadas
para os centroides:

Grupo

Base completa 0 1 2
Atributo
(15) (5) (5) (5)

Valor da compra 83,8667 48,6 76,6 126,4

Quantidade de
34,1333 17 33,2 52,2
itens

Classe Ouro Ouro Prata Bronze


Sistemas de Apoio à Decisão para Business Intelligence 100

Em uma análise rápida, percebemos que os clientes “ouro” possuem valor de com-
pra “em torno” de 48,60 e uma quantidade “em torno” de 17 itens (valor médio por pro-
duto de 2,86 un.). Os clientes “prata” possuem um valor de compra maior e a quantidade
de itens também superior, diminuindo o valor médio de cada produto para 2,31 un. Já os
clientes “bronze” possuem tanto valor de compra quanto quantidade de itens superio-
res aos outros dois, e o valor médio dos produtos de 2,42 un.
Utilizando essa análise, o estabelecimento poderia então criar estratégias para
que os clientes “bronze” e “prata” passem a consumir os produtos que, normalmente,
os clientes “ouro” estão comprando.

Fonte: WEKA, 2014.

Resultado do K-Means
cluster 0 (azul) = grupo Ouro
cluster 1 (vermelho) = grupo Prata
cluster 2 (verde) = grupo Bronze

Perceba que, na análise de agrupamentos, os grupos são construídos com base na


semelhança entre os elementos. Em seguida, um avaliador deve analisar os grupos for-
mados e decidir se as semelhanças são significantes e relevantes.
Vale destacar que a análise de agrupamentos pode ser utilizada como uma técnica
preliminar, quando nada ou pouco se sabe sobre os dados.
Sistemas de Apoio à Decisão para Business Intelligence 101

3.3 Aplicativos
Diversas ferramentas para mineração de dados estão disponíveis na internet,
dentre as quais destacamos: RapidMiner, Linguagem R e Weka. A seguir, apresentamos
alguns pacotes de aplicativos freeware e shareware para mineração de dados listados.

Visite o site Kdnuggets, uma das principais fontes de pesquisa na área de mineração de dados.

Ferramentas para mineração de dados


Ferramenta Descrição
ADaM – Algorithm Development and Mining Software usado para mineração de dados em bases de sensoriamento remoto e
Version outros dados científicos.

Alteryx Project Edition Versão freeware do Alteryx, oferece a capacidade de análise e recursos de com -
partilhamento, mas apenas para resolver um problema de negócios ou comple -
tar um único projeto.
ELKI – Environment for Developing KDD – Ambiente em Java que inclui agrupamento, detecção de outlier e outros algorit-
applications supported by index-structures mos para descoberta de conhecimento em base de dados.
Gnome Data Mining Tools Pacote de aplicativos que inclui os métodos Apriori, árvores de decisão e classi -
ficadores bayesianos.
SCaVis – Scientific Computation and Ambiente de computação científica, análise e visualização de dados. Projetado
Visualization Environment para cientistas, engenheiros e estudantes.
KEEL Inclui algoritmos de extração de conhecimento, pré-processamento, aprendiza -
do de regras evolucionário e sistemas fuzzy.
KNIME Plataforma de trabalho gráfica amigável para todo o processo de análise (acesso
a dados, transformação de dados, investigação inicial, análises preditivas, visua -
lização e comunicação).
MiningMart O projeto visa às novas técnicas que dão acesso direto às informações armaze -
nadas em bancos de dados, data warehouses e bases de conhecimento. O objeti -
vo principal é a integração de dados e a gestão do conhecimento. Gratuito para
aplicações não comerciais.
ML-Flex Pacote de software de código aberto projetado para permitir o processamen -
to flexível e eficiente de dados para as análises de aprendizagem de máquina
(classificação).
Orange Ferramenta open source para análise e visualização de dados.
PredictionIO Ferramenta open source para desenvolvedores e engenheiros de dados para a
criação de predições, como descoberta de conteúdo.
RapidMiner Ferramenta open source para a descoberta de conhecimento e mineração de
dados.
Rattle Pacote para mineração de dados que utiliza a Linguagem R, gráficos, agrupa -
mento e modelagem.
Tanagra Oferece uma interface GUI e métodos de acesso, análise estatística, seleção de
atributos, classificação, agrupamento, visualização e associação.
Weka Coleção de algoritmos de aprendizado de máquina para tarefas de mineração de
dados. Desenvolvido em Java, está disponível para diversas plataformas.
Sistemas de Apoio à Decisão para Business Intelligence 102

Observe que estão disponíveis diversas opções de software, entre as quais apre-
sentaremos em detalhes uma delas, o Weka (Waikato Environment for Knowledge
Analysis), uma ferramenta open source desenvolvida em Java e disponibilizada, atuali-
zada e mantida pela Universidade de Waikato, na Nova Zelândia.

Machine learning é um ramo da inteligência artificial cuja ocupação é construir e estudar siste-
mas que possam aprender a partir de dados.

Interface da ferramenta Weka

Fonte: WEKA, 2014.

A ferramenta possui opções de importação de dados, por exemplo, de algumas


planilhas eletrônicas, e também possui um formato de arquivo próprio, com a extensão
ARFF. Para mostrar um exemplo desse formato, vamos utilizar uma tabela clássica em
mineração de dados sobre a previsão de ocorrência de um jogo, considerando como atri-
butos previsores a aparência do dia (ensolarado, nublado ou chuvoso), temperatura (atri-
buto contínuo), umidade (atributo contínuo) e vento (se existe ou não), com o método
J4.8, que é uma implementação em Java com algumas modificações do C4.5.
Sistemas de Apoio à Decisão para Business Intelligence 103

Aparência Temperatura Umidade Vento Jogou?


Ensolarado 85 85 Fraco Não
Ensolarado 80 90 Forte Não
Nublado 83 86 Fraco Sim
Chuvoso 70 96 Fraco Sim
Chuvoso 68 80 Fraco Sim
Chuvoso 65 70 Forte Não
Nublado 64 65 Forte Sim
Ensolarado 72 95 Fraco Não
Ensolarado 69 70 Fraco Sim
Chuvoso 75 80 Fraco Sim
Ensolarado 75 70 Forte Sim
Nublado 72 90 Forte Sim

Dados de jogo.

Esses dados, no formato ARFF, assumiriam a seguinte forma:


@relation jogo

@attribute aparencia {ensolarado, nublado, chuvoso}


@attribute temperatura real
@attribute umidade real
@attribute vento {sim, nao}
@attribute jogo {sim, nao}

@data
ensolarado,85,85, nao,nao
ensolarado,80,90, sim,nao
nublado,83,86, nao,sim
chuvoso,70,96, nao,sim
chuvoso,68,80, nao,sim
chuvoso,65,70, sim,nao
nublado,64,65, sim,sim
ensolarado,72,95, nao,nao
ensolarado,69,70, nao,sim
chuvoso,75,80, nao,sim
ensolarado,75,70, sim,sim
nublado,72,90, sim,sim
nublado,81,75, nao,sim
chuvoso,71,91,TRUE,nao
Sistemas de Apoio à Decisão para Business Intelligence 104

Observe que são apenas três palavras reservadas:


a. Relation: nome da base de dados.
b. Attribute: atributos da base de dados com seus respectivos tipos de dados.
c. Data: contém todas as instâncias da base de dados.
Carregando-se a base no Weka, aparece a seguinte janela:

Fonte: WEKA, 2014.

Observe que são apresentadas informações gerais sobre a base de dados em


questão. Por exemplo, sabemos que a base de dados possui 14 instâncias e que o atri-
buto “jogo” possui 9 instâncias SIM e 5 instâncias NÃO.
Nessa figura, devemos prestar atenção ao método de teste que será utilizado:
a. Use training set: utilizaremos os dados de treinamento para criação e validação
do modelo.
Sistemas de Apoio à Decisão para Business Intelligence 105

b. Supplied test set: utilizaremos os dados de treinamento para criação do mode-


lo, mas forneceremos uma base para que os testes sejam realizados.
c. Cross-validation: utilizaremos validação cruzada para a criação e validação do
modelo.
d. Percentage split: nessa opção fornecemos um percentual que representa quan-
to da base será utilizado para a criação do modelo e quanto será utilizado para
teste.
Executando-se o método J48 com a opção “use training set”, obtemos o seguinte
resultado:

Fonte: WEKA, 2014.


Resultado da mineração de dados com o J48.
Sistemas de Apoio à Decisão para Business Intelligence 106

Aparência

= ensolarado = nublado = chuvoso

umidade sim (4.0) vento

<= 75 > 75 = sim = não

Design Gráfico: Carlos Henrique Stabile


sim (2.0) não (3.0) não (2.0) sim (3.0)

Fonte: WEKA, 2014.

Árvore resultante da aplicação do J48 sobre a base de jogo.

3.4 Considerações finais


Vimos que o KDD é um processo iterativo, no qual o conhecimento descoberto é
apresentado ao usuário, e que permite que as medidas de avaliação sejam melhoradas,
a mineração de dados seja refinada e novos dados sejam selecionados ou, ainda, inte-
grados à base de dados atual com o objetivo de alcançar resultados diferentes, algu-
mas vezes mais apropriados ao domínio do problema.
A mineração de dados, uma das principais etapas do KDD, possui tarefas e mé-
todos clássicos. Uma pesquisa realizada em 2010 pela Rexer Analytics com 735 mi-
neradores de dados em mais de 60 países apontou que as árvores de decisão são os
métodos mais utilizados.
Este capítulo teve como propósito apresentar as opções que uma empresa tem de
agregar valor para seus negócios a partir de conhecimentos escondidos em seus dados
e estimulá-la para que dê cada vez maior importância a seus dados, obtidos em suas
operações diárias mas, geralmente, utilizados somente para relatórios simplistas.
Levando-se em consideração a concorrência de mercado cada dia mais inten-
sa nas mais diversas áreas, se as empresas não buscarem e adotarem estratégias,
não apenas para manter a qualidade dos dados, mas principalmente para extrair co-
nhecimento deles, estarão reduzindo cada vez mais suas chances no mercado em que
atuam.
Uma pesquisa realizada pela Rexer Analytics em 2011 (4th Data Miner Survey
Report) com 735 “mineradores de dados” em 60 países apontou que 69% utilizam ár-
vores de decisão, 60% análise de agrupamentos e 25% regras de associação (REXER
ANALYTICS, 2011).
Sistemas de Apoio à Decisão para Business Intelligence 107

Em 2013, a pesquisa foi realizada com 1259 “mineradores de dados” em 75 paí-


ses e apontou que 70% dos usuários utilizam Linguagem R, 34% IBM SPSS, 32%
RapidMiner, 31% SAS e 29% Weka (REXER ANALYTICS, 2013).
Finalmente, observamos que o poder das aplicações de mineração de dados alia-
do às análises visuais permite iniciativas de marketing com foco na otimização do re-
lacionamento das organizações com o consumidor. Por exemplo, a prospecção pode
apontar quais iniciativas junto a clientes potenciais teriam melhores resultados, to-
mando como base os atuais clientes. O cross-selling, por sua vez, pode identificar entre
os atuais clientes os potenciais compradores de uma nova linha de produtos e as aná-
lises de retenção poderiam apontar clientes abordados de forma deficiente pelos con-
correntes e prospectar campanhas para atraí-los.
Sistemas de Apoio à Decisão para Business Intelligence 108

Referências
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of Items
in Large Databases. In: Proceedings of the 1993 ACM SIGMOD Conference, p. 207-216,
1993.
AGRAWAL, R. et al. Automatic Subspace Clustering on High Dimensional Data for Data
Mining Applications. In: Proceedings of the ACM SIGMOD Conference on Management
of Data, p. 94-105, Seattle, Washington, USA, June, 1998.
CARLANTONIO, L. M. Novas Metodologias para Clusterização de Dados. Dissertação,
Engenharia Civil, COPPE, Universidade Federal do Rio de Janeiro, 2001. Disponível em:
<http://wwwp.coc.ufrj.br/teses/mestrado/inter/2002/teses/di%20CARLANTONIO_
LM_02_t_M_int.pdf>. Acesso em: 28/09/2013.
CENDROWSKA, J. PRISM: an algorithm for inducing modular rules. In: Intl. J. Man-
Machine Studies, n. 27, p. 349-370. 1987. Disponível em: <http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.294.7800&rep=rep1&type=pdf>. Acesso em: 08/02/2014.
DEZA, M. M.; DEZA, E. Encyclopedia of Distances. Heidelberg: Springer Dordrecht, 2009.
ESTER, M. et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial
Databases with Noise. In: Proceedings of the 2nd International Conference on
Knowledge Discovery in Databases and Data Mining (KDD-96), p. 226-231, Portland,
Oregon, USA, August, 1996.
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
FONTANA, A.; NALDI, M. C. Estudo de Comparação de Métodos para Estimação de
Números de Grupos em Problemas de Agrupamento de Dados. Universidade de São
Paulo. 2009. Disponível em: <http://www.icmc.usp.br/CMS/Arquivos/arquivos_enviados/
BIBLIOTECA_113_RT_340.pdf>. Acesso em: 08/02/2014.
FREITAS, A. A.; LAVINGTON, S. H. Mining Very Large Databases with Parallel
Processing. Kluwer Academic Publishers, 1998.
HAN, J.; KAMBER, M. Cluster Analysis. In: Data Mining: concepts and techniques, 1. ed.,
chapter 8, New York, USA, Academic Press, 2001.
HOUAISS, A.; VILLAR, M. de S. Dicionário Houaiss da Língua Portuguesa. Rio de Janeiro:
Objetiva, 2001.
MEIDEROS, F. S. B.; BIANCHI, R. C. A Aplicação do Método Regressão Linear Simples na
Demanda de Produtos Sazonais: um estudo de caso. In: Disciplinarum Scientia. Série:
Ciências Sociais Aplicadas, S. Maria, v. 5, n. 1, p. 35-53, 2009.
Sistemas de Apoio à Decisão para Business Intelligence 109

MORRISON, J. Human Nose can Detect 1 Trillion Odors. In: Scientific American.
Disponível em: <http://www.scientificamerican.com/article/human-nose-can-detect-1-tril-
lion-odors/>. Acesso em: 23/03/2014.
NG, R. T.; HAN, J. Efficient and Effective Clustering Methods for Spatial Data Mining. In:
Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), p.
144-155, Santiago, Chile, September, 1994.
QUINLAN, J. R. Induction of Decision Trees. Machine Learning, v. 1, n. 1, p. 81-106, 1986.
______. C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann
Publishers, 1993.
REXER ANALYTICS. Data Mining Algorithms Survey 2010. Disponível em: <http://myda-
tamine.com/data-mining-algorithms-survey-2010/>. Acesso em: 08/02/2014.
______. 2013 Data Miner Survey Highlights. Disponível em: <http://agiltools.com/
blogsp/wp-content/uploads/2013/12/2013-Rexer-DM-Survey-PAW-Deck.pdf>. Acesso em:
08/02/2014.
TSUNODA, D. F. Abordagens Evolucionárias para a Descoberta de Padrões e
Classificação de Proteínas. Tese. UTFPR: Curitiba, 2004.
UNIVERSITY OF WAIKATO. WEKA: versão 3.7.11. 2014. Disponível em: <http://www.
cs.waikato.ac.nz/ml/weka/downloading.html>. Acesso em: 08/08/2014.
WU, X.; KUMAR, V. The Top Ten Algorithms in Data Mining. Chapman & Hall/CRC, 1. ed.,
2009.
4 Visualização de resultados
Inicialmente, os dados eram registrados em computadores para fins puramen-
te operacionais e serviam para dar suporte às atividades do dia a dia das empresas.
Atualmente, os dados assumiram valor estratégico e representam um importante dife-
rencial competitivo. A análise dos dados está diretamente relacionada à inteligência dos
negócios, o que exige ferramentas especializadas e sofisticadas para sua manipulação.

Cubo de decisão

Design Gráfico: Bernardo Beghetto

Dados brutos podem ser organizados de diferentes maneiras para análise e re-
presentação. Uma maneira de organização é a multidimensionalidade, cuja principal
vantagem é permitir que os dados sejam organizados de acordo com a preferência de
cada gestor. Assim, diferentes visualizações podem ser criadas de modo fácil e rápido
(TURBAN et al., 2009). A multidimensionalidade envolve três fatores: dimensões, me-
didas e tempo.
Exemplos dos fatores de multidimensionalidade
Fator Exemplos

Dimensão Produtos, equipes, segmentos de mercado, unidades de negócio, países, setores etc.

Dinheiro, volume de vendas, número de funcionários, estoque, lucro previsto versus


Medida
real etc.

Tempo Diário, semanal, quinzenal, trimestral, anual etc.

Fonte: TURBAN et al., 2009.


Sistemas de Apoio à Decisão para Business Intelligence 112

Um banco de dados multidimensional é um tipo de repositório no qual os dados


são organizados para permitir análise multidimensional rápida e fácil. Os dados que
compõem esse repositório podem vir, por exemplo, de um data warehouse.

Data warehouse é um depósito físico no qual dados relacionados são organizados para possi-
bilitar a geração de conhecimento por meio de mineração de dados, OLAP (On-Line Analytical
Processing – “Processamento Analítico On-Line”) ou outros métodos de pesquisa.

Uma forma de representação de dados muito comum é o cubo de dados. Apesar


de o nome remeter a uma figura tridimensional, a estrutura também pode ser bidi-
mensional, ou mesmo n-dimensional. Por isso, algumas vezes é chamado de hipercubo.
Cada atributo do banco de dados é representado como uma dimensão do cubo.

On-Line Analytical Processing (OLAP) é um sistema que oferece a oportunidade de executar análises
multidimensionais sobre dados, executando cruzamentos de dimensões para avaliar fatos relevantes
em uma organização.

Na figura a seguir, por exemplo, pode-se observar que a região da América do


Norte registrou no mês de março um lucro de 14%.

Jan.

Fev. 2009
Mês

Mar.

Margem de lucro
Design Gráfico: Bernardo Beghetto

14% da América do
Marge
m de
Norte (%)
lucro
(%)

Cubo de dados – Região X Vendas X Mês.


Sistemas de Apoio à Decisão para Business Intelligence 113

A análise de cubo possibilita consultas por meio de visualizações de relatórios,


utilizando recursos de OLAP – tais como page-by, pivot, classificação, filtro e drill-up/
drill-down – que permitem visões parciais de um cubo de dados com apenas um clique
do mouse.
A apresentação visual de dados e informações tem se tornado um fator de valoriza-
ção de qualquer ferramenta de inteligência de negócios e a área que estuda os processos
para produzir essas imagens com eficiência, correção e conteúdo de valor é chamada de
visualização de dados.

4.1 Origens da visualização de dados


Inicialmente, os computadores eram incapazes de competir com os proces-
sos manuais de comunicação visual. Os primeiros centros de processamento de da-
dos (CPDs) eram formados por grandes unidades de processamento, leitores de cartão
perfurado e impressoras, e nenhum monitor.
O simples traçado de uma linha em diagonal era um processo impensável. Mesmo
com o surgimento dos monitores, a alta resolução e as cores demoraram para fazer
parte do universo digital até meados da década de 1990. Hoje em dia, no entanto, to-
dos podem usar um telefone celular para gerar um diagrama sofisticado e estudá-lo.
Do mesmo modo que a representação grá-
fica demorou décadas para que estivesse dispo-
nível nos computadores, os estudos a respeito
das formas como os dados podem ser traduzi-
dos em imagens também esperaram muitas dé-
cadas para serem desenvolvidos.
Atualmente, diversas áreas de estudo (ges-
© Sergey Nivens / / Fotolia

tão de informações, design de informações,


ergonomia informacional e interface homem-
-computador, entre outras) convergem para a
descoberta de meios de traduzir dados em ima-
gens que transmitam informações.
O uso de informação gráfica remonta a muitos séculos. Até o fim do século XVI,
o uso dessas técnicas estava limitado à construção de mapas destinados à orientação
dos navegantes.
No século XVII, as administrações de diversos países europeus passaram a dis-
seminar estudos estatísticos rudimentares, como contagens de mortos ou doentes,
o resultado de safras, o recolhimento de taxas etc. Esses valores eram tabulados e
apresentados para análises mais sistemáticas.
Sistemas de Apoio à Decisão para Business Intelligence 114

O século XVIII foi especialmente importante para a evolução do uso de gráficos


na exposição de dados. Uma contribuição notável nesse campo foi a criação de gráfi-
cos para representação de dados pelo escocês William Playfair.

William Henry Playfair (1790-1857) foi um dos maiores arquitetos escoceses, projetou muitos
monumentos neoclássicos em Edimburgo e inventou quatro tipos de gráficos: de linhas e de
barras (1786), para dados de economia, e de pizza e circular (1801), para representar relações
parte-todo.

Na primeira metade do século XIX, observou-se um avanço significativo do uso de


gráficos. Todas as formas modernas de expressão de conteúdo estatístico existentes e
utilizadas hoje foram estabelecidas nessa época, quando ganharam grande popularidade
na comunidade científica. As publicações científicas começaram a fazer uso massivo de
diagramas, o que aumentou sua popularidade e também o esforço por sua evolução.
Na segunda metade do século XIX, foram reali-
zados alguns experimentos envolvendo as primeiras
projeções de grandezas com três dimensões, visto
que fenômenos com mais de duas variáveis passa-
ram a se tornar mais populares, diante da evolução

© marog-pixcells / / Fotolia
da matemática e do avanço da ciência.
Tanto projeções paralelas como curvas tridimen-
sionais passaram a ser utilizadas para visualização de
resultados de fenômenos de muitas variáveis. Até mesmo as primeiras sugestões a res-
peito da projeção de modelos de quatro dimensões começaram a ser apresentadas.
Já no século XX o uso de gráficos e diagramas havia atingido um alto nível de ma-
turidade, usando formas e cores variadas, com alto nível de poder informacional. A
presença desse recurso já havia se tornado uma constante em todos os tipos de perió-
dicos científicos e começou a se popularizar também para a representação de conteú-
dos escolares mais básicos.
A primeira metade do século XX presenciou uma expansão da teoria estatística e,
assim, também da linguagem gráfica para a expressão de seus resultados. No entanto,
nesse período, houve uma significativa redução da inovação nesse campo. Enfatizou-
se mais a expansão do uso das ferramentas então disponíveis do que seu aperfeiçoa-
mento ou a invenção de novas.
O terceiro quarto do século contou com uma extraordinária evolução na produ-
ção de resultados estatísticos, graças à introdução do uso do computador, o que esti-
mulou também a geração de conteúdo visual e gráfico e promoveu a popularização de
infográficos.
Sistemas de Apoio à Decisão para Business Intelligence 115

O computador ainda não estava sendo utilizado para produzir resultados gráfi-
cos, mas já engatinhava ao gerar imagens digitais em sistemas experimentais restritos.
A partir do último quarto do século XX, a capacidade gráfica dos computado-
res recebeu grande impulso, principalmente com a popularização dos computadores
pessoais. Jogos e interfaces gráficas se tornaram progressivamente mais comuns e as
primeiras ferramentas geradoras de gráficos surgiram na década de 1980. Teve início
então um grande desenvolvimento da capacidade de armazenamento e processamen-
to de dados, que teve reflexos também na área de processamento de imagens e gera-
ção de gráficos digitais, que começam a se popularizar. Unindo esforços intelectuais,
artísticos e tecnológicos, novas e numerosas formas de expressão gráfica de dados
têm sido apresentadas.

4.1.1 Gráficos

© violetkaipa / / Fotolia

Todo e qualquer gráfico de qualidade pode transmitir uma informação, indepen-


dentemente de estilo, tecnologia empregada e estética. Para que possa transmitir va-
lor, é preciso ter conteúdo, que assume um significado a partir do contexto em que
está inserido. Para que um gráfico apresente dados de forma eficiente, é importante
a aplicação dos critérios corretos. Antes de se decidir por um meio de exposição para
traduzir seus dados, deve-se procurar responder a três perguntas, cujas respostas ser-
virão para descartar algumas alternativas e reunir as possibilidades sobre um conjunto
mais restrito de oportunidades.
O primeiro critério é identificar qual informação será apresentada. Dados bidimen-
sionais apresentados em um diagrama tridimensional podem implicar grande prejuízo
de interpretação, em função das deformações causadas pelo efeito de perspectiva.
Sistemas de Apoio à Decisão para Business Intelligence 116

Dados comparativos precisam ser apresentados em escalas proporcionais para


que a informação seja compreendida e assimilada corretamente pelo destinatário.
Dados históricos fazem sentido quando ordenados cronologicamente. A distribui-
ção paralela de um valor pode ser melhor compreendida por meio de um diagrama de
dispersão. Como se pode perceber, a compreensão da informação apresentada é um
fator preponderante para guiar a seleção das opções de apresentação de um conjunto
de dados.

© Coloures-pic / / Fotolia
A cultura de quem observa um diagrama influencia significativamente na absor-
ção de seu significado. Não podemos esquecer que uma imagem também é uma forma
de comunicação, e é necessário que a mensagem seja transmitida em uma linguagem
comum entre o emissor e o receptor.
É fundamental conhecer o público-alvo do diagrama e considerar os tipos de grá-
ficos com os quais tem mais familiaridade. Em geral, o uso de explicações em info-
gráficos é restrito e a necessidade de apresentar documentação extensiva é um forte
indício de que o tipo de representação gráfica escolhida não é apropriado.
Um público de formação científica terá mais facilidade de assimilar um diagra-
ma que apresente uma curva ou o cálculo de uma função matemática, o que possivel-
mente apresentará mais dificuldades para observadores leigos.
Por outro lado, o uso de figuras populares em legendas (personagens de um dese-
nho animado, por exemplo) poderá gerar a impressão de algo demasiadamente informal
em um diagrama de resultados corporativo.
O uso de cores representa uma dimensão importantíssima na exposição de infor-
mações por um veículo gráfico; mas, se mal utilizada, pode representar um ruído. O
uso de tons femininos para um público masculino ou de cores que são culturalmente
Sistemas de Apoio à Decisão para Business Intelligence 117

repudiadas (as cores da bandeira de um país inimigo, por exemplo) poderão represen-
tar um forte obstáculo à leitura e compreensão de um diagrama.
Diagramas em três dimensões podem ser facilmente produzidos, visto que o
hardware necessário para o cálculo se tornou bastante acessível. Mas seu uso poderá
produzir um efeito mais estético que informativo e, assim, gerar ruído em vez de valo-
rizar os dados.
A motivação (ou o porquê) é o terceiro critério para a seleção de um método de
apresentação. A informação a ser mostrada conta uma história e deverá provocar uma
reação na plateia, ou seja, algum tipo de transformação de conhecimento, de compor-
tamento ou de expectativa.
Toda pesquisa tem o objetivo de responder alguma pergunta. Essa pergunta deve
ser feita no momento de elaboração do diagrama para nortear o conteúdo e o formato
da resposta.
Cores, efeitos 3D, gravuras e legendas poderão ou não contribuir para elevar o va-
lor informativo de um gráfico. Esses atributos poderão servir para realçar aspectos que
se deseja apresentar ou poluí-los.
Um aspecto fundamental da comunicação visual é o uso das cores. Se, por um
lado, as cores podem ser escolhidas e utilizadas de forma a agradar e informar, por ou-
tro podem ter um efeito reverso, afugentando e desviando a atenção.
A tecnologia atual possibilita um uso massivo de cores, mas quantidade nesse
caso não necessariamente significa qualidade. Em muitos casos, o uso de tons de cin-
za, ou mesmo do branco e do preto, ainda é a estratégia mais apropriada para trans-
missão de informação.
Que critérios podem ser utilizados para fazer um uso racional e positivo desse im-
portante recurso? As cores podem e devem ser usadas para evidenciar a importância
ou o significado de um dado. Uma cor intensa, por exemplo, naturalmente atrairá a
atenção do observador e transmitirá a noção de um valor maior.
Além disso, as cores sugerem emoções e podem mesmo influenciar, de forma su-
til, a maneira como o observador recebe uma informação. O artigo O Significado das
Cores (JUICE ANALYTICS, 2014) explica uma forma de utilização das cores em gráfi-
cos. Nesse texto é mencionado que tons naturais têm um efeito calmante, enquanto
tons não naturais ou antinaturais provocam agitação.
Sistemas de Apoio à Decisão para Business Intelligence 118

Tons naturais Tons frios


Calmantes Tranquilizantes, calmantes

Tons não naturais Tons mornos


Alarmantes, enervantes, Otimismo, atividade, vívidos
requerem atenção

Design Gráfico: Bernardo Beghetto


© kanate / / Fotolia. (Adaptado).
Efeito das cores sobre as emoções.

Em vários casos, a intensidade da cor também transmite informação, visto que


tons mais suaves podem ser contrapostos a tons mais intensos para representar dis-
tâncias ou magnitudes dos dados.
As séries de dados podem ser organizadas de três maneiras:
• Sequencial: quando os valores são organizados e mostrados em ordem ascen-
dente ou descendente de intensidade.
• Divergente: quando os valores apresentam-se também em ordem, mas varian-
do para sentidos opostos em relação a um ponto referencial.
• Categórica: quando os valores são distribuídos em diferentes grupos ou
categorias.
Sistemas de Apoio à Decisão para Business Intelligence 119

Sequencial: as cores podem ser ordenadas de baixa para alta luminosidade


Baixa Alta

Divergente: dois esquemas sequenciais a partir de um ponto central


Baixa Ponto central Alta

Design Gráfico: Bernardo Beghetto


Categórica: alto contraste entre cores adjacentes

© kanate / / Fotolia. (Adaptado).


Fonte: JUICE ANALYTICS, 2014. (Adaptado).

Uso de cores e tons em relação à distribuição de valores.


Por exemplo, se você quiser enfatizar algum dado, poderá aumentar sua satura-
ção e/ou brilho. Observe a diferença quando apenas o brilho da fatia do gráfico de piz-
za é alterado:

Vendas (em R$) Vendas (em R$)

2.546 2.546
6.598 6.598

8.452 8.452
Design Gráfico: Bernardo Beghetto

Jan. Jan.
Fev. Fev.
Mar. Mar.
Comparação de brilho de cores.
Sistemas de Apoio à Decisão para Business Intelligence 120

4.2 Ciclo de vida da visualização de dados


A visualização é a última das quatro etapas que compõem um ciclo de trabalho.

4.2.1 Aquisição de dados


A primeira etapa é, naturalmente, a reunião dos dados que deverão ser estuda-
dos. Esses dados podem ser extraídos diretamente dos registros presentes na própria
empresa, como planilhas eletrônicas, bancos de dados e bancos de mídias.
Uma alternativa para a obtenção de dados são fontes externas, como dados pú-
blicos (por exemplo: repositório de dados eleitorais do Tribunal Superior Eleitoral e
repositório nacional de dados abertos, como o censo escolar), bibliotecas físicas e digi-
tais, parceiros acadêmicos e institutos de pesquisa.

4.2.2 Limpeza de dados


Em geral, os dados não se encontram originalmente em um formato que possa
ser processado pelas ferramentas de análise. É frequente a necessidade de uma etapa
de preparação, na qual os dados passam por processos de normalização, formatação
e conversão para os formatos suportados pelas ferramentas. Também nessa etapa, os
dados que não serão úteis na pesquisa são descartados.

4.2.3 Análise e visualização exploratória


Uma vez que os dados estejam prontos para a análise, o processo seguinte é a
realização da análise propriamente dita. Para isso, existe uma grande variedade de
tecnologias e ferramentas, gratuitas e comerciais, disponíveis:
• Na internet: Google Spreadsheet, Google Fusion Tables e IBM ManyEyes.
• Aplicações: Tableau, Microsoft Office, OpenOffice, Gephi, Spotfire, Linguagem
R, NodeXL (plug-in para MS Excel).

4.2.4 Publicação
A última etapa é a publicação ou apresentação dos resultados da análise. Por
exemplo: após o fechamento anual de uma organização, os resultados alcançados
serão apresentados para os interessados, internos ou externos. É importante ob-
servar que, dependendo do público-alvo dessa informação, o formato deverá ser
diferenciado.
Sistemas de Apoio à Decisão para Business Intelligence 121

Alguns tipos de visualização:


• Visualização estática: os dados não são atualizados automaticamente, nem
são animados. Um exemplo são as informações produzidas para impressão.
• Visualização animada: os dados são trabalhados para serem apresentados em
uma forma animada ou, ainda, dinâmica.
• Visualização na web: um tipo bastante comum de visualização, na qual os da-
dos são trabalhados para que possam ser visualizados, normalmente utilizan-
do o potencial das redes de comunicações em navegadores compatíveis com
internet.

4.3 Ferramentas de visualização


4.3.1 Dashboards
A visualização dos resultados de qualquer tipo de estudo ou processo é um aspecto
necessário em qualquer domínio. Inicialmente, os sistemas informatizados disponibiliza-
vam a visualização por meio de relatórios. Em seguida, com o desenvolvimento da tec-
nologia de processamento gráfico, começaram a ser usados diagramas, cuja qualidade
variou do sofrível ao soberbo. No entanto, de uma forma geral, o que se tinha era uma
fotografia estática de dados em algum momento do passado.
Atualmente, é possível apresentar uma visualização dinâmica dos resultados, atualiza-
da em tempo real, em um diagrama chamado de dashboard.
© Viktor Gmyria / / Fotolia
Sistemas de Apoio à Decisão para Business Intelligence 122

O termo dashboard vem do inglês e pode ser traduzido como “painel de ins-
trumentos” (ou ainda “painel de bordo”, ou “painel de indicadores”). Trata-se de uma
metáfora que compara esse diagrama ao painel de um avião, que apresenta inúmeros
mostradores ativos que relatam a situação da aeronave durante o voo. O piloto normal-
mente utiliza diversos desses mostradores em um dado momento para tomar uma deci-
são importante. Não serão todos, mas um subconjunto que apresente dados relevantes
a respeito de algum evento em foco. Os dashboards digitais seguem o mesmo princípio
na seleção e apresentação dos dados.
A natureza dinâmica dos dashboards dá aos gestores uma nova forma de monitorar
o andamento e a evolução de seus negócios, praticamente em tempo real. De forma resu-
mida, podemos dizer que um dashboard tem o potencial para fornecer uma série de bene-
fícios, tais como:
• ajudar a alta administração a estabelecer o que é importante;
• educar os membros da organização a respeito dos assuntos importantes;
• definir os objetivos individuais e de grupos de colaboradores;
• mostrar aos gerentes o andamento dos processos organizacionais;
• encorajar ações específicas em momentos apropriados;
• evidenciar situações de exceção por meio da apresentação de alertas;
• comunicar a ocorrência de sucesso ou andamento de processos;
• fornecer os meios para ter acesso a dados de importância e manipulá-los.
Todos esses aspectos reforçam a noção de importância que um dashboard pode
ter para uma organização. As alternativas para a apresentação de dados em um
dashboard são muito variadas. Isso não quer dizer que todas devem ser usadas em
dado momento – e o largo leque de opções pode até mesmo representar um perigo.
A finalidade de um dashboard é apresentar uma gama de dados sob formas diver-
sas, mas esses dados precisam estar em harmonia com os propósitos do observador.
É importante ter em mente que algumas modalidades de visualização são mais
apropriadas a tipos de dados específicos. Algumas das diversas possibilidades de vi-
sualização de dados:
Gráficos de linhas são indicados para apresentar a evolução de valores de uma ou
mais variáveis ao longo de uma escala – por exemplo, o tempo. Permite a visualização
simultânea de mais de uma variável, o que facilita sua comparação. Suponha que a ta-
bela a seguir descreva o valor de vendas em milhões de reais de uma empresa fictícia
durante um ano.
Sistemas de Apoio à Decisão para Business Intelligence 123

Tabela de vendas
Vendas 2013

Mês Vendas (em R$)

Jan. R$ 2.546,00

Fev. R$ 8.452,00

Mar. R$ 6.598,00

Abr. R$ 2.156,00

Mai. R$ 5.978,00

Jun. R$ 4.682,00

Jul. R$ 8.911,00

Ago. R$ 6.851,00

Set. R$ 5.489,00

Out. R$ 6.879,00

Nov. R$ 7.985,00

Dez. R$ 10.569,00

A figura a seguir apresenta essas informações em um gráfico de linhas. Observe


que a tendência de crescimento das vendas no último mês é facilmente visualizada.

Vendas (em R$)


12.000
10.569
10.000
8.911
8.452
8.000 7.895
6.598 6.851 6.879
6.000 5.978
5.489
4.682
Design Gráfico: Bernardo Beghetto

4.000
2.546
2.000 2.156

0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de linhas.
Sistemas de Apoio à Decisão para Business Intelligence 124

Mostradores de progresso são úteis para apresentar o andamento de um proces-


so, o volume de ocupação ou de utilização de um recurso ou o desempenho de deter-
minado indicador em relação a uma meta estabelecida, por exemplo o nível de venda
de dado produto comparado à meta mensal.

© Felix Pergande / / Fotolia


Mostrador de progresso.

Mui
to b
Bom om
Ex
cel
im
Ru

en
te

© John Takai / / Fotolia. (Adaptado).


Design Gráfico: Bernardo Beghetto

Mostrador de progresso utilizando cores para evidenciar os diversos estados.


Sistemas de Apoio à Decisão para Business Intelligence 125

Suponha então que você queira criar um mostrador de progresso para as metas
de sua empresa, fornecendo apenas a meta e quanto já foi realizado. Supondo uma
meta de 25.000 e um realizado de 4.500, a planilha fará o cálculo de quanto ainda res-
ta a realizar (nesse caso, 20.500) e a variação (82%). Geralmente, esse tipo de gráfico é
utilizado para visualização de dados armazenados em planilhas.

50%

25% 75%

0% 100%

Design Gráfico: Bernardo Beghetto


FATURAMENTO

Mostrador de progresso do faturamento.

Gráficos de barras ou de colunas são muito bons para comparar níveis de resulta-
dos ao longo do tempo, pois transmitem uma noção intuitiva de volume que é rapida-
mente assimilada pelo observador. Um exemplo é a ocorrência de falhas de operação
de uma máquina em cada mês do ano. A seguir, temos os mesmos dados da tabela já
apresentada sob a forma de um gráfico de barras.

Vendas (em R$)


Dez. 10.569
Nov. 7.895
Out. 6.879
Set. 5.489
Ago. 6.851
Jul. 8.911
Jun. 4.682
Design Gráfico: Bernardo Beghetto

Mai. 5.978
Abr. 2.156
Mar. 6.598
Fev. 8.452
Jan. 2.546
0 2.000 4.000 6.000 8.000 10.000 12.000
Exemplo de gráfico de barras.
Sistemas de Apoio à Decisão para Business Intelligence 126

A seguir, os mesmos dados são exibidos em um gráfico de colunas. Observe que


em ambos os gráficos são facilmente verificáveis os meses com o maior e o menor va-
lor de vendas (respectivamente dezembro e abril).

Vendas (em R$)


12.000
10.569
10.000 8.911
8.452
7.895
8.000 6.851 6.879
6.598
5.978
6.000 5.489
4.682
4.000

Design Gráfico: Bernardo Beghetto


2.546 2.156
2.000

0
Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.
Exemplo de gráfico de colunas.

Gráficos de pizza são úteis quando o que se deseja é uma avaliação percentual
entre os diversos valores de uma variável. Devem ser usados com cuidado, pois per-
dem rapidamente a eficácia quando o número de variáveis é grande ou estas apre-
sentam valores muito próximos. Um bom uso poderia ser a avaliação de tipos de
ocorrências relatadas por usuários a respeito de um produto (percentual de reclama-
ções, percentual de elogios, percentual de dúvidas, percentual de sugestões etc.).
A seguir, temos um exemplo de gráfico de pizza para as vendas realizadas na ta-
bela anterior, mas normalmente não se utiliza esse tipo de gráfico quando o número
de fatias é grande, pois isso pode dificultar a comparação dos meses com tantas cores
semelhantes. Observe, por exemplo, como a análise das vendas ficou mais simples no
gráfico anterior (de colunas) quando comparado ao gráfico de pizza, que, ainda agra-
vado pela perspectiva, dificulta a interpretação. Observe que, sem a leitura dos valo-
res, em um primeiro momento teríamos a impressão de que o mês de julho apresentou
o maior valor de vendas, quando na verdade foi o mês de dezembro.
Sistemas de Apoio à Decisão para Business Intelligence 127

Jan.
Vendas (em R$)
Fev.

2.546 Mar.
10.569 8.452
Abr.
7.895 6.598
Mai.
2.156 Jun.
Jul.
6.879 5.978
Ago.

Design Gráfico: Bernardo Beghetto


5.489 4.682 Set.
Out.
6.851 8.911
Nov.

Gráfico de pizza. Dez.

Mapas de calor são muito bons para visualizar a distribuição de tendências ou vo-
lumes em um território, por exemplo, o volume de vendas atingido nos diversos esta-
dos de um país. Nesse tipo de gráfico as cores ganham valor especial, pois contribuem
para uma assimilação quase instantânea da informação.

Variável:
pessoas de 25 anos ou mais, residentes
em domicílios particulares, pessoa
responsável – Total.

Até 553.087
Acima de 553.087 até 799.199
Acima de 799.199 até 1.714.450
Design Gráfico: Bernardo Beghetto
© White / / Fotolia. (Adaptado).

Acima de 1.714.450 até 3.087.872


Acima de 3.087.872

Fonte: IBGE, 2010. (Adaptado).

Mapa de calor.
Sistemas de Apoio à Decisão para Business Intelligence 128

A seguir, temos uma forma alternativa de utilização dos mesmos conceitos de


mapas de calor. A grande vantagem desse tipo de visualização é a rápida identificação
dos pontos que merecem maior atenção.

Vendas de produtos por trimestre (2013)


Tomate
Batata
Pera
Laranja
Produto

Uva
Cenoura
Maçã
Repolho
Banana
Kiwi

Design Gráfico: Bernardo Beghetto


2013/ 1T 2013/ 2T 2013/ 3T 2013/ 4T
Ano/Trimestre
R$ 0,00 – 5.000,00
R$ 5.001,00 – 15.000,00
R$ 15.001,00 – 30.000,00
Acima de R$ 30.000,00

Mapas de calor – vendas de produtos.


Gráficos de bolha representam as diferenças de grandeza por meio das propor-
ções do raio de círculos. Uma de suas grandes vantagens é não precisar de muito es-
paço para evidenciar as relações existentes entre as variáveis apresentadas. Também
têm a virtude de evidenciar rapidamente as diferenças de proporção entre os valores
apresentados.
A tabela a seguir apresenta duas séries de vendas e participações:

Séries de vendas de duas empresas no período de 5 anos (2009-2013)


Fator Série 1 Série 2

Ano Participação A Venda A Participação B Venda B

2009 22% R$ 76.900,00 41% R$ 42.389,00

2010 31% R$ 40.132,00 49% R$ 57.870,00

2011 15% R$ 59.080,00 42% R$ 90.552,00

2012 24% R$ 65.900,00 40% R$ 75.980,00

2013 27% R$ 78.027,00 37% R$ 67.985,00


Sistemas de Apoio à Decisão para Business Intelligence 129

Vamos visualizar agora os mesmos dados em um gráfico de bolhas.

Gráfico de bolhas
60%
R$ 57.870,00
R$ 90.552,00
50% R$ 42.389,00 R$ 75.980,00
R$ 67.895,00

Design Gráfico: Bernardo Beghetto


Participações (%)

40%
Série 1
30%
R$ 40.132,00 Série 2
20%
R$ 78.027,00
R$ 76.900,00 R$ 65.900,00
10%
R$ 59.080,00
0%
2008 2009 2010 2011 2012 2013 2014
Ano

Visualização dos dados das vendas e participações em um gráfico de bolhas.

Observe no gráfico que o tamanho das bolhas é correspondente ao valor das ven-
das, ou seja, quanto maior o valor da venda, maior o tamanho da bolha.
Gráficos de dispersão permitem a avaliação da distribuição de um conjunto de
dados em relação a duas (dispersão bidimensional) ou três variáveis (dispersão tridi-
mensional). Cada variável é representada por um eixo e os dados que assumem esses
valores são distribuídos no plano (ou no volume), permitindo a avaliação de efeitos de
dispersão ou agrupamento de dados.
Para exemplificar esse tipo de gráfico, suponha que uma protetora de cães de
Curitiba deseja gerar um gráfico com o número de cães recolhidos em cada mês de de-
terminado ano.
Sistemas de Apoio à Decisão para Business Intelligence 130

Cães recolhidos em Curitiba


Mês Cães recolhidos

Jan. 25

Fev. 12

Mar. 5

Abr. 6

Mai. 8

Jun. 12

Jul. 16

Ago. 8

Set. 6

Out. 8

Nov. 7

Dez. 21

Essas informações podem ser representadas em um diagrama de dispersão:

Número de cães X Meses do ano


30
25 25
20 21
Número de cães

16 Design Gráfico: Bernardo Beghetto


15
12 12
10
8 8 8 7
5 5 6 6

0
0 2 4 6 8 10 12
Meses de ano

Diagrama de dispersão.
Sistemas de Apoio à Decisão para Business Intelligence 131

Observe que nos meses de janeiro, julho e dezembro, o número de cães recolhi-
dos é maior, talvez por serem períodos de férias escolares, durante os quais diversas
famílias viajam e deixam seus cães nas ruas.
Suponha agora que em Londrina também exista uma protetora de cães que
possua uma planilha semelhante. A tabela com os dados de ambas as cidades ficaria
assim:
Cães recolhidos
Mês Curitiba Londrina
Jan. 25 16
Fev. 12 13
Mar. 5 6
Abr. 6 2
Mai. 8 8
Jun. 12 10
Jul. 16 26
Ago. 8 5
Set. 6 2
Out. 8 9
Nov. 7 7
Dez. 21 16

Um gráfico de dispersão com linha de tendência permite a comparação entre as


duas cidades:
Número de cães X Meses do ano (Curitiba e Londrina)
30
Curitiba
Londrina
25 2 por média móvel (Curitiba)
2 por média móvel (Londrina)

20
Número de cães

15
Design Gráfico: Bernardo Beghetto

10

0
0 2 4 6 8 10 12
Meses de ano

Diagrama de dispersão com linha de tendência.


Sistemas de Apoio à Decisão para Business Intelligence 132

Verificamos que em Londrina o padrão se repete: nos meses de janeiro, julho e de-
zembro há um número maior de cães nas ruas. Embasando-se nesse gráfico, é possível
propor a criação de políticas públicas e de conscientização que minimizem o problema
nas duas cidades.
Pequenas tabelas (não mais de cinco colunas e 20 linhas) também podem apre-
sentar dados numéricos variados e, em alguns casos, são até preferíveis em relação a
gráficos.
Durante a construção de um dashboard, o mais importante é focalizar no obje-
tivo, que dependerá do público-alvo dos dados. A cultura e as expectativas do públi-
co-alvo unidas aos motivos da apresentação dos dados irão determinar a disposição
gráfica de apresentação na tela do computador.

4.3.2 Scorecards
Scorecards são painéis de visualização de resultados muito similares aos dashboards,
o que faz com que sejam frequentemente confundidos.
Dashboards são utilizados para monitorar variáveis e grandezas de natureza ope-
racional. São recomendados para monitorar a evolução de processos de negócios em
tempo real.
Scorecards são utilizados para acompanhar a evolução de indicadores sintéticos
em relação a metas preestabelecidas. Essas metas, chamadas de indicadores-chave de
desempenho (KPI, do inglês “key performance indicators”), estão relacionadas a métri-
cas de natureza tática ou estratégica de uma organização.
A tabela a seguir apresenta diferenças fundamentais existentes entre as duas
ferramentas.

Característica Dashboard Scorecard

Propósito Medir o desempenho Mapear o progresso

Usuário Supervisores e especialistas Executivos e gerentes

Atualização Tempo real Instantâneos periódicos

Dados Eventos Resumo


Exibição Diagramas e dados brutos Diagramas e comentários em texto
Fonte: TURBAN et al., 2009
Comparações entre dashboard e scorecard.
Sistemas de Apoio à Decisão para Business Intelligence 133

As estratégias e critérios para a construção de um scorecard são similares aos


adotados em dashboards, mas as variáveis e critérios precisam levar em conta as ex-
pectativas dos diferentes públicos-alvo.
Em geral, os analistas de nível estratégico ou operacional avaliam tendências de
indicadores de desempenho de alto nível e operam sobre elementos sintéticos que são
resultado do processamento de outras variáveis mais simples.
O scorecard é uma ferramenta-chave da metodologia balanced scorecard.

4.3.3 Visualização de resultados em mineração de dados


O processo de descoberta de conhecimento em base de dados (KDD) foi propos-
to em 1989 por Fayyad (1996) para referir-se às etapas que produzem conhecimentos
a partir dos dados de entrada.

Interpretação/
Seleção Pré-processamento Transformação Data mining
Avaliação

Design Gráfico: Carlos Henrique Stabile


Dados Dados

Dados Dados
Dados
Dados Dados Dados Dados

Dados Dados
Dados Dados Padrões Conhecimento
pré-processados transformados

Fonte: FAYYAD, 1996. (Adaptado).

Processo KDD.

A última etapa do KDD é a avaliação e interpretação do conhecimento descoberto.


Nessa fase, o conhecimento descoberto é apresentado ao usuário em uma linguagem
de fácil compreensão e que possibilite uma boa interpretação dos resultados obtidos.
Para isso, são recomendáveis as técnicas de visualização de dados. O novo conhecimen-
to também é incorporado para a melhoria do desempenho do sistema.
As ferramentas de mineração de dados, com a aplicação de algoritmos, utilizam
métodos estatísticos para a descoberta de padrões e extraem automaticamente do
banco de dados o conhecimento que está ali “escondido”.
A figura a seguir apresenta um exemplo de integração de data warehouse, minera-
ção de dados, OLAP e relatórios. Imaginemos um sistema cujas entradas são informa-
ções de transações web, sistema CRM tradicional, informações de suporte e informações
de vendas e que gera relatórios de suporte à decisão direcionados a gerentes, represen-
tantes de vendas, analistas de negócios e fornecedores. O data warehouse armazena
Sistemas de Apoio à Decisão para Business Intelligence 134

dados de entrada e, com aplicações de mineração de dados, OLAP e relatórios, o siste-


ma fornece as saídas aos usuários interessados.

Mineração de dados é o processo que utiliza técnicas estatísticas, matemáticas, de inteligência


artificial e de aprendizado de máquina para extrair e identificar informação e conhecimento útil
em bancos de dados.

Informações de transações
de clientes web
Aplicações de mineração
de dados para descoberta Gerentes
de padrões relacionados
aos comportamentos dos
D clientes, por exemplo.
CRM tradicional – a
informações de clientes t
a Representantes
de vendas
W Aplicações OLAP para
a descoberta de relações
r nos dados para descobrir
e tendências históricas.
Aplicação de call center – h Analistas de
informações de suporte o negócios
u
s
e Design Gráfico: Bernardo Beghetto
Ferramentas de relatórios
para projeções de vendas,
por exemplo. Fornecedores

Aplicação de vendas –
informações de clientes

Fonte: MARTIN, 2014. (Adaptado).

Exemplo de aplicação de mineração de dados.


Sistemas de Apoio à Decisão para Business Intelligence 135

São diversas as ferramentas disponíveis para visualização de dados. Apresen-


tamos a seguir o primeiro grupo de ferramentas comerciais:

Ferramenta Scorecard

CViz Cluster Visualization Análise de dados complexos multidimensionais em grande volume.

Apresenta grande quantidade de dados (mais de 10 mil parâmetros diferen-


High Tower TowerView
tes) em ambiente gráfico tridimensional.

Um conjunto de ferramentas para criação de mostradores gráficos


IBM ILOG Visualization
interativos.

Ferramenta web de análise visual de dados em tempo real e aplicativo de


InetSoft Style Scope
dashboard com controles drag and drop.

Tecnologia de visualização de dados com filtros dinâmicos (dynamic filters),


Miner3D K-Means e outros métodos que permitem a análise visual de dados científicos
e de negócios.

Ferramenta de visualização para análise de dados estáticos e dinâmicos, dis-


NovoSpark Visualizer
ponível na versão comercial e free (on-line).

Ferramenta de visualização de dados otimizada para monitoramento e aná-


Panopticon lise de dados em tempo real, com um modelo de dados OLAP na memória e
capacidade de se conectar a praticamente qualquer fonte de dados.

Software desenvolvido por Alfred Inselberg, inventor do método de coorde-


Parallax: Multi-Dimensional Graphs
nadas paralelas, para visualização e classificação.

Visualização multiusuário, plataforma de conhecimento, capacita especialis-


Quantum 4d tas e usuários não técnicos a construir, navegar, editar e explorar universos
n-dimensionais usando uma interface 3D dinâmica.

Utiliza combinação de redes neurais, algoritmos genéticos e SOM


RapAnalyst (Self-Organizing Map) para visualizar o conhecimento e trabalhar com
dados multidimensionais.

Ferramenta de visualização de dados para análises e elaboração de


SAP BusinessObjects Xcelsius Enterprise dashboards interativos e conexões seguras com o SAP BusinessObjects
Enterprise e o SAP BusinessObjects Edge.

Startree, Tablelens, Timewall e Vizserver são ferramentas que disponibilizam


SAP Business Objects Tools for ambientes visuais para exploração de hierarquias e relacionamentos em suas
Advanced Visualization aplicações, análise de tendências de dados tabulares e visualização (previsão)
de horizontes de longo prazo.

Sentinel Visualizer Ferramenta para análises complexas e visualização de redes sociais.

Planilha para bancos de dados que permite explorar visualmente, analisar e


Tableau
criar relatórios.

Representação visual intuitiva, exploração e modelagem de distribuições


Viscovery de dados complexos, utilizando SOM (Self-Organizing Map) e estatísticas
clássicas.

Fonte: KDNUGGETS, 2014. (Adaptado).


Ferramentas comerciais de visualização de dados.
Sistemas de Apoio à Decisão para Business Intelligence 136

O segundo grupo é o de ferramentas freeware:

Ferramenta Descrição

d3.js – Data-Driven Documents Biblioteca JavaScript para processamento e visualização de documentos HTML.

Conjunto de programas para agrupamento, visualização e classificação com


Databionic ESOM Tools
ESOM (Emergent Self-Organizing Maps).

DataWrangler Ferramenta interativa para limpeza e transformação de dados.

Ferramenta open source de visualização interativa e exploração de dados de to-


Gephi
dos os tipos de redes e sistemas complexos, dinâmicos e grafos hierárquicos.

Permite visualizações 3D, apresentação de códigos de cores e tons de cinza e cor-


IBM OpenDX – Open Visualization tes no objeto para que se tenha uma visão interna e, em seguida, apresente-se
Data Explorer dados sobre esse plano de corte em um gráfico codificado. Possui funcionalida-
des para rotacionar objetos e realizar animações desses movimentos.

InetSoft Dashboardfre – Style Scope Aplicativo web gratuito para criação de dashboards interativos em Flash e outras
Free Edition visualizações.

Framework de visualização de informação dedicado à análise e visualização de da-


Tulip
dos relacionais (livre).

i Visalix Aplicação web visual para análise e agrupamento de dados.

XDAT – X-dimensional Data Analysis Ferramenta que pode trabalhar com dados de grandes dimensões para análise de
Tool todas as dimensões ao mesmo tempo.

Fonte: KDNUGGETS, 2014. (Adaptado).

Ferramentas freeware de visualização de dados.


Sistemas de Apoio à Decisão para Business Intelligence 137

Pudemos observar que não existe uma ferramenta que atenda a todas as neces-
sidades de uma organização. A escolha da ferramenta irá depender da informação que
se deseja visualizar e de que maneira.
Vamos apresentar, a seguir, uma ferramenta freeware para exemplificar a visua-
lização de dados. Escolhemos a Linguagem R, um pacote estatístico que implementa
algoritmos de mineração de dados e permite a geração de diversos tipos de visualiza-
ções, além de permitir programação especializada em computação com dados.
Embora não seja específica para mineração de dados, escolhemos essa ferramen-
ta porque, de acordo com a pesquisa 2013 Rexer Analytics Data Miner Survey, 70% dos
desenvolvedores de aplicações para mineração de dados a utilizam. É uma linguagem
gratuita, criada por Ross Ihaka e Robert Gentleman na Universidade de Auckland, na
Nova Zelândia, sob os termos da Licença Pública Geral GNU 3, e atualmente é mantida
pela comunidade mundial de desenvolvedores (THE R, 2007).
Para a mineração de dados com essa linguagem, utilizaremos o software Rattle (R
analytical tool to learn easily), também freeware. Essa ferramenta apresenta uma inter-
face gráfica que facilita a utilização da Linguagem R para análise, manipulação e mine-
ração de dados.
Para a realização dos experimentos, criamos uma tabela para os testes. Suponha
que o objetivo seja descobrir a existência de relações do tipo “quem compra x tam-
bém compra y” entre os produtos escolhidos. Essa é uma das principais aplicações co-
merciais utilizadas pelas empresas: realizar promoções que combinem dois produtos
que são muito comprados, ou dois produtos que são muito comprados junto com ou-
tro que não tem vendas tão expressivas.
Sistemas de Apoio à Decisão para Business Intelligence 138

ID Pão Manteiga Torrada Vassoura Bolacha Caneta Saco p/ lixo Fralda Arroz

1 Sim Não Não Não Não Sim Sim Sim Sim

2 Não Sim Não Sim Sim Não Não Não Não

3 Não Não Sim Não Não Não Sim Não Sim

4 Sim Não Sim Sim Sim Sim Não Sim Não

5 Não Não Sim Não Não Não Não Não Não

6 Não Sim Não Sim Não Sim Sim Sim Sim

7 Sim Não Não Não Sim Não Não Não Não

8 Sim Não Não Não Não Sim Sim Sim Não

9 Não Não Sim Sim Não Não Sim Não Não

10 Sim Sim Não Sim Sim Não Não Não Não

11 Sim Não Não Sim Não Sim Sim Sim Sim

12 Não Sim Não Sim Sim Sim Sim Não Sim

13 Sim Sim Não Não Não Não Não Não Não

14 Sim Sim Não Sim Não Sim Sim Não Sim

15 Não Não Sim Sim Não Não Sim Não Sim

16 Sim Sim Não Sim Sim Não Não Não Não

17 Sim Não Não Não Não Sim Sim Sim Não

18 Não Sim Não Não Não Sim Sim Não Não

19 Sim Não Não Não Não Não Não Não Não

20 Sim Sim Não Não Sim Sim Sim Não Não

21 Não Não Sim Sim Não Não Sim Não Sim

22 Sim Sim Não Sim Sim Não Não Não Não

23 Sim Não Sim Sim Não Sim Sim Não Sim

Dados de entrada para a mineração na ferramenta R.

Esses dados foram usados como input pela ferramenta Rattle. Utilizamos o algo-
ritmo de classificação Apriori para a descoberta de regras. Para análise dos atributos,
o Rattle apresenta um gráfico no qual é possível observar a frequência relativa de cada
produto em análise e as regras descobertas.
Sistemas de Apoio à Decisão para Business Intelligence 139

Distribuição de frequência dos atributos


Gráficos do R: Dispositivo 3 (ATIVO)

0.7
0.6
Frequência de itens (relativa)

0.5
0.4
0.3
0.2
0.1

Design Gráfico: Bernardo Beghetto


0.0

O
SIM

ÃO

SIM

ÃO

SIM

ÃO


=N

=N

=N
o=

o=
a=

ta=

oz=
ura
iga

ura

ha

lda

lix
ad

ne
sso

lac

Arr
p/
nte

Fra
sso
rr

Ca
Bo
To

co
Va
Ma

Va

Sa

Regras descobertas pelo algoritmo Apriori.


A regra 1 é interpretada da seguinte forma: quem compra pão não compra torrada, com suporte de 56,25%
e confiança de 100%.
Sistemas de Apoio à Decisão para Business Intelligence 140

4.3.4 Tendências
Uma tendência em visualização de dados é a utilização de realidade virtual (VR).
As aplicações visuais recentes incluem desenvolvimentos em VR, o que, é claro, envol-
ve mais do que apenas ver imagens.
As representações de VR permitiram avanços em diversas áreas da medicina, so-
bretudo no ensino. Simulações em realidade virtual possibilitam uma maneira de edu-
car médicos e dentistas sobre a sensação e a aparência de procedimentos cirúrgicos
reais. Imagens tridimensionais de órgãos tornaram possível a cirurgia robótica. A VR
também pode ser usada no tratamento de fobias.

Realidade virtual é uma tecnologia interativa 3D que fornece ao usuário uma sensação de que ele
está fisicamente presente em um mundo virtual (produzido em computador) (TURBAN, 2010).

A háptica (tecnologia do toque virtual) é usada em conjunto com a VR para acele-


rar as aplicações. A Harvard School of Dental Medicine está trabalhando em um meio
de permitir o ensino da odontologia com o uso da háptica. Aplicações cirúrgicas estão
em desenvolvimento para proporcionar com precisão a textura, o peso e a fragilidade
de partes reais do corpo humano. A Ortho Biotech Inc. desenvolveu um simulador mó-
vel de VR para auxiliar os médicos a compreender como os pacientes da quimiotera-
pia sentem-se fisicamente. A maioria dos médicos que passou pelo simulador mudou a
forma de tratar a fadiga relacionada ao câncer e de se referir a ela.
A VR é usada há anos no treinamento de voo. Pilotos desenvolvem habilida-
des manuais e técnicas através das simulações baseadas em VR. Fabricantes de au-
tomóveis usam a VR para ajudar a resolver problemas de projetos e reduzir custos. A
MathWorks Inc. oferece uma caixa de ferramentas que fornece aos engenheiros uma
visão profunda e animada dos modelos dinâmicos.
Empresas navais e petrolíferas utilizam simulação virtual de ambientes em suas
explorações. Um exemplo de aplicação é a visualização em realidade virtual dos poços
de petróleo em exploração por especialistas que são capazes de prever a profundidade
em que está o petróleo. Ao mesmo tempo, sistemas de mineração de dados combina-
dos com inteligência artificial buscam por padrões que possam dar suporte às decisões
dos especialistas.
Sistemas de Apoio à Decisão para Business Intelligence 141

4.4 Considerações finais

© pressmaster / / Fotolia
A visualização de dados pode utilizar modelos para o mapeamento e a apresenta-
ção gráfica de dados, com o objetivo de agregar valor e aprimorar a tomada de decisão.
As técnicas de visualização podem variar conforme os tipos de dados que es-
tão sendo analisados: mostradores de progresso (gauges) para a apresentação do an-
damento de um processo, o volume de ocupação ou de utilização de um recurso ou o
nível de desempenho de determinado indicador em relação a determinada meta; grá-
ficos de barras para comparação de níveis de resultados ao longo do tempo; gráficos
em pilha e de pizza para avaliação percentual entre diversos valores de uma variável e
mapas de calor para a exploração de tendências ou volumes ao longo de regiões geo-
gráficas. Pequenas tabelas, com cerca de cinco colunas e vinte linhas, também podem
ser utilizadas para apresentar dados numéricos variados. Em alguns casos são mais re-
comendáveis que os gráficos.
Atualmente, a visualização de dados é muito diversificada, podendo ser feita por
meio de simples gráficos de barras, pizza ou coluna, ou sofisticados mapas interativos.
Vale destacar que a interatividade é um dos diferenciais que faz com que os gráficos
sejam mais atrativos para os usuários, além da possibilidade de trabalhar simultanea-
mente com multidimensões.
Sistemas de Apoio à Decisão para Business Intelligence 142

A mineração de dados (MD), uma das principais etapas do processo de descober-


ta de conhecimento em base de dados, busca padrões desconhecidos em grandes vo-
lumes de dados pela utilização de algoritmos diversos. A MD já é bastante utilizada
nas organizações, apesar de, muitas vezes, trazer dificuldades ao tomador de decisão,
quando lhe apresenta resultados não habituais. Por exemplo, normalmente uma re-
gra de decisão é facilmente compreendida, mas as coordenadas do posicionamento do
centro de um agrupamento não.
Algumas ferramentas de mineração permitem visualizações de dados, como
Linguagem R, open source, e outras disponibilizam a utilização de pacotes prontos para
mineração de dados, como a ferramenta Rattle.
Sistemas de Apoio à Decisão para Business Intelligence 143

Referências
FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining. AAAI Press,
The MIT Press, 1996.
JUICE ANALYTICS. Color has Meaning. 2014. Disponível em: <http://www.juiceanalytics.
com/design-principles/color-has-meaning>. Acesso em: 30/04/2014.
KDNUGGETS. Visualization and Data Mining Software. Disponível em: <http://www.
kdnuggets.com/software/visualization.html>. Acesso em: 30/04/2014.
MARTIN, J. R. What is Data Mining? Disponível em: <http://maaw.info/DataMining.htm>.
Acesso em: 09/02/2014.
REXER ANALYTICS. 2011 Data Miner Survey. Disponível em: <http://www.rexeranalytics.
com/Data-Miner-Survey-Results-2011.html>. Acesso em: 13/10/2013.
TURBAN, E. et al. Tecnologia da Informação para Gestão: transformando os negócios na
economia digital. 6. ed. Porto Alegre: Bookman, 2010.
TURBAN, E. et al. Business Intelligence: um enfoque gerencial para a inteligência do
negócio. Porto Alegre: Bookman, 2009.
TURBAN, E.; VOLONINO, L. Tecnologia da Informação para Gestão: em busca do melhor
desempenho estratégico e operacional. 8. ed. Porto Alegre: Bookman, 2013.
Wikimedia Commons. Geothermal Heat Map US. Disponível em: <http://commons.
wikimedia.org/wiki/File:Geothermal_heat_map_US.png>. Acesso em: 09/02/2014.
Sistemas de Apoio à Decisão para Business Intelligence 144

You might also like