You are on page 1of 50

Universidade Federal de Pernambuco

Graduao em Cincia da Computao


Centro de Informtica

2006.2

Conceitos, tcnicas, ferramentas e aplicaes de


Minerao de Dados para gerar conhecimento a
partir de bases de dados

Aluno: Thiago Amorim (tmas@cin.ufpe.br)


Orientador: Fernando da Fonseca de Souza (fdfd@cin.ufpe.br)

A verdadeira perfeio precisa ser imperfeita Noel Gallagher (Oasis)

RESUMO
Este trabalho apresenta a anlise de tcnicas, ferramentas e metodologias para praticar-se
uma importante rea da administrao de dados em uma organizao, denominada de
Minerao de Dados, visando melhoria da qualidade dos mesmos. As etapas do
processo de minerao de dados so detalhadas. Algumas tcnicas utilizadas durante o
processo so abordadas. analisada a utilizao da minerao de dados atualmente em
diversas reas importantes de nossa sociedade. So tambm analisadas ferramentas que
auxiliam este processo.

Palavras-chave: Minerao de dados, Qualidade de dados, Administrao de Dados,


Arquitetura de Dados, Modelagem de Dados.

ABSTRACT
This work presents an analysis of techniques, tools and methodologies for the practice of
an important area of Data Administration in an organization, known as Data Mining. It is
aimed at improving data quality. The stages of the data mining process are detailed too.
Some techniques used during the process are focussed. The use of data mining on
different important areas of our society is analyzed. Tools that assist this process are also
analyzed.

Keywords: Data Mining, Data Quality, Data Administration, Data Architecture, Data
Modeling

Dedico este trabalho a minha famlia e amigos

AGRADECIMENTOS
Aos meus pais, por sempre terem colocado a minha educao em
primeiro lugar, e por sempre terem se sacrificado para que eu pudesse
realizar os meus objetivos.
Aos meus irmos e amigos, por serem fonte de minha inspirao, e da
minha felicidade.
Ao meu orientador, Fernando, pelos ensinamentos, apoio e ajuda no
desenvolvimento deste trabalho.

SUMRIO
1

Introduo ................................................................................................................ 10
1.1

Problemtica............................................................................................................... 10

1.2

Objetivos da Monografia........................................................................................... 12

1.2.1

Objetivo Principal................................................................................................................. 12

1.2.2

Objetivos Especficos ........................................................................................................... 12

1.3

Relevncia................................................................................................................... 12

1.4

Metodologia de Trabalho .......................................................................................... 14

1.5

Organizao da Monografia ..................................................................................... 15

Minerao de Dados ................................................................................................ 16


2.1

Fases da Minerao de Dados ................................................................................... 18

2.1.1 Entendimento do Negcio (Business Understanding)................................................................ 19


2.1.2 Seleo dos Dados (Data Understanding).................................................................................. 20
2.1.3 Limpeza dos Dados (Data Preparation) ..................................................................................... 20
2.1.4 Modelagem dos Dados (Modeling)............................................................................................ 21
2.1.5 Avaliao do processo (Evaluation)........................................................................................... 21
2.1.6 Execuo (Deployment)............................................................................................................. 22

2.2

Tcnicas....................................................................................................................... 22

2.2.1 Classificao .............................................................................................................................. 23


2.2.2 Estimativa .................................................................................................................................. 24
2.2.3 Previso...................................................................................................................................... 25
2.2.4 Anlise de Afinidades ................................................................................................................ 25
2.2.5 Anlise de agrupamentos ........................................................................................................... 26

2.3

Tipos de Algoritmos................................................................................................... 27

2.3.1 rvores de Deciso .................................................................................................................... 27


2.3.2 Redes Neurais ............................................................................................................................ 28

Aplicaes Prticas .................................................................................................. 30


3.1

Segmentao de Mercados ........................................................................................ 30

3.2

Varejo.......................................................................................................................... 33

3.3

Mercado Financeiro................................................................................................... 34

Anlise de Ferramentas ........................................................................................... 36


4.1

SAS Enterprise Miner ............................................................................................... 36

4.2

IBM Intelligent Miner ............................................................................................... 39

4.3

Oracle Darwin Data Mining Software ..................................................................... 43

Concluses................................................................................................................ 46
5.1

Trabalhos Futuros...................................................................................................... 46

5.2

Consideraes Finais.................................................................................................. 47

Referncias ............................................................................................................... 48

LISTA DE FIGURAS
Figura 1: Evoluo do valor estratgico de bases de dados (Baseado em [Navega,
2002])........................................................................................................................ 13
Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM
Consortium, 2000]) ................................................................................................... 19
Figura 3: Fluxo da minerao de dados em anlise de emprstimo [SAS, 2007]. .......... 37
Figura 4: Anlise de Agrupamentos [SAS, 2007]. .......................................................... 38
Figura 5: Comparao de tcnicas [SAS, 2007].............................................................. 39
Figura 6: Anlise de agrupamentos de clientes bancrios [IBM, 2007].......................... 40
Figura 7: Grfico de setores circulares INT_CREDITCARD [IBM, 2007].................... 41
Figura 8: Tabela de clientes, com os agrupamentos informados [IBM, 2007]. .............. 41
Figura 9: Anlise de afinidades [IBM, 2007].................................................................. 42
Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007]..... 44
Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle,
2007]. ........................................................................................................................ 44
Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle,
2007]. ........................................................................................................................ 45

1 Introduo
Cada vez mais, imensos volumes de informao tm sido sistematicamente
coletados e armazenados por grandes organizaes. A quantidade de informao
armazenada ultrapassa a habilidade tcnica e a capacidade humana na sua
interpretao. Bancos de dados, por exemplo, so medidos hoje em gigabytes e
terabytes.

O custo de uma m qualidade desses dados pode ser decisivo para o sucesso de uma
empresa. Com isso, essencial o estudo da Administrao de Dados para garantir a
qualidade dos dados que so inseridos e recuperados em uma base de dados. A
administrao de dados consiste no desenvolvimento e execuo de estratgias,
prticas e procedimentos para o processo de gerncia do ciclo de vida completo dos
dados em uma empresa [DAMA International, 2006].

1.1 Problemtica
As organizaes tm se mostrado extremamente eficientes em capturar, organizar e
armazenar grandes quantidades de dados, obtidos de suas operaes dirias. Porm,
a maioria delas ainda no usa adequadamente essa gigantesca massa de dados para
transform-la em conhecimentos que possam ser utilizados em suas prprias
atividades. Com a gerao de um volume cada vez maior de informao, essencial
tentar aproveitar o mximo possvel desse investimento.

Uma excelente prtica de Administrao de Dados o enriquecimento dos dados,


gerando ainda mais informao e conhecimento, melhorando assim a sua qualidade.
Esta informao preciosa est na verdade implcita escondida sob uma grande
massa de dados, e no pode ser descoberta utilizando-se sistemas de gerenciamento

10

de banco de dados convencionais1. A soluo existe, e chama-se Minerao de


Dados [Navega, 2002]. Este processo uma etapa de outro conhecido como
extrao de conhecimento em bases de dados ou Knowledge-Discovery in
Databases (KDD)2 [Fayyad et al., 1996].

Minerao de dados, ou data mining, o processo de anlise de conjuntos de dados


que tem por objetivo a descoberta de padres interessantes e que possam
representar informaes teis. O processo de minerao de dados permite que se
investiguem esses dados procura de padres que tenham valor para a empresa.
Este conceito est se tornando cada vez mais popular como uma ferramenta de
gerenciamento de informao, que deve revelar estruturas de conhecimento,
podendo guiar decises em condies de certeza limitada.

Com a utilizao da minerao de dados, pode-se analisar dados comportamentais,


obtendo conhecimento que estava escondido na base de dados, gerando
aprendizado e dados complementares que podem influenciar no desenvolvimento de
estratgias na organizao. Esta tecnologia est sendo usada para descrever
caractersticas do passado, assim como predizer tendncias para o futuro. Sua
utilizao permite avanos tecnolgicos e descobertas cientficas, alm de garantir
uma vantagem competitiva invejvel [Sferra e Corra, 2003].

De acordo com o Wikipedia, a enciclopdia livre: Um Sistema Gerenciador de Banco de Dados ou

Sistema Gestor de Base de Dados (SGBD) o conjunto de programas de computador (software)


responsveis pelo gerenciamento de uma base de dados. O principal objetivo retirar da aplicao cliente a
responsabilidade de gerenciar o acesso, manipulao e organizao dos dados. O SGBD disponibiliza uma
interface para que os seus clientes possam incluir, alterar ou consultar dados. Em bancos de dados
relacionais a interface constituda pelas API ou drivers do SGBD, que executam comandos na linguagem
SQL [Wikipedia, 2006].
2

Uma definio importante para KDD foi elaborada por Usama Fayyad (Fayyad et al. 1996): "...o processo

no-trivial de identificar, em dados, padres vlidos, novos, potencialmente teis e ultimamente


compreensveis" [Fayyad, 1996].

11

1.2 Objetivos da Monografia


Nesta seo sero apresentados o objetivo principal desse trabalho e o
detalhamento dos objetivos especficos.

1.2.1 Objetivo Principal

O objetivo principal desta monografia destacar o tpico da minerao de dados


como uma importante rea da Administrao de Dados, sendo um processo para
melhorar a qualidade dos dados de uma organizao.

1.2.2 Objetivos Especficos

Ainda sero abordados assuntos especficos, com a finalidade de:

Esclarecer a relevncia do tema como meio de agregar valor a diferentes


reas da nossa sociedade; e

Analisar a utilizao de ferramentas para auxiliar no processo de


minerao de dados.

1.3 Relevncia
Quando aplicada em uma empresa, a minerao de dados melhora a interao entre
empresa e cliente, aumenta vendas e dirige as estratgias de marketing. A
minerao de dados, porm, pode ser aplicada a qualquer massa de dados, sejam
eles oriundos da Medicina, Economia, Astronomia, Geologia, entre outras reas de
estudo. A relevncia deste trabalho fundamenta-se na importncia da adoo de
tcnicas de minerao de dados para melhorar a qualidade de dados em um SGBD,
como parte do trabalho de Administrao de Dados.

12

Figura 1: Evoluo do valor estratgico de bases de dados (Baseado em [Navega, 2002]).

A Figura 1 mostra o posicionamento lgico de diferentes fases da tomada de


deciso com seu valor potencial para as dimenses ttica e estratgica de uma
organizao. Em geral, o valor da informao para apoiar a tomada de deciso
aumenta a partir da base da pirmide. Uma deciso baseada em dados nas camadas
mais baixas, onde h tipicamente milhes de registros de dados, no possui muito
valor agregado; j aquela apoiada em dados altamente resumidos nas camadas
superiores da pirmide tem probabilidade de alto valor estratgico.

Da mesma forma, encontram-se diferentes usurios nas diferentes camadas. Um


administrador, por exemplo, no nvel operacional, trabalha primariamente com
informaes dirias e operaes de rotina, encontradas em arquivos e bases de
dados, na base da pirmide informacional. Esses criam dados. Enquanto analistas de
negcios e executivos, responsveis por indicarem direes, formulam estratgias e
tticas, supervisionando a sua execuo, e estes necessitam de informaes de
maior qualidade. Preocupam-se com tendncias, padres, ameaas, pontos fortes e

13

fracos, oportunidades, informao de mercado, entre outros. Necessitam de


informaes internas e externas. So os que demandam dados analisados com alto
valor agregado, as do topo da pirmide.

1.4 Metodologia de Trabalho


A metodologia utilizada no desenvolvimento deste trabalho se constitui das seguintes
fases:

1. Reviso bibliogrfica dos conceitos e etapas do processo de minerao


de dados buscou-se estudar os conceitos da minerao de dados e o
aprofundamento em cada fase do processo;

2. Reviso bibliogrfica das tcnicas relacionadas ao processo de


minerao de dados esta atividade se constituiu na anlise de diferentes
tcnicas da minerao de dados, bem como em um estudo comparativo da
relevncia e utilidade de cada tcnica;

3. Estudo da utilidade da minerao de dados em diversas reas de


conhecimento da sociedade esta etapa do estudo visou analisar as formas
que a minerao de dados vem agregando valor a diferentes reas de nossa
sociedade, bem como indicar novas possibilidades de uso da minerao de
dados em outras reas; e

4. Estudo das ferramentas que auxiliam na minerao de dados


procurou-se pesquisar e estudar ferramentas que auxiliam no processo de
minerao de dados como forma de melhorar a qualidade dos dados em um
SGBD.

14

1.5 Organizao da Monografia


Alm deste captulo, esta monografia encontra-se organizada em mais 5 (cinco)
captulos:

O Captulo 2 ir detalhar todo o processo de minerao de dados, destacando cada


fase desse processo, desde a seleo dos dados e sua filtragem, aos algoritmos e
tcnicas utilizadas para o reconhecimento de padres.

O captulo 3 mostrar o uso do processo de minerao de dados em diferentes reas


de conhecimento, destacando o quanto a prtica da administrao de dados focando
na melhoria da qualidade dos mesmos, pode agregar de valor para uma empresa e em
particular para a sociedade.

O captulo 4 apresentar um estudo comparativo de ferramentas de minerao de


dados disponveis atualmente, mostrando as funcionalidades e caractersticas de cada
uma delas, como tambm as tcnicas que elas utilizam.

O Captulo 5 ir apresentar uma concluso para o trabalho, destacando as


contribuies providas pelo mesmo, como tambm apresentando sugestes de
possveis trabalhos futuros.

Finalmente, sero listadas as referncias bibliogrficas utilizadas neste trabalho.

15

2 Minerao de Dados
A Minerao de Dados pode ser definida como um conjunto de tcnicas
automticas de explorao de grandes massas de dados de forma a descobrir novos
padres e relaes que, devido ao volume de dados, no seriam facilmente
descobertas a olho nu pelo ser humano. De fato, muitas so as tcnicas utilizadas,
porm a minerao de dados ainda mais uma arte do que uma cincia. O
sentimento do especialista no pode ser dispensado, mesmo que as mais sofisticadas
tcnicas sejam utilizadas.

Ainda que as tcnicas da Minerao de Dados sejam antigas, foi apenas nos ltimos
anos que passaram a ser usadas como explorao de dados, por vrios motivos
[Carvalho, 2005]:

O volume de dados disponvel atualmente enorme Minerao de Dados


uma tcnica que s se aplica a grandes massas de dados, pois necessita disto
para calibrar seus algoritmos e extrair dos dados concluses confiveis.
Empresas de telefonia, cartes de crdito, bancos, televiso por assinatura,
comrcio eletrnico, entre outras, vem gerando a cada dia uma grande
quantidade de dados sobre seus servios e clientes. Estes dados so passveis de
anlise por minerao;

Os dados esto sendo organizados - Com a tecnologia do dataware house3, os


dados de vrias fontes esto sendo organizados e padronizados de forma a
possibilitar sua organizao dirigida para o auxlio deciso. As tcnicas de

De acordo com o Wikipedia: Data Warehouse uma coleo de dados orientados por assuntos,

integrados, variveis com o tempo e no volteis, para dar suporte ao processo de tomada de deciso; Data
Warehousing um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados
histricos e dados externos para atender necessidade de consultas estruturadas e ad-hoc, relatrios
analticos e de suporte a deciso [Wikipedia, 2006].

16

minerao de dados necessitam de bancos de dados limpos, padronizados e


organizados;

Os recursos computacionais esto cada vez mais potentes - A minerao de


dados necessita de muitos recursos computacionais para operar seus algoritmos
sobre grandes quantidades de dados. O aumento da potncia computacional,
devido ao avano tecnolgico e queda dos preos dos computadores, facilita o
uso da minerao de dados atualmente. O avano da rea de banco de dados,
construindo bancos de dados distribudos, tambm auxiliou em muito
minerao de dados;

A competio empresarial exige tcnicas mais modernas de deciso - As


empresas da rea de finanas, telecomunicaes e seguro experimentam a cada
dia mais competio. Como estas empresas sempre detiveram em seus bancos
de dados uma enorme quantidade de informao, natural que a minerao de
dados tenha se iniciado dentro de seus limites. Atualmente, outras empresas
buscam adquirir dados para analisar melhor seus caminhos futuros atravs dos
sistemas de apoio deciso. Para empresas de servios, a aquisio de dados
importante, pois precisam saber que servio oferecer a quem. Para outras
empresas, at a venda das informaes pode ser um produto; e

Programas comerciais de minerao de dados j podem ser adquiridos - As


tcnicas de minerao de dados so antigas conhecidas da Inteligncia
Artificial, porm somente recentemente saram dos laboratrios para as
empresas. Alguns pacotes j podem ser encontrados no comrcio, contendo
algumas destas tcnicas. As tcnicas mais recentes, no entanto, ainda se
encontram no campo acadmico, sendo necessrio que a empresa se dirija a uma
universidade que realize pesquisa para obter ajuda.

17

2.1 Fases da Minerao de Dados

Em 1996, um conjunto de trs empresas especializadas no ento jovem e imaturo


mercado de data mining, desenvolveram um modelo de processos genricos, com o
intuito de padronizar as etapas do processo de minerao de dados, dando incio ao
denominado projeto CRISP-DM (CRoss Industry Standard Process for Data
Mining) [The CRISP-DM Consortium, 2000].

Este projeto desenvolveu um modelo de processo de minerao de dados industrial


e livre de ferramenta. Comeando pelos embrionrios processos de descoberta de
conhecimento usados nos primeiros projetos de minerao de dados e respondendo
diretamente aos requerimentos do usurio, esse projeto definiu e validou um
processo de minerao de dados que aplicvel em diversos setores da indstria.
Essa metodologia torna projetos de minerao de dados de larga escala mais
rpidos, mais baratos, mais confiveis e mais gerenciveis. At mesmo projetos de
minerao de dados de pequena escala se beneficiam com o uso do CRISP-DM. O
modelo CRISP, atualmente, uma referncia para que seja desenvolvido um plano
de integrao para a descoberta de conhecimento.

O atual processo para minerao de dados prope uma viso geral do ciclo de vida
de um projeto de minerao de dados. Ele contm as fases correspondentes de um
projeto, suas respectivas tarefas e relacionamentos entre essas tarefas.

Na Figura 2 mostrado o ciclo de vida de um projeto de minerao de dados, que


consiste de 6 (seis) fases. A seqncia de fases no obrigatria, ocorrendo a
transio para diferentes fases, dependendo do resultado de cada fase, e que etapa
particular de cada fase precisa ser executada em seguida. As setas indicam as mais
importantes e mais freqentes dependncias entre as fases.

O ciclo externo na figura simboliza o ciclo natural da minerao de dados. Um


processo de minerao de dados continua aps a soluo ter sido desenvolvida. As
18

lies aprendidas durante o processo podem provocar perguntas novas,


freqentemente mais pertinentes ao negcio. Processos subseqentes se
beneficiaro das experincias de processos anteriores.

Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000])

Segue abaixo uma sntese das etapas pertencentes ao modelo CRISP [The CRISPDM Consortium, 2000]:

2.1.1 Entendimento do Negcio (Business Understanding)

Essa fase inicial tem o foco no entendimento do negcio que visa obter
conhecimento sobre os objetivos do negcio e seus requisitos, e ento converter
esse conhecimento em uma definio de um problema de minerao de dados, e um
plano preliminar designado para alcanar esses objetivos.

19

2.1.2 Seleo dos Dados (Data Understanding)

Consiste no entendimento dos dados, que visa familiarizao com o banco de


dados pelo grupo de projeto, utilizando-se de conjuntos de dados "modelo". Uma
vez definido o domnio sobre o qual se pretende executar o processo de descoberta,
o prximo passo selecionar e coletar o conjunto de dados ou variveis necessrias.

Essa fase se inicia com uma coleta inicial de dados, e com procedimentos e
atividades visando a familiarizao com os dados, para identificar possveis
problemas de qualidade, ou detectar subconjuntos interessantes para formar
hipteses.

2.1.3 Limpeza dos Dados (Data Preparation)

A fase de preparao de dados consiste na preparao dos dados que visa a limpeza,
transformao, integrao e formatao dos dados da etapa anterior. a atividade
pela qual os rudos, dados estranhos ou inconsistentes so tratados. Esta fase
abrange todas as atividades para construir o conjunto de dados final (dados que
sero alimentados nas ferramentas de minerao), a partir do conjunto de dados
inicial.

A utilizao de Data Warehouses facilita em muito esta etapa do processo de


minerao de dados, que costuma ser a fase que exige mais esforo,
correspondendo geralmente a mais de 50% do trabalho. Por isso, muito
importante para uma organizao, que ela possua em seus processos habituais boas
prticas da administrao de dados, como o Data Cleansing, que uma parte
fundamental da cadeia da administrao da informao, responsvel pelas etapas de
deteco, validao e correo de erros em bases de dados [Chapman, 2005].

20

2.1.4 Modelagem dos Dados (Modeling)

Fase que consiste na modelagem dos dados, a qual visa a aplicao de tcnicas de
modelagem sobre o conjunto de dados preparado na etapa anterior.

Nessa fase, vrias tcnicas de modelagem so selecionadas e aplicadas, e seus


parmetros so calibrados para se obter valores otimizados. Geralmente, existem
vrias tcnicas para o mesmo tipo de problema de minerao. Algumas tcnicas
possuem requerimentos especficos na forma dos dados. Conseqentemente, voltar
para a etapa de preparao de dados freqentemente necessrio.

A maioria das tcnicas de minerao de dados so baseadas em conceitos de


aprendizagem de mquina, reconhecimento de padres, estatstica, classificao e
clusterizao.

2.1.5 Avaliao do processo (Evaluation)

A avaliao do processo visa garantir que o modelo gerado atenda s expectativas


da organizao. Os resultados do processo de descoberta do conhecimento podem
ser mostrados de diversas formas. Porm, estas formas devem possibilitar uma
anlise criteriosa para identificar a necessidade de retornar a qualquer um dos
estgios anteriores do processo de minerao.

Nesta etapa se construiu um modelo que parece de alta qualidade, de uma


perspectiva da anlise de dados. Antes de prosseguir, importante avaliar mais
detalhadamente o modelo, e rever as etapas executadas para construir o modelo,
para se certificar de que ele conseguir alcanar os objetivos de negcio.

21

Deve se determinar se houve algum importante objetivo do negcio que no foi


suficientemente alcanado. No fim desta fase, uma deciso sobre o uso dos
resultados da minerao deve ser tomada.

2.1.6 Execuo (Deployment)

Esta fase consiste na definio das fases de implantao do projeto de Minerao de


Dados.

A criao do modelo no o fim do projeto. Mesmo se a finalidade do modelo for


apenas aumentar o conhecimento dos dados, o conhecimento ganho necessitar ser
organizado e apresentado em uma maneira que o cliente possa usar. Dependendo
das exigncias, a fase de execuo pode ser to simples quanto a gerao de um
relatrio, ou to complexo quanto executar processos de minerao de dados
repetidamente.

Em muitos casos ser o cliente, no o analista dos dados, que realizar as etapas da
execuo. Entretanto, mesmo se o analista no se encarregar da execuo
importante que ele faa o cliente compreender que medidas devero ser tomadas a
fim de empregar efetivamente os modelos criados.

2.2 Tcnicas
Existem 5 (cinco) tcnicas gerais de minerao de dados que englobam todas as
outras formas de apresentao e permitem uma viso mais global e apropriada ao
assunto. So elas a classificao, a estimativa, a previso, a anlise de afinidades e a
anlise de agrupamentos [Carvalho, 2005].

22

2.2.1 Classificao

A classificao uma das mais utilizadas tcnicas de minerao de dados,


simplesmente porque uma das mais realizadas tarefas humana no auxlio
compreenso do ambiente em que se vive. O ser humano est sempre classificando
o que percebe a sua volta, criando classes de relaes humanas diferentes (colegas
de trabalho, amigos, familiares, por exemplo...) e dando a cada classe uma forma
diferente de tratamento.

A classificao pode ser sintetizada por um processo de discriminao de unidades


em classes ou categorias. Assim, classificam-se sabores, amigos, clientes, eventos,
entre outros, em categorias, tais como doce / salgado / neutro, bom / mau e legal /
ilegal.

Em um processo de minerao de dados, a classificao est especificamente


voltada atribuio de uma das classes pr-definidas pelo analista a novos fatos ou
objetos submetidos classificao. Essa tcnica pode ser utilizada tanto para
entender dados existentes quanto para prever como novos dados iro se comportar
[Euriditionhome, 2004].

Como no mundo fsico nada exatamente igual, por mais semelhante que parea,
para se criar classes preciso permitir que detalhes sejam desprezados e somente as
caractersticas principais sejam observadas. A tarefa de classificar geralmente exige
a comparao de um objeto ou dado com outros dados ou objetos que supostamente
pertenam a classes anteriormente definidas. Para comparar dados ou objetos
utiliza-se uma mtrica ou forma de medida de diferenas entre eles.

Na minerao de dados so comuns as tarefas de classificao de clientes em baixo,


mdio ou alto risco de emprstimo bancrio; de clientes potencialmente
consumidores de um determinado produto a julgar pelo seu perfil; de transaes
financeiras como legais, ilegais ou suspeitas em sistemas de fiscalizao do
23

mercado financeiro; de aes da bolsa de valores com lucros potenciais baixos,


mdios e altos, entre outras.

Os algoritmos mais utilizados para este fim so os de rvores de deciso [Pelegrin


et al., 2005], regresso [Han et al., 2001] e redes neurais [Sousa, 1998].

2.2.2 Estimativa

A estimativa, ao contrrio da classificao, est associada a respostas contnuas.

Estimar algum ndice determinar seu valor mais provvel diante de dados do
passado ou de dados de outros ndices semelhantes sobre os quais se tem
conhecimento.

Suponha que se deseja determinar o gasto de famlias cariocas com lazer e que para
isto se possua ndices de gastos de famlias paulistanas com lazer, em funo da
faixa etria e padro scio-cultural. No se sabe exatamente quanto as famlias
cariocas gastam com lazer mas se pode estimar baseando-se nos dados das famlias
paulistanas. Certamente que esta estimativa pode levar a grandes erros, uma vez que
Rio de Janeiro e So Paulo so cidades com geografias diferentes e que oferecem
diferentes opes de lazer a seus habitantes.

A arte de estimar exatamente esta: determinar da melhor forma possvel um valor,


baseando-se em outros valores de situaes semelhantes.

Os algoritmos de regresso e as redes neurais so bastante utilizados nestes casos.

24

2.2.3 Previso

A previso, como tarefa tpica de DM, est associada avaliao de um valor futuro
de uma varivel a partir dos dados histricos do seu comportamento passado.
Assim, pode-se prever, por exemplo, se o ndice bovespa subir ou descer no dia
seguinte; qual ser o valor de determinada ao daqui a um determinado perodo de
tempo; o nmero de clientes que sero perdidos por uma empresa, em um dado
horizonte futuro de tempo; qual ser a populao de uma certa cidade daqui a dez
anos; entre outras coisas.

A nica maneira de avaliar se a previso foi bem feita aguardar o acontecimento e


verificar o quanto foi acertada ou no a previso realizada. Sem dvida, a previso
uma das tarefas mais difceis no somente na minerao de dados, mas tambm no
cotidiano das pessoas.

Os algoritmos que podem ser utilizados aqui so, dentre outros, as redes neurais, a
regresso, e as rvores de deciso.

2.2.4 Anlise de Afinidades

A anlise de afinidades preocupa-se em reconhecer padres de ocorrncia


simultnea de determinados eventos nos dados em anlise. Determinar que fatos
ocorrem simultaneamente com probabilidade razovel (co-ocorrncia) ou que itens
de uma massa de dados esto presentes juntos com uma certa chance (correlao).

O exemplo mais clssico de anlise de afinidades o do carrinho de supermercado,


do qual deseja-se conhecer quais os produtos que so comumente comprados em
conjunto pelos consumidores. Isto possibilita a otimizao do layout interno dos
supermercados e a realizao de vendas dirigidas nas quais os itens so oferecidos
j em conjuntos com preos menores.

25

Em termos de algoritmos, a utilizao das regras de associao constitui-se no


procedimento mais utilizado nestes casos [Pelegrin et al., 2005].

2.2.5 Anlise de agrupamentos

A anlise de agrupamentos visa formar grupos de objetos ou elementos mais


homogneos entre si. Pode ser estabelecido previamente um nmero de grupos a ser
formado, ou ento se pode admitir ao algoritmo de agrupamento uma livre
associao de unidades, de forma que a quantidade de grupos resultante seja
conhecida somente ao final do processo.

Uma clara diferena entre agrupamento e classificao que na classificao as


classes so pr-definidas pelo pesquisador, enquanto que aqui no existe tal
requisito. Isto torna esta tcnica muito mais complexa do que a classificao. Por
exemplo, dadas as classes animal, vegetal e mineral, relativamente simples
classificar a qual dessas classes um certo objeto pertence, porm de posse de uma
massa de dados sobre o consumo no Brasil, determinar quantas classes ou padres
de comportamento consumista existem algo bem diferente. A dificuldade reside
no fato de que podem no haver tais classes, ou seja, os dados se distribuem
igualmente por todo o espao possvel no determinando nenhuma categoria.

Na anlise de agrupamentos, os grupos ou classes so construdos com base na


semelhana entre os elementos, cabendo ao analisador das classes resultantes
avaliar se estas significam algo til. Por exemplo, agrupar sintomas pode gerar
classes que no representem nenhuma doena explicitamente, uma vez que doenas
diferentes podem possuir os mesmos sintomas.

26

A anlise de agrupamentos normalmente uma tcnica preliminar, utilizada quando


nada ou pouco se sabe sobre os dados. Segmentar um mercado uma tpica anlise
de agrupamentos onde consumidores so reunidos em classes representantes dos
segmentos deste mercado.

Em geral, a tcnica de agrupamento executada por algoritmos estatsticos


especficos para esse fim, porm as redes neurais e os algoritmos genticos [Han et
al., 2001] so tambm utilizados neste sentido.

2.3 Tipos de Algoritmos


Diversos tipos de algoritmos so utilizados nas diferentes tcnicas da minerao de
dados. Por serem os mais amplamente utilizados, dois (2) dos principais tipos de
algoritmos so brevemente descritos a seguir.

2.3.1 rvores de Deciso

O mtodo de rvores de deciso representa um tipo de algoritmo de aprendizado de


mquina que utiliza uma abordagem dividir-para-conquistar. Consiste em meios de
representar resultados de minerao de dados na forma de rvore. Neste mtodo,
permite-se ao usurio definir o objeto de sada. Com isto, a partir de um grupo de
dados possvel identificar o fator mais importante correlacionado a este objeto.
Dado um grupo de dados com numerosas colunas e linhas, uma ferramenta de
rvore de deciso pede ao usurio para escolher uma das colunas como objeto de
sada, e mostra o nico e mais importante fator correlacionado com aquele objeto de
sada como o primeiro ramo (n) da rvore de deciso [Gimenes, 2000].

O conhecimento representado nas rvores de deciso pode ser extrado e


representado na forma de regras de classificao do tipo SE-ENTO. Sendo assim,

27

cada n filho da rvore representa uma condio (antecedente) envolvendo um


atributo e um conjunto de valores. Enquanto os ns folhas, correspondem s
concluses (conseqente), que indicam a atribuio de um valor ou conjunto de
valores a um atributo do problema [Pelegrin et al., 2005].

O principal problema relativo a essas rvores que elas precisam de uma


quantidade de dados considervel para desvendar estruturas complexas. Por outro
lado, elas podem ser construdas de forma consideravelmente mais rpida do que
alguns mtodos alternativos de classificao, produzindo resultados com preciso
similar [Sousa, 1998].

2.3.2 Redes Neurais


As redes neurais so sistemas paralelos distribudos, que tentam construir
representaes de modelos ou padres achados nos dados. Estruturalmente, uma
rede neural consiste em um nmero de unidades de processamento simples
interconectadas (chamadas neurnios), que tm o objetivo de calcular determinadas
funes matemticas (funes de ativao). Os neurnios so dispostos em uma ou
mais camadas e interligados por um grande nmero de conexes. Essas conexes
esto associadas a pesos que armazenam o conhecimento representado no modelo e
ponderam as entradas recebidas por cada neurnio da rede [Sousa, 1998].

A aquisio de conhecimento a partir do ambiente feita atravs de um processo de


aprendizagem (treinamento). Na fase de treinamento, os pesos das conexes da rede
vo sendo ajustados de forma que o conhecimento extrado dos dados possa ser
representado internamente, atravs de interaes repetidas, cada hora ajustando os
parmetros que definem a superfcie. Depois de muitas repeties, uma superfcie
que se aproxima muito dos pontos dentro do grupo de dados pode ser internamente
definida [Gimenes, 2000].

28

Dentre as vantagens dos algoritmos baseados em redes neurais, est a sua robustez
ao lidar com erros no conjunto de treinamento, possibilitando uma alta tolerncia a
dados com rudos. Tambm possui boa escalabilidade e como diversos algoritmos
tm sido desenvolvidos para extrao de regras de classificao de redes neurais, a
sua interpretabilidade tem melhorado [Gouva, 2005; Sousa, 1998].

O seu ponto fraco est na necessidade de definio de muitos parmetros como a


sua estrutura e valores iniciais dos pesos, alm de longos tempos de treinamento.
Algoritmos de redes neurais tipicamente necessitam de maior fora computacional
que, por exemplo, algoritmos de rvores de deciso. Redes neurais aprendidas no
so facilmente compreensveis para pessoas, o que no ocorre com regras, as quais
so facilmente interpretadas [Gouva, 2005; Sousa, 1998].

29

3 Aplicaes Prticas
Segundo estimativas do The Data Warehousing Institute [TDWI, 2006], a m
qualidade sobre os dados dos clientes, custa, s nos Estados Unidos, 611 bilhes de
dlares por ano. A realidade que dados mal-administrados causam mais prejuzos
ainda que isso. Dado a importncia de negcio atrelada administrao de dados,
focando na qualidade dos mesmos, impressionante a forma causal com a qual
muitas empresas encaram e administram este recurso.

Neste captulo sero mostrados alguns exemplos de empresas de diferentes reas da


sociedade que investiram na administrao de dados, focando na melhoria de sua
qualidade e gerao de conhecimento a partir dos mesmos, e obtiveram retorno
empresarial.

3.1 Segmentao de Mercados

Um dos grandes objetivos de uma organizao conhecer seus clientes. Este


conhecimento precisa ocorrer em vrios nveis, desde o tipo de produto desejado at
que tipo de ofertas esto dispostos a aceitar mesmo que os produtos no sejam
essenciais no momento. Tambm interessante saber o perfil mdio do consumidor,
sua renda, sexo, idade, tamanho da famlia, entre outros aspectos. Com estas
informaes, a empresa poder ter em estoque o que o cliente mdio mais
provavelmente precise e fazer ofertas com certo grau de certeza do seu sucesso a
clientes especficos. Esta forma de mercado dirigido pode atingir o extremo de uma
relao individual com cada cliente medida que a empresa deseje investir em
segmentaes (classificaes) sucessivas de sua clientela.

Esta tpica tarefa de minerao de dados usada por grandes lojas de departamentos
e administradoras de carto de crdito e se utiliza dos dados das compras dos
clientes no passado recente para traar perfis de consumo. Informaes como idade,
30

sexo, estado civil, salrio, moradia prpria ou alugada, bairro e cidade tambm so
informaes importantes pois permitem a setorizao ainda mais fina dos clientes.
Se os produtos comprados so avaliados de alguma forma quanto satisfao do
cliente atravs de pesquisas por telefone ou Internet por exemplo, um quadro ainda
maior pode ser traado.

Em uma determinada rede de lojas, escolheu-se apenas 5 (cinco) categorias de


produtos para minerar e melhorar as vendas: vesturio esportivo, aparelhos de
ginstica, decorao, moblia e CD. A idia da empresa era fazer um maior
direcionamento clientela quando fosse enviar catlogos e ofertas.

A rede de lojas possui 3 (trs) bases de dados, contendo uma delas os dados dos
clientes para fins de credirio e verificao de residncia, cheques, entre outros;
outra base contendo os dados sobre produtos em estoque, seus preos e descries;
e a terceira base contendo os dados sobre as compras executadas. Uma empresa de
data warehouse foi contratada para unificar estes 3 (trs) bancos de dados e permitir
anlises globais dos seus negcios. Aps a construo do data warehouse, foi fcil
agregar dados sobre os clientes que realizam compras de produtos das 5 (cinco)
categorias.

A empresa decidiu pela utilizao de redes neurais para a anlise de agrupamentos


e no fundo a segmentao de mercados nada mais que uma anlise de
agrupamentos. Uma mdia dos dados de todos os clientes foi realizada para efeitos
de comparao com o perfil mdio dos clientes de cada agrupamento. Em mdia, os
consumidores das 5 (cinco) categorias de produtos escolhidos pela rede de lojas
para anlise tm 42 anos, ganham US$ 35.000,00 por ano, so em maioria (58%) do
sexo feminino e 50% casados contra 35% solteiros, possuindo 40% deles casa
prpria. Estes clientes gastaram em mdia no ltimo ano US$ 500,00 em vesturio
esportivo, US$ 1.000,00 em equipamentos de ginstica, US$ 1.250,00 em
decorao, US$ 780,00 em CD e US$ 1.100,00 em moblia.

31

A rede neural criou um grupo de clientes contendo 48% do total com um perfil
bastante semelhante ao perfil mdio descrito acima, com exceo de gastarem o
dobro em decorao. O segundo maior grupo possui 29% dos clientes e tem 52 anos
em mdia, gastando a metade que a mdia total em esportes e aproximadamente
US$ 500,00 a mais da mdia em moblia. O terceiro grupo possui 20% dos clientes
e consome aproximadamente o mesmo que a mdia geral com a diferena de gastar
apenas um quarto da mdia em decorao. O ltimo grupo tem apenas 26 anos de
idade em mdia e representa 11% do total gastando o dobro da mdia em esportes.

Com base nesses resultados a empresa decidiu dividir sua mala-direta em grupos
com diferentes ofertas: Em artigos de decorao para o primeiro grupo, em moblia
para o segundo segmento de clientes, e em material esportivo para o quarto perfil de
clientela. Certamente que os analistas de minerao de dados poderiam ter
caminhado um pouco alm e procurado dividir os clientes em mais subgrupos de
forma a permitir uma viso mais especfica. Porm, os quatro grupos descritos
foram suficientes para as necessidades da empresa naquele momento [Carvalho,
2005].

O processo de anlise de agrupamentos pode ser facilmente estendido para dividir


as, aproximadamente, mil filiais da rede de lojas em todo os EUA em categorias e
facilitar a distribuio de produtos, assim como a realizao de compras nos
fornecedores e indstrias. Assim, ao invs de analisar o que cada uma das mil filiais
est necessitando para seus estoques e montar uma estrutura logstica enorme, podese agrupar lojas componentes de cada um dos grupos. O gerenciamento da rede de
lojas fica, ento, bastante facilitado.

32

3.2 Varejo

Vrios fatores podem contribuir para a necessidade de previso de vendas tais como
a manuteno do cliente que no se frustra ao encontrar na loja o que deseja, o
menor custo com estoques pela manuteno de estoques mais ajustados s vendas
futuras, a melhor alocao de vendedores em funo da previso das vendas para o
futuro perodo, entre outros.

Os parmetros importantes a serem considerados quando se analisa a


disponibilidade de produtos em uma loja so a capacidade de produo e
distribuio da indstria produtora do item, a existncia ou no de propaganda
realizada pelo produtor do item e o perodo do ano ou ms dependendo do produto
tratado.

Uma grande revendedora de automveis de vrios fabricantes nos seus diversos


modelos observando sua perda de venda e de clientes a cada vez que no possua o
desejado carro em seus estoques e, contrapondo este fato com o alto custo de
manuteno de grandes estoques deste produto durvel e caro, resolveu desenvolver
um sistema de previso de vendas. A empresa possua um banco de dados de
vendas de carros nos ltimos 5 (cinco) anos e desejava um sistema de previso
capaz de avaliar as vendas 15 dias a frente pois este era o tempo necessrio para
encomenda e transporte de novos itens [Carvalho, 2005].

Alm da informao contida no banco de dados, necessrio contextualizar cada


dado de venda com outras informaes como a existncia de propaganda realizada
pelo fabricante, se a venda foi realizada em certos perodos do ano mais propcios
compra de automveis e tambm ao fim de cada ms quando h um natural

33

aquecimento das vendas. Como prever o futuro no nada fcil, a maior quantidade
de informao pertinente possvel deve ser considerada em qualquer metodologia.

Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi feito
com dados de quatro anos e meio deixando os ltimos seis meses do perodo de 5
(cinco) anos de vendas para a testagem da capacidade de previso do sistema. O
aprendizado mostrou-se eficiente tendo um erro mximo de previso em algumas
semanas de 20%, porm o erro mdio se manteve dentro dos desejados 10%.

Desta forma, o sistema passou a prever as vendas dos prximos 15 dias fornecendo
mais tempo para a encomenda e transporte do produto. A cada quatro semanas, a
rede neural era ensinada de novo, incluindo-se os dados de mais 4 (quatro) semanas
ocorridas seis meses antes e testando-se o erro de previso utilizando-se sempre os
ltimos 6 (seis) meses de vendas, agora incluindo as ltimas quatro semanas
recentemente terminadas.

3.3 Mercado Financeiro

A empresa norte-americana LBS j h algum tempo (desde 1986) investe em


tecnologia por achar que os enfoques tradicionais no gerenciamento de
investimentos no fornecem resultados que superem expressivamente o lucro mdio
de mercado. A empresa acredita que novas tcnicas podem capturar relaes de
causa e efeito no lineares comuns no funcionamento do mercado financeiro.

Com a utilizao de sistemas de previso a LBS esperava aumentar o retorno e


minimizar os riscos de perda. Seu desejo era poder, baseado em sinais de hoje,
prever as tendncias do mercado aps um determinado tempo, comprando e
vendendo os papis corretos, nos tempos mais apropriados. A empresa tenta extrair
dos dados passados e presentes alguma viso das variaes futuras.

34

Prever o mercado financeiro no tarefa fcil, pois se no curto prazo os boatos e as


guerras psicolgicas alteram preos muito rapidamente, no longo prazo ocorrem
mudanas polticas nacionais e internacionais assim como catstrofes e outros fatos
que alteram completamente as tendncias. As relaes micro e macro-econmicas
no so bem entendidas, sendo muito comum diferentes explicaes para eventos j
ocorridos. A massa de dados a ser analisada muito grande e a evoluo das
relaes com o tempo pode ser muito rpida, requerendo sistemas de anlise
adaptativos.

A LBS concluiu que a melhor soluo seria o uso de redes neurais. Decidiu
construir uma rede neural para cada papel ao invs de uma nica rede neural para os
milhares de papis existentes. Cada uma delas foi treinada com dados dos ltimos 3
(trs) meses e a cada nova semana era re-treinada. As redes neurais se mostraram
muito adaptveis s flutuaes do mercado financeiro. Vrios experimentos se
fizeram necessrios para a determinao das variveis importantes para a previso
das tendncias de cada papel especfico.

De fato, a LBS foi uma das mais importantes empresas do mercado financeiro nos
EUA durante 7 (sete) anos consecutivos. Sua carteira cresceu durante este perodo
de 25% a 100% ao ano e nunca houve uma perda maior que 7% durante este tempo.
Se a minerao dos dados foi a responsvel por este sucesso no se pode afirmar,
mas certamente alguma importncia tiveram, pois recursos considerveis foram
destinados a este projeto [Carvalho, 2005].

35

4 Anlise de Ferramentas
Este captulo tem como objetivo analisar 3 (trs) ferramentas disponveis no
mercado que auxiliam no processo de minerao de dados, descrevendo uma viso
geral das mesmas e detalhando suas principais funcionalidades. Tambm sero
apresentadas algumas telas capturadas das ferramentas para melhor ilustrar a
demonstrao da mesma.

4.1 SAS Enterprise Miner

Presente em 110 pases, com mais de 40 mil instalaes, a SAS no Brasil o


parceiro de negcios lder de mercado na oferta de solues para a gesto
corporativa baseada em inteligncia. Fornece propostas de valor que englobam
solues e servios de consultoria para o gerenciamento e a previsibilidade dos
negcios. O SAS mapeia, identifica e formula processos que oferecem solues
especficas para as corporaes, tornando-as mais eficientes e competitivas [SAS,
2007].

Entre outros sistemas corporativos, a SAS possui uma ferramenta de minerao de


dados chamada Enterprise Miner, cujo site da ferramenta [SAS, 2007] afirma ser
um software de minerao de dados avanado, combinando um extenso pacote de
ferramentas integradas de minerao de dados com uma facilidade de utilizao
nunca vista, capacitando os usurios a tirarem proveito de dados corporativos para
obter vantagem estratgica, tudo em um nico ambiente.

O site da ferramenta sugere que o Enterprise Miner se destina, dentre outros, a


mineradores de dados, analistas de mercados, analistas de risco, investigadores de
fraudes, engenheiros e cientistas que desempenham papis importantes na resoluo
de problemas de negcio crticos ou pesquisas cientficas.
36

O software integra diferentes tcnicas da minerao de dados, sendo uma avanada


ferramenta para predio e descrio de dados, utilizando diversos algoritmos
incluindo algoritmos de rvores de deciso, algoritmos de redes neurais, entre
outros.

Entre outras funcionalidades, o sistema tambm disponibiliza uma tela que


demonstra graficamente todas as fases do processo de minerao de dados, desde o
acesso aos dados, at a anlise dos resultados, dando todo suporte necessrio a cada
etapa em uma nica soluo integrada. Na Figura 3 mostrado o fluxo entre as
etapas da minerao de dados utilizadas para a anlise de um emprstimo.

Figura 3: Fluxo da minerao de dados em anlise de emprstimo [SAS, 2007].

37

O Enterprise Miner tambm possui funcionalidades ligadas ao pr-processamento


dos dados. Relatrios com resumos dos resultados so gerados e a interface grfica
Java possui grficos estatsticos flexveis. Na Figura 4 mostrada uma tela de
relatrio gerada a partir de uma anlise de agrupamentos. O sistema prov
visualizaes para ajudar a determinar quais variveis so mais importantes para
distinguir os agrupamentos.

Figura 4: Anlise de Agrupamentos [SAS, 2007].

Oferecendo um modelo de comparao integrada, utilizado para comparar os


resultados de tcnicas diferentes em vises de negcio como tambm em termos
estatsticos, o software fornece a habilidade original de poder comparar a eficcia
de cada tcnica em relao ao total do conhecimento gerado, permitindo que
estatsticos e analistas do negcio discutam facilmente os resultados, para analisar
as tcnicas mais eficazes, como mostrado na Figura 5.

38

Figura 5: Comparao de tcnicas [SAS, 2007].

4.2 IBM Intelligent Miner


O DB2 Data Warehouse Edition (DWE), da IBM, uma sute de produtos que
combinam a administrao de dados, com uma poderosa infra-estrutura de
inteligncia corporativa. O DWE pode ser usado para construir uma completa
soluo de data warehousing e gerenci-la com uma soluo nica que integra
componentes ncleos com funcionalidades distintas.

Entre os componentes que compem o DWE est o Intelligent Miner, cujo site da
ferramenta [IBM, 2007] o classifica com uma poderosa ferramenta para anlise de
dados integrada. As tradicionais tcnicas de minerao de dados (anlise de

39

agrupamentos, anlise de afinidades, classificao, estimativa e previso) so


suportadas. Adicionalmente, ricos componentes de apresentao esto disponveis
para possibilitar uma anlise visual dos resultados.

Na Figura 6, pode-se ver uma representao visual do resultado de uma anlise de


agrupamentos entre clientes, feita atravs da minerao da base de dados de um
banco. A figura mostra que existem 4 (quatro) agrupamentos, o maior contendo
33,71% do total de clientes, e o menor contendo 13,56% do total.

Figura 6: Anlise de agrupamentos de clientes bancrios [IBM, 2007].

Os grficos de setores circulares e os grficos de barras mostram a distribuio dos


valores das colunas nos agrupamentos comparados com o total de clientes. Nos
grficos de setores circulares, o crculo interno representa a populao de um
agrupamento. O crculo externo representa a populao total. Por exemplo, o
grfico de setores circulares INT_CREDITCARD na Figura 7 mostra que apenas

40

alguns clientes no agrupamento 1 possuem um carto de crdito internacional


comparados quantidade total de clientes.

Figura 7: Grfico de setores circulares INT_CREDITCARD [IBM, 2007].

Figura 8: Tabela de clientes, com os agrupamentos informados [IBM, 2007].

41

A Figura 8 mostra a tabela de clientes, exibindo em uma coluna a qual agrupamento


gerado, cada cliente pertence.

Na Figura 9 mostrado o exemplo de uma anlise de afinidades, utilizada para


resolver o tradicional problema do carrinho de compras de supermercado. Nela,
mostrada a co-ocorrncia de alguns itens em uma mesma compra, e um percentual
de probabilidade de os conjuntos de itens serem comprados simultaneamente.

Figura 9: Anlise de afinidades [IBM, 2007].

42

4.3 Oracle Darwin Data Mining Software

O Darwin Data Mining Software da Oracle, descrito em seu site oficial [Oracle,
2007] como uma poderosa ferramenta de minerao de dados que ajuda a
transformar gigantes massas de dados em inteligncia corporativa. Darwin ajuda a
encontrar padres significativos e correlaes em dados corporativos. Padres que
permitem um melhor entendimento e previso do comportamento de clientes.

Tambm segundo o site, utilizando o Darwin pode-se traar estratgias para vendas
conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes,
identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia.

O software baseado em algoritmos de aprendizagem, com a implementao de


algoritmos de rvores de deciso, redes neurais, entre outros. Alm disso, possui
tambm algoritmos para otimizao, avaliao e comparao de modelos. Oferece
funes bsicas de estatstica necessrias para obter alguma compreenso dos dados
iniciais e para avaliar as predies feitas pelos modelos obtidos.

Um dos pontos fortes da ferramenta sem dvida a facilidade de utilizao do


sistema atravs de um conjunto de wizards, que ajudam e guiam o usurio na
criao de modelos automaticamente e na seleo dos melhores e mais apropriados,
como pode ser visto em alguns exemplos na Figura 10.

Na Figura 11 mostrado o resultado de uma segmentao de clientes, atravs de


uma visualizao interativa em forma de rvore.

43

Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007].

Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle, 2007].

44

O Darwin tambm possui relatrios que so integrados com o Microsoft Excel,


como pode ser visto na Figura 12.

Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle, 2007].

45

5 Concluses
Neste trabalho foi abordado o tema da minerao de dados (data mining), como
importante rea da administrao de dados que visa melhoraria da qualidade dos
mesmos e gerao de conhecimentos novos a partir deles.

Inicialmente, foram abordados os principais conceitos e caractersticas da


minerao de dados. Uma viso geral das etapas do ciclo de vida de um projeto de
minerao de dados foi mostrada. Observou-se a existncia de diversas tcnicas
para se obter tipos diferentes de relaes e conhecimento para propsitos diferentes,
sendo detalhadas as 5 (cinco) principais delas. Tambm foram abordados alguns
conceitos relacionados a 2 (dois) dos principais tipos de algoritmos utilizados para a
aplicao dessas tcnicas.

Ao longo do trabalho foi enaltecida a importncia da minerao de dados em


diversas reas de conhecimento da nossa sociedade. Foram detalhados 3 (trs)
exemplos prticos de aplicaes reais da minerao de dados em empresas, e foram
analisados os resultados obtidos a partir da utilizao das prticas da minerao de
dados por estas empresas.

Finalmente, algumas ferramentas que auxiliam no desenvolvimento e aplicao do


processo de minerao de dados em uma organizao foram brevemente descritas.

5.1 Trabalhos Futuros

Com a concluso deste trabalho, pode-se identificar alguns estudos futuros que
podem ser feitos a partir do tema. Mais especificamente, pode-se realizar um estudo
de caso da aplicao de um processo de minerao de dados em uma empresa,
desde o entendimento do negcio, at avaliao do processo.
46

Tambm pode ser feita uma anlise de retorno de investimento de empresas reais
que investiram na minerao de dados com o objetivo de aumentar os seus lucros.

5.2 Consideraes Finais


Este trabalho teve como um de seus objetivos, estimular as empresas para que elas
dem cada vez maior importncia a seus dados, obtidos em suas operaes dirias.
Mostrou-se o quanto uma empresa pode agregar de valor para seus negcios, a
partir de conhecimentos escondidos em seus dados. Com a concorrncia cada vez
mais forte, empresas que no adotarem estratgias no s para manter a qualidade
dos dados, como tambm para a gerao de conhecimento a partir deles, estaro
reduzindo cada vez mais suas chances no mercado em que atuam.

47

6 Referncias

[Carvalho, 2005] Lus Alfredo Vidal de Carvalho. Data Mining A Minerao de


Dados no Marketing, Medicina, Economia, Engenharia e Administrao. 2005
[Chapman, 2005] Chapman, A. D. 2005. Principles and Methods of Data Cleaning
Primary Species and Species- Occurrence Data, version 1.0. Report for the Global
Biodiversity Information Facility, Copenhagen.
[DAMA International, 2006] The Data Management Association. Disponvel em:
http://www.dama.org/public/pages/index.cfm?pageid=1. Acessado em Janeiro de 2007.
[Euriditionhome, 2004] Data Mining Tutorials, Resources. Disponvel em:
http://datamining.eruditionhome.com. Acessado em Janeiro de 2007.
[Fayyad et al., 1996] Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic;
Uthurusamy, Ramasamy. Advances In Knowledge Discovery And Data Mining.
Novembro de 1996.
[Gimenes, 2000] Eduardo Gimenes, A Importncia da Minerao de dados em tomadas
de
decises.
Disponvel
em:
Acessado
em
http://geocities.yahoo.com.br/dugimenes/arquivos/data_mining.zip.
Fevereiro de 2007.
[Gouva, 2005] Custdio Gouva, Introduo a Tcnicas de Data Mining DM.
Disponvel
em:
http://arquivosevt.lncc.br/pdfs/Introducao%20Data%20Mining%203.pdf. Acessado em
Fevereiro de 2007.
[Han et al., 2001] Han, Jiawei; Kamber, Micheline. Data Mining Concepts and
Techniques. 2001
[IBM, 2007] IBM DB2 Data Warehouse Edition. Disponvel em: http://www306.ibm.com/software/data/db2/dwe/. Acessado em Maro de 2007.
[Navega, 2002] Sergio Navega, Princpios Essenciais do Data Mining. Disponvel em:
http://www.intelliwise.com/reports/i2002.htm. Acessado em Dezembro de 2006.
[Oracle, 2007] Oracle Darwin Data Mining
Software. Disponvel em:
http://www.oracle.com/technology/documentation/darwin.html. Acessado em Maro de
2007.

48

[Pelegrin et al., 2005] Diana Colombo Pelegrin, Diego Paz Casagrande, Merisandra
Crtes de Mattos, Priscyla Waleska Targino de Azevedo Simes, Rafael Charnovscki,
Jane Bettiol. As Tarefas de Associao e de Classificao na Shell de Data Mining
Orion.
Disponvel
em:
http://www.dcc.unesc.net/sulcomp/artigos/sessaoOral/22103.pdf.
Acessado
em
Fevereiro de 2007.
[SAS,
2007]
SAS
Entreprise
Miner.
Disponvel
em:
http://www.sas.com/technologies/analytics/datamining/miner/. Acessado em Maro de
2007.
[Sferra e Corra, 2003] Heloisa Helena Sferra, ngela M. C. Jorge Corra. Conceitos
e Aplicaes de Data Mining. Disponvel em:
http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf. Acessado em Janeiro de
2007
[Sousa, 1998] Mauro Srgio Ribeiro de Sousa, 1998. Minerao de Dados: Uma
implementao fortemente acoplada a um sistema gerenciador de banco de dados
paralelo. Disponvel em:
http://www.cos.ufrj.br/~marta/papers/TeseMauroS.pdf.
Acessado em Janeiro de 2007.
[TDWI, 2006] The data warehousing institute. Disponvel em: http://www.tdwi.org/.
Acessado em Maro de 2007.
[The CRISP-DM Consortium, 2000] CRoss Industry Standard Process for Data
Mining. Disponvel em: http://www.crisp-dm.org. Acessado em Janeiro de 2007.
[Wikipedia, 2006] Sistema de Gerenciamento de Banco de Dados. Disponvel em:
http://pt.wikipedia.org/wiki/SGBD. Acessado em Dezembro de 2006.
[Witten, 2000] Witten, Ian H.; Frank, Eibe. Data Mining Practical machine learning
tools and techniques with java implementations. 2000
[Goldschmidt e Passos, 2005] Ronaldo Goldschmidt, Emmanuel Passos. Data Mining:
um Guia Prtico. 2005

49

Assinaturas

Recife, 29 de maro de 2007

___________________________________________________
Fernando da Fonseca de Souza (orientador)

___________________________________________________
Thiago Miranda Amorim Silva (aluno)

50