FUNDAÇÃO EDUCACIONAL DE FERNANDÓPOLIS FACULDADES INTEGRADAS DE FERNANDÓPOLIS

LUCAS ADÃO ZANARDI

ESTUDO E APLICAÇÃO DE ALGORITMO DE DATA MINING

FERNANDÓPOLIS
2007

FUNDAÇÃO EDUCACIONAL DE FERNANDÓPOLIS FACULDADES INTEGRADAS DE FERNANDÓPOLIS

LUCAS ADÃO ZANARDI

ESTUDO E APLICAÇÃO DE ALGORITMO DE DATA MINING

FERNANDÓPOLIS
2007

LUCAS ADÃO ZANARDI

ESTUDO E APLICAÇÃO DE ALGORITMO DE DATA MINING

Monografia apresentada às Faculdades Integradas de Fernandópolis, Fundação Educacional de Fernandópolis, como requisito para a obtenção do título de Bacharel em Sistemas de Informação. Orientador: Prof. Dr. Evandro Araújo Jardini

FERNANDÓPOLIS 2007

100 f. Estudo de caso. Data mining: estudo e aplicação de algoritmos de data mining. 1. Monografia (Graduação em Sistemas de Informação) Faculdades Integradas de Fernandópolis. . Fundação Educacional de Fernandópolis. 3. para fins de estudo e pesquisa. Dados. Evandro de Araújo Jardini. Preparação. orientador: Prof. 2007. Fernandópolis. Título. Lucas Adão. desde que citada a fonte. 2. mineração. I. Dr. Catalogação na publicação Serviço de Documentação Universitária Fundação Educacional de Fernandópolis Zanardi.Autorizo a reprodução e divulgação total ou parcial deste trabalho. por qualquer meio convencional ou eletrônico.

Instituição: Faculdades Integradas de Fernandópolis Curso: Sistemas de Informação ___________________________________________ Prof. como requisito para a obtenção do título de Bacharel em Sistemas de Informação. Fundação Educacional de Fernandópolis. Instituição: Faculdades Integradas de Fernandópolis Curso: Sistemas de Informação Aprovada em: ___/___/2007 .FOLHA DE APROVAÇÃO LUCAS ADÃO ZANARDI Estudo e aplicação de algoritmos de data mining Monografia apresentada às Faculdades Integradas de Fernandópolis. Examinadores: ___________________________________________ Prof.

. por tudo quanto me pôde proporcionar. principalmente carinho e afeto. dedicação e desprendimento. proteção e amor.Dedicatória A minha família.

Aos professores do curso de “Sistemas de Informação” que. fatores fundamentais que fizeram de mim a pessoa que hoje sou.Agradecimentos Primeiramente. em especial aos meus pais. com seus ensinamentos. Um agradecimento especial a toda a minha família. agradeço a Deus por estar aqui realizando o sonho da minha vida com saúde e força de vontade. . que tive o privilégio de conhecer durante a faculdade e que se tornou papel principal na minha história de vida. Ao amor da minha vida. forneceram os estímulos e as orientações necessárias para a elaboração deste trabalho. pela forma como me criaram e a educação que me deram. Simone.

Quase sempre deixamos em segundo plano muitas decisões que ficaram sem solução porque não nos atrevemos a resolvê-las definitivamente.Epígrafe A maior parte das dificuldades que nos aparecem não provém das decisões que tomamos. mas das que deixamos de tomar. Desconfiamos de nós mesmos. dos nossos pensamentos e. . (Chamfort). quase sempre achamos mais conveniência ou comodidade em deixar de fazer transferindo o ato “Para Amanhã”.

Além disso.Faculdades Integradas de Fernandópolis. pois. permitindo que a empresa detecte tendências e características disfarçadas e reaja rapidamente a um evento que ainda pode estar por vir. Monografia (Graduação em Sistemas de Informação) . toda essa informação pode ser usada em vários procedimentos. L. ainda tem muito a contribuir à humanidade. a cada ano. A informática. data mining constitui-se de uma tecnologia capaz de automatizar processos de busca por informações predictivas que podem estar ocultas dentro de um amontoado de banco de dados ou relatórios gerenciais. 2007. ou mesmo ajudar o analista a encontrar ordem no caos: conhecimento. a maioria das organizações é incapaz de aproveitar totalmente o que está armazenado em seus arquivos. Como conseqüência. sua crescente inserção em tarefas comuns do cotidiano leva o ser humano a uma dependência sem fronteiras. Desse modo. Estudo e aplicação de algoritmos de data mining. Questões que tradicionalmente . No entanto. Essa informação preciosa está na verdade escondida sob uma montanha de dados e não pode ser descoberta utilizando-se sistemas de gerenciamento de banco de dados convencionais. Felizmente. apesar dos grandes feitos que já realizou. Fernandópolis-SP. apesar do enorme valor desses dados. A utilização desses recursos e técnicas para a exploração em bases de dados possibilitou o surgimento do que se chama mineração de dados (Data Mining). 100 f.RESUMO ZANARDI. 2007. Fundação Educacional de Fernandópolis. A. recursos e técnicas computacionais foram desenvolvidos para analisar os dados. companhias acumulam mais e mais informações em seus bancos de dados. Portanto. esses bancos de dados passam a conter verdadeiros tesouros de informação sobre vários dos procedimentos dessas companhias.

obtendo predições mais aperfeiçoadas. iremos executar simulações com diferentes modelos. direta e instantaneamente. algoritmos. Palavras chave: mineração de dados. pois as ferramentas de mineração de dados são implementadas em sistemas de processamento de alta performance e podem analisar grandes bancos de dados em questões de minutos. compreendendo dados ainda mais complexos. Através de um processamento mais rápido. tomada de decisão.exigem um extensivo trabalho de análise podem agora ser resolvidas nos dados. .

Moreover. Although Informatics has already done great deeds in the world. L. This dependence is without limits because each and every year companies accumulate more and more information in their databases.“Fundação Educational de Fernandópolis (FEF)”. The use of those resources and techniques for the exploration in bases of data made possible the appearance of the socalled mining of data (Data Mining). its increasing insertion in common everyday tasks make the human being dependent on it. computer techniques and resources were developed to analyze the data or even to help the analyst to find order in the chaos: knowledge. all information can be used in several procedures. Such precious information is actually hidden under a mountain of data and it cannot be discovered using conventional database management systems. Thus. Fernandópolis.ABSTRACT ZANARDI. Monograph (Graduation in Information Systems) . which traditionally require extensive analysis work. However. it still has a lot to contribute to humanity. STUDY AND APPLICATION OF ALGORITHMS OF DATA MINING 2007. As a consequence. A. data mining is a key technology in order to automate search processes for predictive information which can be occult on medium or large-scale databases or managerial reports. 2007. Therefore. in spite of the enormous value of those data. Issues. these databases start to contain veritable treasures of information on several procedures of those companies. 100 f. most of the organizations are unable to take full advantage of what is stored in their files. Fortunately. can be direct and instantly resolved in the data now since the data mining tools are implemented in high-performance processing systems and they . SP. allowing the company to detect tendencies and disguised characteristics as well as react quickly to any event to come.

can analyze big databases in a few minutes. Through faster processing, we will execute simulations using different models, understanding even more complex data and obtaining more improved predictions.

keywords: Data Mining, algorithms, decision taking.

LISTA DE ILUSTRAÇÕES

Figura 1 – Visão geral dos passos que compõem o processo KDD ............... Figura 2 – Detectando outliers com a técnica da análise de agrupamentos... Figura 3 – Conversão de dados nominais para booleanos.............................. Figura 4 – Conversão de dados numéricos para booleanos........................... Figura 5 – Conversão de dados numéricos para booleanos (usando faixas de valores).............................................................. Figura 6 – Conversão de dados ordinais para booleanos (usando faixas de valores)............................................................. Figura 7 – Conversão de dados de ocorrência para booleanos...................... Figura 8 – Classificação como identificação do que é “parecido” no espaço de atributos................................................................... Figura 9 – Algumas formas de calcular distâncias.......................................... Figura 10 – Exemplos de classificação com paralelepípedos......................... Figura 11 – Exemplos de classificação com paralelepípedos (com problemas potenciais de classificação)............................... Figura 12 – Exemplos de classificação com menor distância a protótipo........ Figura 13 – Arquivo ARFF com os resultados da mega sena configurado para ser usado em técnicas de associação............. Figura 14 – Regras de associação utilizando o algoritmo APRIORI, verificando o atributo “NÃO”....................................................... Figura 15 – Regras de associação com valor de mínima métrica alterado para 0.93........................................................................ Figura 16 – Regras de associação com valor de mínima métrica alterado para 0.04........................................................................

26 33 37 37

37

38 39

48 49 51

54 55

81

85

86

87

Figura 17 – Arquivo ARFF com os resultados da mega sena configurado para ser usado em técnicas de clusterização.............................. Figura 18 – Atributos utilizados na técnica de clusterização .......................... Figura 19 – Atributos utilizados na clusterização com a adição do cluster como atributo............................................................... Figura 20 – Dados exibidos de forma gráfica incluindo os clusteres adicionados ................................................................................ Figura 21 – Apresentação do grupos com seus respectivos cálculos............. Figura 22 – Apresentação dos clusters gerados utilizando o atributo “ganhadores_sena”...................................................... Figura 23 – Apresentação dos clusters gerados utilizando o atributo “dezena 1”.................................................................................... Figura 24 – Apresentação dos clusters gerados utilizando os atributos “ganhadores_sena” e “mês” com cores representando os clusteres.........................................................

89

91

91 9 9 92 94

96

96

97

......................................... gerados a partir dos conjuntos freqüentes de tamanho 2................................................ Tabela 8 – Regras de associação e seus significados literais. 6 67 70 71 72 73 74 83 84 ......................................... Tabela 4 – Candidatos de tamanho 3... Tabela 7 – Exemplo da base de dados com os respectivos concursos e seu conjunto de itens (dezenas).................................................................................................................. Tabela 6 – Regras possíveis para cada um dos conjuntos freqüentes................................... Tabela 3 – Conjuntos candidatos formados a partir dos conjuntos freqüentes de tamanho 1........ Tabela 5 – Candidatos formados a partir dos conjuntos freqüentes de tamanho 2........................... Tabela 2 – Conjunto de itens tamanho1............................................................LISTA DE TABELAS Tabela 1 – Exemplo da base de dados com as transações de compras dos clientes e conjunto de itens (produtos).........

......2.....................2 Tarefas primárias da mineração de dados ................................................1 A Preparação dos dados............1...............................................3....................2 Agrupamento (clustering)..................2.. 2........2......................................1 integração de diversas fontes de dados........... 2.....................................1 Objetivos primários da mineração de dados.....6 Seleção de dados.....................................4........................................ 2.....5 Menor distância a protótipo............................ 2................................................................................... 2..............1........................................................................................... 2................................................................................................................... 2........................2 Tipos de agrupamentos................... 2...3 Associação............................................................1..4 Métodos da classificação supervisionada............... 1................ 1.....2. 1.....................1 Medidas de distância....................................................... 2................. 1..... 2.4.....................................................2.....................3.......... 2...............................................................1...... 43 45 46 46 47 48 50 50 50 51 53 54 55 56 57 58 60 61 61 62 64 65 69 ............ 1...... 1....................1.2................................. 18 21 21 22 24 25 25 29 30 34 34 36 39 41 CAPÍTULO II: MINERAÇÃO DE DADOS..........2....................................................2..............5 Transformação dos dados.................................................................................1..1. 2.................................................2...................... 2.........................2.....4 Integração de dados......5.........................................3 Características.....................1..............................2......................2...........................................................3 Processo KDD..... 1.........1................................2..........3.......3 Características..........................1.............1 Classificação..........................................2..............5.. 2.............................5........... 2.......2.2 Limpeza dos dados (data cleaning)......2 As fases e os processos do processo KDD.......2.........................3.................................................................................2....................2................................2..........................1 Fase de treinamento...........................................................3. 1....2 Medidas de distância...............2..............................2.............6...................................... 2....2 Fase de classificação............................................ 1.........3 Conceitos adicionais................................... 2................................. 1.................. CAPÍTULO I: PREPARAÇÃO DOS DADOS....................................1 Modelagem da descoberta de conhecimento de dados............4........ 2..............1.............SUMÁRIO INTRODUÇÃO............ 1.......................1 Classificação supervisionada........................................2......2.................1 Exemplo de aplicação de técnicas de associação........1 Redução de dados................................ 2.1............................................ 2..................................1 Métricas.................................3..2 Regras de associação....................1 Método do paralelepípedo..................................1.......3 Algoritmo.......................2...3..2 Fase de classificação supervisionada..........2............................ 2.................................2 Data warehouse........4...............1 Conceito da mineração de dados. 1.................................. 2.

.....................................................1 Dados. 2... 77 78 79 81 84 88 88 89 99 100 ..............................................3........................................... 3........................3............2..2 Geração de regras a partir dos conjuntos de itens freqüentes.........2 Técnica de clusterização...................................................1...............1.. 3.....................................................3................3 Descoberta de regras de associação...........2....................................................2 Metodologia (associação).1 Técnica de associação........................... 3...........................1 Dados. 3...2................................................................................................................................1 APRIORI – obtenção dos conjuntos Freqüentes..............2 Metodologia (clusterização).............2................................................................................................... 3........................................................................................3.............. CONCLUSÃO...2............................................. REFERÊNCIAS BIBLIOGRÁFICAS....................... 69 73 CAPÍTULO III: ESTUDO DE CASO....1............................................................................................... 3.......... 3.....................

é dada uma ênfase muito significativa à busca e ao manuseio correto da informação. A necessidade de transformarem esses terabytes de dados em informações significativas é óbvia. apesar dos grandes feitos de que já é capaz. Bancos de dados são medidos hoje em gigabytes ou até mesmo em terabytes. esses bancos de dados passam a conter verdadeiros tesouros de informação sobre vários dos procedimentos dessas companhias. com um índice mínimo de erros que eventualmente seria um entrave na sua realização. Como conseqüência. permitindo que a empresa detecte tendências e características disfarçadas e reaja rapidamente a um evento que ainda pode estar por vir. O acesso privilegiado a algumas informações pode ser o ponto chave de um negócio sólido e rentável e. E sua crescente inserção em tarefas comuns do cotidiano leva o ser humano a uma dependência sem fronteiras. ou até mesmo representadas como aspectos decisivos na tomada de decisões bem sucedidas e lucrativas. a cada ano. Toda essa informação pode ser usada em vários procedimentos. companhias acumulam mais e mais informações em seus bancos de dados. A quantidade de informações armazenadas em banco de dados é muito grande e ultrapassa a habilidade técnica e a capacidade humana na sua interpretação.INTRODUÇÃO A informática. Devido a tais aspectos. provavelmente. pois. . A necessidade de se obter lucro em sua atividade leva o homem a uma busca incansável de informações que podem ser utilizadas como diferencial. ainda tem muito a apresentar e a acrescentar à humanidade.

Os dados são extraídos dos sistemas operacionais e após limpeza e transformação. O Data Warehouse tem que refletir o sistema operacional e deve ser único. apesar do enorme valor desses dados. 2001). Essa informação preciosa está na verdade escondida sob uma montanha de dados e não pode ser descoberta utilizando-se sistemas de gerenciamento de banco de dados convencionais (AMARAL. novos. potencialmente úteis e ultimamente compreensíveis. Felizmente. Data Mining pode ser definido como um processo não-trivial de identificar. banco de dados relacionais ou .No entanto. Quaisquer alterações de erros e processos devem ser feitas nos sistemas operacionais. A utilização desses recursos e técnicas para a exploração em bases de dados possibilitou o surgimento do que se chama mineração de dados (Data Mining). pois precisa ser a única versão da verdade e não pode estar em conflito com o sistema operacional. a maioria das organizações é incapaz de aproveitar totalmente o que está armazenado em seus arquivos. ou seja. ou mesmo ajudar o analista a encontrar ordem no caos: conhecimento. em dados. novos e valiosos". Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses "padrões válidos. O Data Warehouse deve conter o máximo de detalhes possível e ser desenvolvido em ferramentas especiais para isso. recursos e técnicas computacionais foram desenvolvidos para analisar os dados. são carregados no Data Warehouse. É importante ressaltar que nunca se deve alterar no Data Warehouse as informações contidas nos sistemas operacionais sob o pretexto de que ficarão mais corretas no Data Warehouse. padrões válidos.

limpos e analisados até que possam ser carregados em definitivo. Os processos de limpeza. transformação e carga são interativos.multidimensionais. . pois os dados são modelados. transformados. Não se confunda transformação com alteração de dados: transformar significa somente alinhar os dados entre vários sistemas ou mesmo aprontá-los para que sejam mais bem utilizados no Data Warehouse.

obtendo predições mais aperfeiçoadas. . direta e instantaneamente.1 Conceito da mineração de dados A crescente inserção da informática em tarefas comuns do cotidiano leva os seres humanos a uma dependência sem fronteiras. os usuários podem executar simulações com diferentes modelos. Através de um processamento mais rápido. Questões que tradicionalmente exigem um extensivo trabalho de análise podem agora ser resolvidas nos dados. A utilização de seus recursos para a exploração em bases de dados possibilitou o surgimento do que se chama mineração de dados (Data Mining). pois as ferramentas do Data Mining são implementadas em sistemas de processamento de alta performance e podem analisar massivos bancos de dados em questões de minutos. segundo Amaral (2001) de uma tecnologia capaz de automatizar processos de busca por informações predictivas que podem estar ocultas dentro de um amontoado de banco de dados ou relatórios gerenciais. compreendendo dados ainda mais complexos.21 CAPÍTULO I PREPARAÇÃO DOS DADOS 1. Data Mining constitui-se.

distinta da que é normalmente aplicada ao projeto de bancos de dados para fins transacionais. Seu objetivo é casar as expectativas dos usuários em termos de análise e tomada de decisão com os dados disponíveis. a chamada modelagem dimensional. Por definição. . um projeto de Data Warehouse tem por objetivo organizar os dados operacionais de uma empresa em um local onde o ambiente operacional não seja afetado. ou esquema estrela. uma coleção de dados derivados dos dados operacionais para sistemas de suporte a decisão. da melhor forma possível. Data Warehouse é um repositório de informações para suportar decisões. muitas vezes. Devido à característica de se armazenarem dados operacionais. Tais dados derivados são. “informacionais” ou “analíticos”. pode-se dizer que um Data Warehouse é. Sua construção inclui ainda a limpeza de dados. na verdade.2 Data Warehouse No seu nível mais fundamental.22 1. referidos como dados “gerenciais”. A modelagem adotada prioriza o desempenho nas consultas. para que possam ser aplicadas técnicas de análise e extração de dados. adotando modelos mais simples. integra os dados em áreas lógicas de assuntos de negócios. armazena a informação de forma que ela fique acessível e compreensível a pessoas não técnicas responsáveis pela tomada de decisão através da organização e de várias ferramentas. Ele coleta dados a partir de diversas aplicações de uma organização. que leva a um estado mais consistente dos dados utilizados para a tomada de decisão. O desenvolvimento do Data Warehouse segue uma metodologia própria.

23 Um Data Warehouse armazena dados analíticos. considera que os analistas precisam de informações para montar seus planos táticos e estratégicos. ou fato (SANTOS. com isso melhorarem os processos que aumentem a satisfação e fidelidade dos mesmos. Esses bancos são os que darão subsídio de informações aos gerentes e diretores da empresa. Um Data Warehouse armazena informações de maneira histórica de muito anos e por isso deve ter uma grande capacidade de processamento e armazenamento dos dados que se encontram de duas maneiras. detalhados e resumidos. Por exemplo. um sistema operacional. Os dados de um Data Warehouse podem ser compostos por um ou mais sistemas distintos e sempre estarão separados de qualquer outro sistema transacional. Data Warehouses são construídos para que tais dados possam ser armazenados e acessados de forma que não sejam limitados por tabelas e linhas estritamente relacionadas. Com base nesses conceitos. para analisarem tendências históricas dos seus clientes e. Isso pode envolver consultas complexas que necessitam acessar um grande número de registros. porém. o Data Warehouse é um conjunto de técnicas e bancos de dados integrados. onde cada unidade de dados está relacionada a um determinado assunto. ou seja. 2007). pode . destinados ás necessidades da gerência no processo de tomada de decisões. para funcionamento. projetados para suportar as funções do sistemas de apoio a decisão. não precisa da taxa do dólar do ano passado. Além disso. o analítico. deve existir um local físico onde os dados desses sistemas serão armazenados. por isso é importante a existência de muitos índices criados para acessar as informações da maneira mais rápida possível.

mineração de dados é a exploração e a análise. tomada de decisão.3 Processo KDD A mineração de dados pode ser considerada como uma parte do processo de descoberta de conhecimento em banco de dados (KDD – Knowledge Discovery in Databases). O termo KDD é usado para representar o processo de tornar dados de baixo nível em conhecimento de alto nível. ou seja. A mineração de dados pode ser aplicada de duas formas: como um processo de verificação e como um processo de descoberta. por meio automático ou semiautomático. a fim de descobrir padrões e regras significativas.24 querer avaliar a evolução do dólar diante do volume de compras de seus produtos e. enquanto mineração de dados pode ser definida como a extração de padrões ou modelos de dados observados. Os resultados obtidos com a mineração dos dados podem ser usados no gerenciamento da informação. o usuário sugere uma hipótese acerca da relação entre os dados e tenta prová-la aplicando técnicas como análise estatística e multidimensional sobre um banco de . portanto. No processo de verificação. processamento de pedidos de informação. controle de processo e muitas outras aplicações. precisará uma informação (taxa do dólar) para a tomada de decisão. Os principais objetivos da mineração de dados são descobrir relacionamentos entre dados e fornecer subsídios para que possa ser feita uma previsão de tendências futuras baseadas no passado. 1. de grandes quantidades de dados.

O processo KDD é também um processo multi-step (AMARAL.3. ao longo do processo KDD. 1. um passo será repetido tantas vezes quantas se fizerem necessárias para que se chegue a um resultado satisfatório. associações. cujos passos serão apresentados na figura 1: . 1. É também um processo iterativo. tendências. probabilidades ou fatos. pois. 2001). é um processo interativo. os quais envolvem um número elevado de decisões a serem tomadas pelo usuário.1 Modelagem da descoberta de conhecimento de dados – KDD Pode-se dizer que o processo KDD é a descoberta de novos conhecimentos.2 As fases e os passos do processo KDD O processo KDD envolve duas grandes fases: preparação de dados e mineração de dados.25 dados contendo informações passadas. No processo de descoberta não é feita nenhuma suposição antecipada. sejam padrões. que são óbvios ou de fácil identificação.3. O KDD é o processo de uso dos métodos de mineração de dados para extrair conhecimento de acordo com a especificação de medidas e limites. Essas fases possuem inúmeros passos. ou seja. aplicados à base de dados com o pré-processamento exigido.

O segundo passo é a criação de um conjunto de dados-alvo. linguagens. Para isso. deve-se fazer a limpeza dos dados. 14. em que a descoberta deverá ser efetuada. Nessa fase. 2001): 1. Fonte: Amaral. Nessa fase. O primeiro é a definição do objetivo do problema. 2001. que é o conhecimento desejado pelo usuário final. p. 2. é feito um reconhecimento da aplicação e a verificação do conhecimento anterior. Nesse caso.26 Figura 1 Visão geral dos passos que compõem o processo KDD. A fase de preparação de dados envolve os seguintes passos (AMARAL. como o SQL (Structured Query Language). de maneira que os incorretos ou incompletos . o sucesso desse processo depende da correta escolha dos dados que formam o conjunto de dados-alvo. seleciona-se um conjunto de dados ou focaliza-se um subconjunto de atributos ou de instâncias de dados. ou seja. Muitas vezes. 3. são usadas técnicas. é definido o tipo de conhecimento que se deseja extrair do banco de dados. O terceiro passo é a limpeza e o pré-processamento dos dados. ferramentas e comandos convencionais de banco de dados.

é feita uma purificação dos dados usando operações básicas. Assim. de modo a diminuir o número de faixas de valores e. chega-se ao conhecimento. podem-se reagrupar esses valores em faixas mais abrangentes. Isso inclui decidir que modelos e parâmetros são mais apropriados para a aquisição do tipo de conhecimento desejado. Muitas vezes. Com isso. O sexto passo é a escolha dos algoritmos de mineração de dados. Nele. a complexidade do problema. 4. serão de grande ajuda para a etapa seguinte. Esse processo consiste em encontrar as características úteis que representam as dependências dos dados no objetivo do processo. tais como: classificação. Nela são coletadas as informações necessárias para a modelagem e correção do ruído e para estratégias de manipulação de campos de dados perdidos. Os objetivos são diversificados. Esses passos.. decide-se qual o objetivo do processo de mineração de dados. Dando continuidade ao processo KDD a fase de mineração de dados envolve os seguintes passos: 5.27 sejam desprezados. considerando as seqüências de informações de tempo e as mudanças de conhecimento. Por meio da submissão dos dados aos algoritmos de mineração de dados selecionados. são selecionados os métodos para serem usados na busca de padrões dos dados. clusterização etc. conseqüentemente. se usados corretamente. como as de eliminação de ruído. O quarto passo é a redução e projeção de dados. pode não ser necessário representar todas as faixas de valores de um determinado problema. O quinto passo é a escolha das tarefas de mineração de dados. 6. regressão. . Nesse passo.

28

7. O sétimo passo é a mineração de dados, que é caracterizada pela busca de padrões de interesse em uma forma particularmente representativa ou em um conjunto dessas representações. Como exemplos, podem-se citar: regras de classificação, árvores de decisão, regressão, clusterização. Nesse passo, é realizada a extração de informação dos dados até então processados; 8. O oitavo passo é a interpretação de padrões da exploração. Os dados de saída definidos no passo anterior são analisados e interpretados pelos especialistas do domínio. Caso seja necessário, pode-se repetir qualquer um dos sete passos anteriores para se obter a correta interpretação dos padrões; 9. O nono passo é a consolidação do conhecimento descoberto. Trata-se, portanto, da incorporação desse conhecimento no desempenho do sistema, na documentação do conhecimento e no relatório para as partes interessadas. Nesse passo, fazem-se também a verificação e a resolução de conflitos potenciais com o prévio conhecimento extraído. O processo KDD pode envolver interações significativas e retornar a qualquer dos passos, independentemente da fase a que ele pertença. Apesar da seqüência apresentada na figura 1 ser a mais comum, ela pode ser alterada. O maior trabalho esta situado entre os processos um e quatro, pois nessas etapas os dados estão sendo preparados para o processo de exploração, embora as demais sejam também importantes para o sucesso da aplicação como um todo. Com relação à eficiência desse processo, ela não deve sem medida em termos de rapidez do processamento das conclusões. Para um processo KDD ser considerado eficiente, o valor da informação encontrada deverá exceder o alto custo de sua implementação e do processamento dos dados. Pode-se dizer que a eficiência do

29

processo tem uma relação custo beneficio elevada. Geralmente, os resultados de um processo KDD têm alto valor estratégico.

1.3.2.1 A preparação dos dados A fase de preparação dos dados (AMARAL, 2001) capta uma boa parte do tempo do processo KDD, consumindo aproximadamente 70 por cento desse trabalho, além de ser de grande importância. Nela são identificados os dados relevantes para a solução satisfatória do problema. Na verdade, apenas ter os dados não é suficiente, pois é necessário que eles estejam suficientemente corretos, adequados e tenham sido corretamente selecionados para que preencham todas as características desejadas. Mesmo assim, sempre existirá a pergunta: os dados existentes preenchem essas características? Outra característica importante é o tipo de armazenamento de dados usado. No caso de processos informatizados, o armazenamento deve ser feito em arquivos ou bancos de dados; no caso de processos não informatizados, em fichas ou anotações. Independentemente do tipo de armazenamento dos dados utilizados, sua importância continua sendo a mesma. Para que o processo KDD obtenha sucesso, é necessário que os dados estejam disponíveis para o processamento e em condições de uso. A quantidade de informações disponíveis deverá, sempre que possível, ser excedente e não estar em falta, pois uma solução satisfatória exige todas as informações importantes para a solução de um determinado problema. A falta de informação pode dificultar e, em alguns casos, até mesmo impedir que se chegue a um resultado confiável.

30

Somente a posse dos dados permite avaliar de forma confiável aqueles que são realmente relevantes para a solução do problema proposto. A quantidade de dados será definida de acordo com os métodos utilizados durante o processo KDD. Outro ponto a ser observado está relacionado à quantidade de dados para o teste. Na totalidade dos dados, deve-se separar um terço para ser usado como dados de teste. Esses dados devem ser cuidadosamente escolhidos para representar todas as situações possíveis de serem encontradas. Em alguns casos, deve-se também separar um terceiro conjunto de dados para a validação. Estes são utilizados para a realização de um teste preliminar de verificação do desempenho do método de mineração de dados antes de submetê-lo ao teste final.

1.3.2.2 Limpeza dos dados (data cleaning) Os dados no mundo real tendem a ser incompletos, fora de padrões e inconsistentes. As rotinas de limpeza de dados empreendem esforços no sentido de preencher os valores ausentes, aplainar dados enquanto identificam valores fora de padrões e corrigem inconsistências nos dados. Na realidade, os dados fornecidos pelo cliente sempre têm problemas. Uma vez que a procedência dos dados não é muito confiável, trazendo campos não preenchidos em registros, erros de entrada de dados, entre outros, o processo KDD não pode ter sucesso sem um esforço para purificá-los. Portanto, o trabalho necessário para colocar esses dados de forma a serem usados deve ser considerado. A limpeza dos dados é, na realidade, um processo ambíguo. Devido à baixa qualidade dos dados, um cuidado especial deve ser tomado para não confundir um

a loja com recebimento zero pode conduzir a um conhecimento sobre determinadas condições que a tornem não funcional. embora isso possa ser uma limpeza correta dos dados. Por exemplo. registros vazios são cruciais para medir a produtividade do encarregado do caixa e. pode-se eliminar a loja recebedora que nada recebeu. não se pode esquecer que. ajudam a localizar as fraudes. É especialmente pobre quando o percentual de valores ausentes varia consideravelmente. a menos que a tupla possua muitos atributos com valores ausentes. Por outro lado. A seguir serão apresentados alguns métodos que podem ser utilizados para preencher valores a esses atributos: 1. pois as outras lojas receberam muito. Entretanto. Ignorar o registro – usualmente utilizada quando o conteúdo da variável está ausente. o atributo rendimento em uma instância de uma entidade cliente. Não é muito efetivo. o que parece ser uma anomalia ocasional dispensável pode vir a ser a chave dos pontos centrais. Podemse remover todas as transações vazias de uma base de dados. Como exemplo. Em outras palavras.  Valores ausentes Valores ausentes se caracterizam (SANTOS.31 fenômeno interessante do domínio com uma anomalia ocasional. . em algumas instâncias. desde que se atribua um valor zero ao problema da qualidade dos dados. enquanto os pagamentos das parcelas do empréstimo são analisados. os quais podem ser importantes para o processo de mineração de dados. 2007) por existirem em diversas tuplas (ou registros) atributos (campos) que não possuem valores armazenados. algumas vezes.

utilizar outros atributos do conjunto de dados de clientes para construir uma árvore de decisão para predizer seu rendimento. 3. Usar uma constante global para preencher os valores ausentes – atualizar todos os valores ausentes com um único valor constante. A utilização de outros atributos na estimação dos valores ausentes. Ocorrem em varáveis numéricas do tipo .32 2. Calcular valores médios do atributo em estudo segundo os valores (classificação) de um outro atributo (por exemplo. ferramentas de inferência básica. Por exemplo.  Valores fora de padrão Noisy data (valores extremos) são um erro aleatório ou uma variação acentuada na medição de uma variável. não é muito recomendado. utilizando um formalismo bayesiano ou indução por árvores de decisão. rendimento do cliente). Embora simples. segundo a classificação do atributo. Utilizar um atributo médio pertencente à mesma classe à qual a tupla pertença utilizado quando o atributo é do tipo numérico e seu significado é passível de utilização de um valor médio. nos dá uma grande chance de preservar o relacionamento entre o atributo estimado e os demais atributos utilizados no processo de estimação. 5.este valor pode ser determinado através da aplicação de uma técnica de regressão. 4. profissão do cliente) e atribuir esse valor a todos os valores ausentes do atributo (por exemplo. Preencher o valor manualmente – em geral essa abordagem consome muito tempo e pode não ser possível em grandes bases de dados com muitos valores ausentes. Utilizar o valor de maior probabilidade para preencher os valores ausentes .

A figura 2 mostra a aplicação da técnica de agrupamento para detecção de outliers. Agrupamento (clustering) . a mediana ou um valor de limite. faturamento etc.33 rendimento. retirando-se erro de medição.Outliers podem ser detectados quando valores similares são organizados em grupos ou clusters. 2. Fonte: WECA. Em cada grupo aplica-se um critério na escolha de uma medida para ajustar os valores dos grupos. Binning – esse método ordena os valores do atributo para utilizar o conceito de vizinhança entre os dados. . substituem-se os valores pelas medidas calculadas em cada grupo. os valores da série. A seguir são apresentados alguns métodos que podem ser utilizados para corrigir esses valores: 1. Seleção do autor. assim. 2007. Assim. ajustando. Após a ordenação os valores são distribuídos por grupos. Intuitivamente.. Diversos métodos podem ser utilizados para ajustar os valores dos grupos. tais como as medidas aritméticas. e cada grupo deverá ter o mesmo número de elementos (valores). valores que estão fora dos clusters podem ser considerados como outliers. Figura 2 Detectando outliers com a técnica da análise de agrupamentos. que precisam ser aplainadas.

tais como funções de dependência entre atributos. Ferramentas de software de engenharia de conhecimento podem também ser utilizadas para detectar violações nas restrições de integridades dos dados. Podem. Podemos ter redundância dos dados. Em uma aplicação. onde um atributo pode possui nomes diferentes em seus bancos de dados. podem ser excluídos da utilização na etapa de mineração de dados. onde duas ou mais variáveis são envolvidas e os dados combinados numa superfície (plano) multidimensional. como erros causados por entrada de dados manual. desde que uma possa ser estimada (predita) pela outra. também.outliers podem ser identificados através da combinação de inspeção humana e do uso do computador. uma medida teórica pode ser utilizada para ajudar a identificar padrões de outliers. Regressão – dados podem ser ajustados por funções de ajustamentos de dados. 1. Regressão linear múltipla é uma extensão da regressão linear.34 3. tais como funções de regressão. Alguns dos dados inconsistentes são corrigidos manualmente utilizando referências externas. existir inconsistências causadas por integrações de dados.4 Integração de dados . 4. Regressão linear busca encontrar a melhor linha de ajustamento para duas variáveis.  Dados inconsistentes Pode haver inúmeras inconsistências nos dados armazenados. Uma vez identificados os padrões de outliers e sendo considerados lixo. Combinação de inspeção humana e computador .

recaindo num problema típico de identificação de entidades. três pontos importantes na integração de esquemas:  Integração de esquemas internos – diversas entidades do mundo real podem ser semelhantes e estarem definidas em diversos esquemas com nomes e atributos diferentes. Uma técnica muito interessante para verificar redundância em conjunto de . provavelmente. flat files entre outros tipos de armazenamento. segundo Santos (2007). fusão) de várias bases de dados. os quais ajudam a evitar esse tipo de problema. essa atividade se torna mais fácil. Nesse processo. salário anual etc. também existirá a necessidade de transformar os dados integrados em um formato apropriado para o processo de mineração de dados. consolidação.um atributo pode ser redundante se ele puder ser derivado de outro armazenamento (tabela). Existem.1 Integração de diversas fontes de dados A integração de dados geralmente envolve a combinação de várias fontes de dados em um único armazenamento coerente.) podem ser a causa de redundância em conjunto de dados.35 O processo de mineração de dados freqüentemente requer a integração (união. Essas fontes de dados podem incluir vários bancos de dados.  Redundância de dados . uma vez que esses armazenamentos devem possuir metadados. arquivos textos.4. Quando se têm apenas bancos de dados operacionais e/ou data warehouses para integração. semelhante as bases de dados geradas no processo de construção de um data warehouse. 1. tal como o atributo agregado salário anual. Inconsistências em atributos ou nome de dimensões (salário.

para as mesmas entidades do mundo real. podem ser registrados em unidades e moedas diferentes. A redundância no atributo também pode ser identificada através da geração de registros (tuplas) idênticos gerados numa mesma entrada de dados. tais como armazenamentos e bancos de dados relacionais. campos fixos e variáveis. A heterogeneidade semântica dos dados pode causar grandes desafios na integração dos dados. 1. a qual medirá o quanto dois atributos são correlatos. Certamente irá melhorar a precisão dos resultados e a velocidade das fases subseqüentes dos processos de garimpagem.5 Transformação dos dados . de rede e hierárquico.. entre outros formatos irão afetar a forma como se recuperam e integram os dados. incluindo ou não parcelas de valores tais quais impostos ou taxas. Outros fatores como os vários formatos de armazenamento dos dados. A variedade dos sistemas operacionais e plataformas de hardware também são fatores que dificultam o acesso aos inúmeros protocolos para a recuperação e integração dos dados. arquivos textos. Preços de produtos. diárias de hotéis. salários de empregados etc.36 dados é a utilização da análise de correlação. Os cuidados na integração dos dados oriundos de várias fontes podem ajudar a reduzir e evitar redundâncias e inconsistências no resultado do conjunto de dados gerado na integração.  Detecção e resolução de valores conflitantes . os valores dos atributos podem diferir em diversas fontes de dados. numa mesma empresa.

p. Têm-se. 2007). . p. 5 (dm02). podem-se fazer algumas manipulações nos dados para o melhor processamento (SANTOS. Fonte: Santos. Figura 5 Conversão de dados numéricos para booleanos (usando faixas de valores). Um outro exemplo de transformação ilustra a “normalização” de uma base de dados de ocorrência de eventos: Figura 4 Conversão de dados numéricos para booleanos. como exemplo. os dados do problema “jogar golfe”: Figura 3 Conversão de dados nominais para booleanos. 5 (dm02). 2007. Fonte: Santos. 4 (dm02).37 Se houver atributos cuja representação deva ser modificada. 2007. Fonte: Santos. p. 2007.

38 Figura 6 Conversão de dados ordinais para booleanos (usando faixas de valores). p.’açúcar refinado’. Bauducco’.’Bisc.’Mortadela Marba’ ‘Pão francês’.‘Danone’. 2007. Fonte: Santos.‘Pão francês’ ‘Pão francês’. Loja Caixa 03 05 03 05 03 06 03 05 01 01 01 03 01 03 01 03 14 14 13 05 14 05 14 06 Transação 011672 011673 010169 011674 003752 003758 003001 011685 003764 011688 003765 010188 Compras ‘Pão francês’ ‘Pão francês’ ‘Pão francês’ ‘Pão francês’.’Leite pasteurizado’ ‘Leite pasteurizado’.‘Pão francês’ ‘Açúcar União’.‘açúcar refinado’ .’Leite pasteurizado’ ‘Coca-cola’.’Feijão Taruma’.‘Pão francês’.‘Pimentão’.‘Pão francês’.’adoçante’ ‘Pão francês’.‘Pão francês’ ‘Pão francês’ ‘Biscoito triunfo’.’leite Pasteurizado’. 6 (dm02).

Fonte: Santos. 03 03 03 03 01 01 01 03 01 03 01 05 05 06 05 14 14 13 05 14 05 14 001672 011673 010169 011674 003752 003758 003001 011685 003764 011688 003765 T T T T T T T T T T T F F F T F F F F F F F F F F T T F F F F F F F F F T F F F F F F F F F F T F F F F F F F F F F F F T F F F F F F F F F F T T F F F F F F F F F F F T F F F F F F F F F F T F F F Figura 7 Conversão de dados de ocorrência para booleanos. Vale a pena ressaltar que esta etapa. PF FLVPV LPSS DDC ADML RFCC1 LPPT ARU FPT1 . A segunda parte da tabela 7 mostra que ocorrências existiam como booleanos..6 Seleção de dados Nesta etapa serão identificados todos os dados necessários para o processo de mineração de dados. Quem deve responder essa segunda pergunta é quem conhece os dados e pode estimar o impacto da transformação. É importante observar que transformações em dados devem ser feitas considerando que tipo de dados podem ser entrados em um determinado algoritmo e qual é o significado da mudança do tipo de dado.39 Loja Caixa Trans. Outra possível forma de transformar a primeira parte da tabela seria contar o número de itens ao invés de simplesmente indicar a existência. possibilita a seleção somente do conjunto de dados que possa ser . 1. 2007. 6 (dm02).. p. acorrendo após a etapa de integração.

os dados descartados podem ser necessários posteriormente. que deve ser seguido antes da aplicação de programas de pré-elaboração (SANTOS. a maioria dos métodos editáveis gasta muito tempo para encontrar uma solução e estimar o erro. A seleção dos dados a serem utilizados no processo KDD deve ser feita de forma que somente os dados não relevantes sejam retirados. No caso de uma análise incorreta no decorrer do processo. e o procedimento que procura encontrar a solução é feito sempre com base no conjunto original. Entretanto. 2007).  O padrão de uma avaliação é o erro encontrado. a tabela já está pronta para que se faça a exploração. e o subconjunto de atributos com o melhor desempenho é selecionado. mas apenas 10 deles são usados para uma decisão. a expectativa para a mineração de dados é muito grande. o número de subconjuntos a serem analisados é finito. É muito importante a identificação correta dos dados relevantes. Uma vez preparados e transformados os dados para um formato padrão. Para uma vasta amostra.40 efetivamente utilizado e cuja integração já garantiu a coerência entre as diversas fontes de dados utilizados. O objetivo da seleção de atributos é encontrar um subconjunto de atributos com desempenho editável comparável ao conjunto original. o número de subconjuntos que pode ser enumerado é algo impossível de ser manipulado. a redução de dados. Os resultados são avaliados. Para uma quantidade de dados moderada. Muitas vezes a tabela usada tem mais de cem campos. . Dado um conjunto de atributos m. mas para uma grande amostra existe um passo intermediário. há dificuldades óbvias nessa abordagem:  Para uma quantidade grande de atributos.

muito menor em volume.41 Diversas abordagens têm sido descritas para filtrar ou transformar atributos em um conjunto menor. Já com o uso de uma amostra maior. A idéia de separar seleção de atributos de pré-elaboração foi criada pelo fato de o espaço de busca e o tempo computacional gasto serem bastante diferentes de uma tarefa para outra. pois o aprendizado é feito separadamente da seleção. Os outros métodos. constituindo-se em um processo dinâmico e coordenado pela busca de soluções. são estatísticos. Esses particionam os dados em grupos de casos menores.6. Podem-se aplicar. Têmse duas tarefas essenciais para o desempenho desses métodos:   Ordenar os valores. entretanto. a ordenação de valores não é um processo complexo.1 Redução de dados Redução de dados é uma técnica que pode ser aplicada para obtenção de uma representação reduzida (compactada) de um conjunto de dados. examinando os valores dos atributos. conforme propõe Santos (2007) as seguintes técnicas para a redução de dados: . Com uma quantidade de dados moderada. a ordenação desses valores torna-se uma tarefa árdua. Analisar o erro para cada valor. mantendo a integridade do conjunto de dados original. Garimpar nesse conjunto de dados reduzidos pode produzir resultados mais eficientes do que no conjunto de dados originais. Os métodos lógicos apresentam uma perspectiva inovadora para a seleção de atributos. porém em ordem não randômica. 1.

Conceitos hierárquicos permitem a garimpagem de dados em vários níveis de abstração e são fortemente utilizados em ferramentas de mineração de dados.operações de agregação de dados são aplicadas para a construção de cubos de dados (estrutura multidimensional para análise de dados).  Redução de dimensão – atributos ou dimensões irrelevantes. amostras e uso de histogramas.  Redução de numerosidade – dados são alterados ou estimados por valores alternativos. fracos ou redundantes são identificados e retirados.  Compressão de dados – mecanismos de codificação são aplicados para reduzir o tamanho do conjunto de dados. .42  Agregação de dados em cubo .  Discretização e geração de conceitos hierárquicos – valores de atributos em linhas ou registros são alterados por intervalos ou níveis de conceitos mais elevados. menores representações de dados tal como modelos paramétricos ou métodos não paramétricos tais como clustering.

esses relacionamentos estão escondidos.43 CAPÍTULO II MINERAÇÃO DE DADOS A etapa de mineração de dados envolve as fases de identificação dos objetivos da mineração (sua funcionalidade). 2005). 2007). mas representam o valioso conhecimento e seus objetos nos bancos de dados existentes. Devido à grande quantidade de dados dos sistemas de bancos de dados atuais. A definição de mineração de dados aceita por diversos pesquisadores foi elaborada como sendo: “Extração de conhecimento de base de dados é o processo de identificações válidas. ou seja. Para se compreender melhor o conteúdo dessa definição. Os bancos de dados devem representar um espelho sincero do mundo real registrado. ainda referindo Santos (2007). deve-se olhar individualmente cada componente seu: . potencialmente úteis e compreensíveis embutidos nos dados” (SANTOS. mineração de dados é o processo de busca de relacionamentos e padrões globais existentes nas bases de dados (CARVALHO. a identificação da melhor técnica e da abordagem da aplicação de seus processos.

um dos objetivos de se realizar a mineração dos dados é encontrar padrões descritos em alguma linguagem que pode ser compreendida pelos usuários. ou seja.os padrões descobertos devem possuir algum grau de certeza.  Úteis – os padrões descobertos devem ser incorporados para serem utilizados.  Novos – um padrão encontrado deve fornecer novas informações sobre os dados. Por exemplo.  Processo – a extração de conhecimento da base de dados envolve diversas etapas como a preparação dos dados.  Padrões – denotam alguma abstração de um subconjunto dos dados em alguma linguagem descritiva de conceitos. Pode ser medido por meio de comparações entre as mudanças ocorridas nos dados ou no conhecimento anterior.  Compreensíveis . os dados correspondem aos valores dos campos de um registro de vendas em uma base de dados qualquer.44  Dados – conjunto de fatos ou casos em que há um repositório de dados. devem satisfazer funções ou limiares que garantam que os exemplos cobertos e os casos relacionados ao padrão encontrado sejam aceitáveis. permitindo uma análise mais profunda nos dados. busca por padrões e avaliação do conhecimento.  Válidos . . O grau de novidade serve para determinar quão novo ou inédito é um padrão.

Na descrição. Como a produção só será determinada no final da colheita. a produção de determinado cereal na última colheita pode ser apontada a partir de um conjunto de dados armazenados. encontram-se os padrões de interpretação humana a partir da descrição dos dados. 2. originalidade e compreensão. são: a descrição e a pré-elaboração. na prática. tem-se a previsão da produção do mesmo cereal na próxima colheita a partir do conjunto de dados usado na descrição. além de útil e interessante para os usuários finais do processo.1 Objetivos primários da mineração de dados Os objetivos primários da mineração de dados.45  Conhecimento – é definido em termos dependentes do domínio relacionados fortemente com medidas de utilidade. um requisito importante é que esse conhecimento descoberto seja compreensível a humanos. . Como exemplo. Como exemplo. O processo de extração de conhecimento tem o objetivo de encontrá-lo a partir de um conjunto de dados para ser utilizado em um processo decisório. esse dado não pode ser confirmado de imediato. Nesse caso. de forma que ele forneça um suporte a esses usuários no processo de decisão. Por pré-elaboração entende-se a utilização de algumas variáveis ou campos na base de dados para predizer o desconhecido ou valores futuros em variáveis de interesse. que geralmente são tomadores de decisão. Portanto. o valor da produção pode ou não ser confinado prontamente.

2.) e dando a cada classe uma forma diferente de tratamento. as tarefas primárias são as mesmas. formada de protocolos de comportamento em diferentes ambientes. amigos. Independentemente dos objetivos primários da mineração de dados.2. definindo as classes sociais. entre outras formas de classificação.46 A importância de cada uma dessas definições varia consideravelmente com a aplicação em questão. estabelecendo preconceitos e tratando as pessoas segundo esses estereótipos. ao receber qualquer estímulo do meio-ambiente e preparando-se para uma resposta a . O homem. familiares etc.2 Tarefas primárias da mineração de dados A mineração de dados necessita basicamente de técnicas (tarefas) para a sua realização. O ser humano está sempre classificando o que percebe à sua volta: criando classes de relações humanas diferentes (colegas de trabalho. mas cinco delas abraçam didaticamente todas as outras formas de apresentação e permitem uma visão mais global e aproximada para uma introdução ao assunto. a classificação é uma das mais utilizadas técnicas do data mining. estatística ou inteligência artificial simbolista. Essas tarefas são de caráter genérico e podem ser implementadas através de ferramentas diferentes como redes neuronais artificiais. São apresentadas muitas técnicas básicas. 2. simplesmente porque é uma das mais realizadas tarefas cognitivas humanas no auxílio à compreensão da ambiente em que vivemos.1 Classificação Para Carvalho (2005).

de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil. de ações de bolsas de valores com lucros potenciais baixos. pois possui classes de estímulos com suas respostas estereotipadas construídas no passado e prontas para o uso.1 Classificação supervisionada Na classificação supervisionada. por mais semelhante que pareça. com amostras rotuladas que permitem o treinamento do classificador. Nessa fase. classificar esse estímulo em categorias de outros estímulos já recebidos no passado e para os quais possui uma resposta pronta e imediata. Para comparar dados ou objetos. médio ou alto risco de empréstimos bancários. já se tem uma idéia de como a diferença entre as classes pode ser modelada. . médios e altos. entre outras. Assim.2. por exemplo. busca. por analogia. A tarefa de classificar normalmente exige a comparação de um objeto ou dado com outros dados ou objetos. ilegais ou suspeitas em sistemas de proteção e fiscalização do mercado financeiro internacional.47 ele. não precisa produzir laboriosamente cada resposta aos estímulos do ambiente a cada instante.1. Como o mundo físico nada é exatamente igual. para se criarem classes. que supostamente pertençam a classes anteriormente definidas. através da análise do espaço de atributos. já se sabem quantas classes se têm no problema. e somente as características principais sejam observadas. de transações financeiras como legais. é preciso afrouxar as exigências de igualdade e permitir que detalhes sejam desprezados. utilizase uma métrica ou forma de medidas de diferenças entre eles. No data mining são comuns às tarefas de classificação de clientes em baixo. 2.

soma das distâncias. atributos. são:  Distância manhattan ou City block . .48 Essa classificação conta com algoritmos que podem criar funções discriminantes ou métodos que permitem indicar. pois. calculadas no espaço de atributos.1. 2.2 Medidas de distância Algoritmos para treinamento e classificação envolvem o cálculo de uma distância entre dois ou mais pontos no espaço de atributos (com isso. 2007. parâmetros a serem usados dependem da tarefa em questão. dependendo da complexidade de espaço de atributos. Fonte: Santos. Simples e rápida para calcular. Os modelos. segundo Santos (2007). à qual classe eles devem pertencer. classificadores. para os dados de uma instância. Algumas medidas de distância (entre a origem e o ponto em questão). Figura 8 Classificação como identificação do que é “parecido” no espaço de atributos. têm-se algoritmos simples e rápidos. p. entre cada atributo da origem e do ponto em questão. e complexos e lentos.2. identifica-se o que é “parecido” no espaço de atributos). pode ter pouca precisão. 4 (dm03).

Podem-se considerar algumas extensões e exceções:  Se todos os atributos forem numéricos e da mesma dimensão/magnitude.) podem ser usadas. 4 (dm03).  Se alguns atributos forem nominais ou ordinais. . inclusive orientação de amostras de uma determinada classe. Fonte: Santos. o pré-processamento poderá ser necessário. p. pode ser acelerada se o cálculo for somente para comparação. Deve ser calculada entre um ponto e um conjunto de amostras. pesos etc. 2007. Simples de calcular. Figura 9 Algumas formas de calcular distâncias.  Distância de Mahalanobis ou máxima verossimilhança – distância calculada considerando o espalhamento dos dados. regras de cálculo de distâncias (condicionais. As medidas de distância são simples.49  Distância euclidiana – distância mínima entre os dois pontos considerando todas as coordenadas do espaço de atributos. Ainda como alternativa. podem-se usar as medidas da forma como estão.

Para se obterem resultados mais precisos. que representam uma classe).1.1 Método do paralelepípedo Santos (2007) refere que o método de classificação supervisionada precisa de amostras ou instâncias com classes ou rótulos. uma instância pode ser rejeitada pelo classificador se o resultado não for satisfatório (depende do algoritmo e da implementação). e as classes usadas para a classificação terão seus rótulos de classes determinados pelo algoritmo.3 Conceitos adicionais O treinamento de um classificador supervisionado pode gerar assinaturas (conjunto de valores que caracterizam uma classe no espaço de atributos).2.1. 2. protótipos (exemplos de instâncias. Vale a pena lembrar que as instâncias serão usadas no treinamento e para a classificação em si. A figura 10 ilustra a classificação pelo método paralelepípedo.Usa limiares ou extremos dessas como assinaturas. pode-se considerar que a instância pertence à classe lilás se o seu atributo 1 está entre a e b e o seu atributo 2 está entre c e d.4 Métodos da classificação supervisionada 2.2. Usando os dados da figura. regras (conjunto de condições para determinar se uma instância pertence a uma classe). 2. As instâncias usadas devem conter rótulos das classes conhecidas. compara atributos de uma instância para ver se estão dentro dos limiares e resolve as classes.2.4. e que uma instância .50  Pesos para diferentes atributos podem ser usados.1. reais ou não.

. consideram-se os seguintes critérios:  Para cada instância com classe desconhecida. 6 (apostila 03).2.1. 2007. quais são os valores extremos para cada classe e para cada atributo. Armazenam-se como assinaturas os valores extremos por classe e atributos. então. Verifica-se. verifica-se se os valores dos atributos estão contidos nos extremos para a classe. Fonte: Santos. 2.4. p. Figura 10 Exemplos de classificação com paralelepípedos. marcando a classe como sendo selecionável.51 pertence à classe verde se o atributo 1 está entre e e f e o seu atributo 2 está entre g e h.2 Fase de classificação supervisionada Para essa fase. reclassificam-se os dados usados para criar as assinaturas com os extremos criados. para se verificar a qualidade.

.2 e 3.4 Comprimento da pétala entre 1.1 e 0.8 Comprimento da pétala entre 4.0 e 1. Amostra 49: classe original é Iris-setosa Iris-setosa Amostra 50: classe original é Iris-setosa Iris-setosa Amostra 51: classe original é Iris-versicolor: múltiplas classes: Iris-versicolor Iris-virginica .4 Comprimento da pétala entre 3.0 Largura da sépala entre 2.0 e 1. Assinaturas: IRÍS-SETOSA: Comprimento da sépala entre 4. caso contrário.9 Largura da pétala entre 1.5 e 6.52  Se somente uma classe for selecionável.9 Largura da sépala entre 2.9 Largura da pétala entre 0.5 Classificação: Amostra 1: classe original é Iris-setosa Iris-setosa Amostra 2: classe original é Iris-setosa Iris-setosa Amostra 3: classe original é Iris-setosa Iris-setosa .0 e 3.6 IRÍS-VERSICOLOR: Comprimento da sépala entre 4.8 Largura da sépala entre 2.0 e 5.3 e 4.8 IRÍS-VIRGINICA: Comprimento da sépala entre 4. usa-se um critério de desempate ou rejeição.4 e 2. ela será escolhida.1 Largura da pétala entre 1.9 e 7..9 e 7.3 e 5.

Usa cortes ortogonais no espaço de atributos para determinar regiões para classificação..4. Amostra 148: classe original é Iris-virginica Iris-virginica Amostra 149: classe original é Iris-virginica Iris-virginica Amostra 150: classe original é Iris-virginica: múltiplas classes: Iris-versicolor Iris-virginica Classificações corretas: 124 Classificações incorretas: 0 Classificações múltiplas: 26 Classificações que não puderam ser feitas: 0 2. .2.... semelhantes a um sistema especialista.53 Amostra 52: classe original é Iris-versicolor: múltiplas classes: Iris-versicolor Iris-virginica Amostra 53: classe original é Iris-versicolor: múltiplas classes: Iris-versicolor Iris-virginica Amostra 54: classe original é Iris-versicolor Iris-versicolor .1. Amostra 98: classe original é Iris-versicolor Iris-versicolor Amostra 99: classe original é Iris-versicolor Iris-versicolor Amostra 100: classe original é Iris-versicolor Iris-versicolor Amostra 101: classe original é Iris-virginica Iris-virginica . As regiões são hiperparalepípedas.3 Características Entre elas destacam-se:   Método simples e rápido.  As assinaturas geradas são facilmente compreensíveis.

8 (apostila 3). <=. tem-se uma classe cujo paralelepípedo está praticamente dentro do de outra classe. < . p.    Pesos na comparação são facilmente implementados.5 Menor distância a protótipo Outro método simples de classificação supervisionada que usa a mínima distância euclidiana é o protótipo de uma classe como assinatura. pois é possível que instâncias sejam pertencentes a mais de um hiperparalelepípedo. Na figura 11. >= . Fonte: Santos. 2007. Interoperabilidade com sistemas especialistas e árvores de decisão.2.  Atributos nominais e ordinais podem ser usados diretamente (comparação de ordinais e numéricos com > . Pode causar problemas de classificação. . 2.1. e de nominais categóricos como = e ≠ ). Figura 11 Exemplos de classificação com paralelepípedos (com problemas potenciais de classificação).54  Rejeição pode ocorrer se a instância não pertencer a nenhum dos hiperparalepípedos correspondentes às classes.

o ponto central ou médio das instâncias reconhecidas como sendo de cada classe). Figura 12 Exemplos de classificação com menor distância a protótipo. A figura 12 ilustra a classificação pelo método da menor distância a protótipo. p. 2. 9 (apostila 3). 2007.5.55 Comparando-se atributos de uma instância com o protótipo mais próximo (considerando a distância euclidiana). Fonte: Santos.1. .1 Fase de treinamento Para se caracterizar tal fase:  Calcula-se a média (e/ou outras informações) para cada classe.2. indica-se a classe. Para cada classe tem-se um protótipo (neste exemplo. Considera-se que uma instância pertence a uma classe X se a distância euclidiana entre a instância e o protótipo da classe X for menor que as distâncias entre a instância e os protótipos das outras classes. usando-se as amostras rotuladas de instâncias para as respectivas classes.

77 Comprimento médio da pétala: 4. mas se pode estabelecer distância máxima para criar rejeição. usa-se novamente a classificação das flores íris: Assinaturas: IRÍS-SETOSA: Comprimento médio da sépala médio: 5.1.26 Largura média da pétala: 1.2.5. 2.3259999 .4180002 Comprimento médio da pétala: 1.464 Largura média da pétala: 0.   Atribuem-se a instâncias as classes cujo protótipo tiver menor distância.24399997 IRÍS-VERSICOLOR: Comprimento médio da sépala médio: 5. pode-se referir que:  Para cada instância com classe desconhecida.0059996 Largura média da sépala: 3. verifica-se a menor distância entre instâncias e os protótipos das classes.56  Armazenam-se como assinaturas as médias (e/ou outras informações) como protótipos das classes. Raramente se tem empate.2 Fase de classificação Nesta fase.936002 Largura média da sépala: 2. Como exemplo.

inpe..90 = Iris-virginica .99 0.13 1.08 0.41 3.15 3. Amostra 49: (Iris-setosa) dist: 0.5520005 Largura média da pétala: 2.19 4.2.98 1. Amostra 149: (Iris-virginica) dist: 4.santos Amostra 52: (Iris-versicolor) dist: 3.br/~rafael.Rafael Santos .29 1.80 = Iris-setosa Amostra 2: (Iris-setosa) dist: 0..0260003 Classificação: Amostra 1: (Iris-setosa) dist: 0.16 = Iris-virginica .84 = Iris-setosa Amostra 3: (Iris-setosa) dist: 0.00 = Iris-setosa . facilmente compreensíveis.41 3. assinaturas compactas.66 = Iris-virginica Amostra 150: (Iris-virginica) dist: 4.26 4.99 1.57 IRÍS-VIRGINICA: Comprimento médio da sépala média: 6.85 = Iris-virginica Classificações corretas: 139 Classificações incorretas: 11 2..43 5.23 1. Amostra 99: (Iris-versicolor) dist: 1...70 1.21 = Iris-versicolor Amostra 53: (Iris-versicolor) dist: 4.5.44 3.1.58 0.www.82 = Iris-setosa Amostra 51: (Iris-versicolor) dist: 3..99 0.55 3.27 4.13 = Iris-versicolor Amostra 100: (Iris-versicolor) dist: 2.68 = Iris-setosa Amostra 50: (Iris-setosa) dist: 0.9740002 Comprimento médio da pétala: 5.25 4.5879993 Largura média da sépala: 2.3 Características São elas:  Método simples e rápido.65 0.14 3.lac. .22 0..60 1..86 = Iris-versicolor .

2 Agrupamento (clustering) A análise de agrupamento possui vários algoritmos diferentes e métodos por se agruparem objetos de tipo semelhante em categorias respectivas. Em outras palavras. Por exemplo. a análise de agrupamento pode ser usada para descobrir estruturas em dados sem prover uma interpretação da explicação. um grupo de pessoas que compartilham a mesma mesa em um restaurante pode ser considerado como um agrupamento das pessoas. Lida-se com “crescer em cachos” em quase todos os aspectos de vida diária. 2.2. como tipos diferentes de carne ou legumes. armazena artigos de natureza semelhante. Próximo exemplo: biólogos têm que organizar as espécies diferentes de animais antes de uma descrição significante das diferenças . é exibido nos mesmos ou em locais. desenvolver taxonomias. quer dizer. Uma pergunta geral de investigadores em muitas áreas de investigação é como organizar dados observados em estruturas significantes.58   Possibilita rejeição com parâmetro adicional (máxima distância tolerada). ou seja.  Considera que as classes têm distribuição hiperesférica no espaço de atributos. Em comida. qual classe é a mais próxima no espaço de atributos. Dado o anterior. a análise de agrupamento é uma ferramenta de análise de dados exploratória que busca ordenar objetos diferentes (de certo modo) em grupos requerindo o grau de associação entre dois objetos: no máximo se eles pertencerem ao mesmo grupo e mínimo caso contrário. Intuito: qual protótipo é o mais próximo.  Assume-se que o empate (duas classes cujos protótipos tem distâncias iguais a uma instância) é raro.

cachorros). que identificam uma classe. o menos semelhante são os sócios na classe respectiva. Por exemplo. não existem classes predefinidas para classificar os registros em estudo. seleciona-se um conjunto de atributos (variáveis) e. enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feiras. qualquer que seja a natureza de um negócio. Em resumo. Nesta classificação se te: o mais alto. . Homem tem mais em comum com todos os outros primatas (por exemplo. ou seja. os mamíferos. Essa funcionalidade visa segmentar um conjunto de dados num número de subgrupos homogêneos ou clustering. Os registros são agrupados em função de suas similaridades básicas. por exemplo: clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos. De acordo com o sistema moderno empregado em biologia. quando se desejam formar agrupamentos. em função da similaridade desses atributos. pode-se aplicar análise de clusters sobre o banco de dados de um supermercado a fim de se identificarem grupos homogêneos de clientes. Seu objetivo é formar grupos baseados nos princípios de que esses grupos devem ser o mais homogêneos em si e mais heterogêneos entre si. A tarefa consiste em identificar agrupamentos de objetos. os vertebrados e os animais. homem pertence aos primatas.59 entre animais. são formados os grupos. o nível de agregação. cedo ou tarde se terá um problema agrupando de uma forma ou outra. o que faz com os sócios mais distantes dos mamíferos (por exemplo. A diferença fundamental entre a formação de agrupamento e a classificação é que. no agrupamento. macacos). Os algoritmos não-supervisionados criam grupos de dados onde:  Cada instância pertence a um grupo.

60   Instâncias em um grupo são semelhantes entre si. essa medida é a distância geométrica atual entre objetos no espaço (como se medido como uma regra). Se houvesse dois objetos. Muitas vezes. o preço deles/delas. Por exemplo. usa-se uma regra para se agruparem vários jantares e ver se eles compartilharam a mesma mesa ou não. Esses algoritmos são conhecidos também como algoritmos de classificação não-supervisionada ou de aprendizado auto-organizado. Essas distâncias (semelhanças) podem estar baseadas em uma única dimensão ou dimensões múltiplas. pode-se levar em conta o número de calorias que elas contêm. se agruparem comidas rápidas. avaliações subjetivas de gosto etc. porém. 2. essa media é apresentada como sendo a distância entre .1 Medidas de distâncias A ligação ou árvore que agrupam métodos usam. Instâncias em grupos diferentes são diferentes entre si. ou espaço tridimensional.2. ou alguma outra medida derivada de distância que é mais significante ao investigador. O algoritmo de ligação.2. seguindo Santos (2007). dessemelhanças (semelhanças) ou distâncias entre objetos ao formar os agrupamentos. Os métodos de clustering normalmente utilizam uma medida de dissimilaridade para avaliar o grau de semelhança entre dois objetos durante o processo de agrupamento. não se preocupa se as distâncias alimentadas são reais distâncias atuais. O modo mais direto de computar distâncias entre objetos em um espaço multi-dimensional é computar distâncias euclidianas. com cada dimensão que representa uma regra ou condiciona por se agruparem objetos. Por exemplo. Semelhanças são um jogo de regras que servem como critérios por se agruparem ou separarem artigos.

e a mais utilizada é a função euclidiana e a função Manhattan. 2. Distância quarteirão. a técnica não funciona. 2. Se o banco de dados não for numérico. A combinação entre a escolha das variáveis. O dataset é tratado como um vetor e. portanto os dados qualitativos devem ser transformados em variáveis numéricas. Os algoritmos de clustering podem ser classificados em duas categorias principais: método hierárquico e método de particionamento ou relocação interariva.2.1 Métricas As métricas mais utilizadas são:   Distância euclidiana. Para plotagem dos dados.1. lança-se mão de uma função de distância. Pontos próximos formam um grupo.2. Faz-se necessário definir . cada informação é considerada uma componente vetorial. pois o algoritmo trabalha com distâncias entre os pontos.  Agrupamento por particionamento – o algoritmo das K-means é o mais utilizado e divide o grupo total de itens em subgrupos. transformações das variáveis (homogeneização) e as medidas de dissimilaridade escolhidas é que traduz operacionalmente o termo “associação natural” entre objetos (Santos 2007).1.61 dois objetos.2.2 Tipos de agrupamentos As técnicas de agrupamento mais conhecidas são: o agrupamento por particionamento e o agrupamento hierárquico.2.

e esse número é denominado de K. Após o processo de agrupamento. os grupos são novamente plotados. Processo divisivo: começa com um cluster único e vai particionando-o em clusters menores. apenas os identifica. 2. projeto de layout de . Na seqüência. os centróides são novamente recalculados e o processo se repete até que os grupos estejam bem definidos. reposicionam-se os centróides de acordo com a sua distância em relação aos outros pontos do grupo. Inicia-se.2. com o algoritmo dividindo o dataset em K grupos e plotando um ponto chamado centróide (mean) no meio de cada grupo.3 Associação As associações visam determinar relacionamentos entre conjuntos de itens. Processo aglomerativo: faz o processo ao contrário: inicia em cluster pequeno e vai-se agrupando em clusters maiores. então. O agrupamento não responde porque os padrões existem. o analista deve estudar os padrões identificados procurando verificar se esses podem ser transformados em conhecimento estratégico. Com o centróide reposicionado. Exemplos de uso de regras de associação são projetos de catálogos. daí o nome de K-médias. tais como “90% de pessoas que compram pão também levam leite”. em processos iterativos.  Agrupamento hierárquico – nesse tipo de agrupamento. o algoritmo mais utilizado é o HAC. Essa técnica trabalha de duas formas: 1. Em seguida.62 previamente o número de grupos a ser criado. 2.

sistemas meteorológicos. tais como identificação de produtos com mesmos padrões de vendas. segmentação de clientela baseada em padrões de compra.. com inúmeras possibilidades de aplicação prática. “42% das pessoas que viram De Volta para o Futuro: Parte I” voltaram ao cinema para assistir “De Volta para o Futuro: Parte II”. ou seja. A classificação de séries de tempo visa definir grupos com séries de tempo similares. de modo a induzir a venda de artigos relacionados. Essas afinidades dão expressas em forma de regras: “72% de todos os registros que contêm os itens A. tais como ordenações temporais.63 lojas/prateleiras. As seqüências podem ser amplamente empregadas em mala direta. no caso) representa o fator de confiança da regra e costuma ser usado para eliminar tendências fracas. por exemplo. Essas tendências podem ajudar a . mantendo apenas as regras mais fortes. B e C também contém D e E”. expressas como transações. em que o objetivo é encontrar tendências dentro de um grande número de registros de compras. ou ordenação de classificação. O algoritmo de descoberta de regra de associação identifica afinidades entre itens de um subconjunto de dados. por exemplo. mesmo padrão de comportamento numa dada fatia de tempo. detecção de comportamento similar de instrumentos financeiros. onde itens podem ser agrupados. em catálogos ou espaços físicos. etc. por exemplo. Dependências funcionais podem ser vistas como regra de associação com fator de confiança igual a 100%. onde os itens associados são resultantes de transações diferentes. As seqüências são um tipo especial de associação. Trata-se de um algoritmo tipicamente endereçado à análise de mercado. As seqüências visam determinar padrões de ordenação entre dados. sistemas médicos. A porcentagem de ocorrência (72.

Nesse caso. onde as regras encontradas entre as relações podem ser usadas para identificar seqüências interessantes. que serão utilizadas para predizer acontecimentos subseqüentes. Um exemplo clássico de data mining foi desenvolvido pela Wal-Mart. entre compras em uma loja. não apenas a coexistência de itens dentro de cada transação é importante. ou ainda tratamentos médicos. As seqüências podem ser úteis para identificar padrões temporais. relacionando alunos e disciplinas. por exemplo. por exemplo. A empresa descobriu que o perfil do consumidor de cervejas era semelhante ao de . Uma variante do problema de regras de associação é a análise de seqüências. começam a se repetir com freqüência. em que a mesma técnica pode ser utilizada. ou alocar recursos como salas de aula e professores. 2. modificar prateleiras ou propagandas e introduzir atividades promocionais específicas. como associação de produtos durante um processo de compras.64 entender e a explorar padrões de compras naturais e podem ser usadas para ajudar mostruários. é o caso de um banco de dados escolar. ou utilização de cartões de crédito. as ferramentas data mining indicam a presença de oportunidades em relação àquele público consumidor. Uma regra do tipo “84% dos alunos inscritos em „Introdução a Linux‟ também estão inscritos em „Programação em Java‟” pode ser usada pela direção ou secretaria para planejar o currículo anual. mas também a ordem em que aparecem e o intervalo entre elas.1 Exemplo de aplicação de técnicas de associação Quando determinados padrões de comportamento.2. Um exemplo distinto.3.

3. apesar de ser necessária a definição da tarefa a ser realizada e dos dados a serem analisados. Isso pode ser confirmado ao serem analisadas correlações nos dados sobre ninhos de cegonhas e taxa de natalidade de algumas regiões. Resultado: o consumo cresceu 30% às sextas-feiras com a redefinição de layout baseada na conexão de hipóteses desenvolvidas pelo data mining. a Wal-Mart optou por uma otimização das atividades junto às gôndolas nos pontos de vendas.65 fraldas. Existe. 2. onde as cegonhas fazem seus ninhos. Para Graça. ou provar alguma coisa. trabalha-se dessa forma. entre 25 e 30 anos. As áreas urbanas têm taxas de nascimento mais altas e também mais chaminés. porém. colocando as fraldas ao lado das cervejas. o grande número de cegonhas. uma terceira variável que foi desconsiderada na análise: a quantidade de chaminés. Com base na verificação dessas hipóteses.2. daí. considere-se a hipótese de que mais cegonhas determinam um maior número de nascimento de crianças. Eram homens casados. Semaan e Dias.2 Regras de associação O grande problema da descoberta de associações é que elas podem ter ocorrido ao acaso. a partir dos conceitos apresentados. ou seja. a extração da regra de associação corresponde à obtenção de regra do tipo “se X ocorre então Y . normalmente não existe uma hipótese prévia a ser verificada. Na mineração de dados. Como exemplo. Na estatística. é necessário estudar corretamente a teoria da associação antes de tentar medir. Logo. a partir de uma hipótese busca-se verificar se ela é valida ou não. que compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para a casa.

lasanha congelada e macarrão. jovens do sexo masculino que compram fraldas também compram cerveja”. na transação 1 foram comprados os itens arroz. lasanha congelada [L]. que é expressa na forma das regras de associação. a empresa pode tomar decisões estratégicas. A resolução desse problema pode ser aplicada a qualquer base de dados de transações de vendas de uma empresa. O algoritmo mais usado é o APRIORI. macarrão [M] e pasta de dente [P]. . Um exemplo clássico. X → Y. o algoritmo APRIORI identifica dependências na ocorrência de itens de um subconjunto de dados. como ajustar mostruários.L. Os itens comprados nas transações correspondem aos produtos arroz [A]. Dessa forma. onde X e Y correspondem a conjuntos de eventos que ocorrem com certa freqüência na base de dados. A partir da regra obtida.66 ocorre”. como apresentada na tabela 1. Considera-se uma base de dados de um supermercado com apenas dez transações. e sempre lembrado quando se fala em mineração de dados.M}. e introduzir atividades promocionais específicas na tentativa de melhorar o foco do negócio. o que é representado no conjunto {A. que foi desenvolvido com o objetivo de tratar o problema de encontrar padrões referentes a produtos que são comprados juntos com certa freqüência (a análise da cesta de compras). é o de uma grande empresa varejista que. Como exemplo. obteve a regra “às sextas-feiras no horário noturno. Para cada transação são indicados os itens comprados naquela transação. modificar prateleiras ou propagandas. a partir da utilização de um algoritmo de extração de associação. detergente [D]. ou seja.

são apresentadas apenas algumas regras dentre várias possíveis. Vale ressaltar que nenhum item poderá pertencer.M} {A. chamado de conseqüente da regra.M} {A.Exemplo da base de dados com as transações de compras dos clientes e conjuntos de itens (produtos) Transações (Compras) Número da transação 1 2 3 4 5 6 7 8 9 10 Fonte: Graça. Nessa tabela. Conjuntos de itens (produtos) {A. corresponde a um conjunto de itens que pode variar de “um” a vários itens. aos conjuntos X e Y. Assim. É importante observar que X.M} Como foi dito. podem ser encontradas regras diferentes a padrões de comportamento de compras dos clientes como as apresentadas no quadro 1.M} {A.P} {A. O mesmo vale para o conjunto Y.L.D. 26.M} {D.L. chamado de antecedente da regra.D} {A. Semaan. p.67 Tabela 1 .D. .L} {D. Dias.D.M} {A. a partir da base de dados do exemplo.L} {A. serão obtidas regras do tipo X → Y. em uma mesma regra.L.L.L. após a execução do algoritmo de associação sobre a base de dados.D.

É comum. seu suporte é igual a 0. devem ser obtidas apenas as regras que possuam o valor de suporte igual ou acima de um valor mínimo.68 Quadro 1 .M} está presente nas transações 1. ou seja {A.L A.L →M. pois o conjunto de itens da regra. se o conjunto de itens de uma regra ocorre em 50% das transações. corresponde à freqüência com que todos os itens presentes na regra aparecem juntos em uma mesma transação da base de dados. um que será referida como suporte mínimo ou SupMin. Assim.5. para que sejam obtidas regras que correspondam a padrões de comportamento. ao utilizar um algoritmo de regras de associação em grandes bases de dados. o suporte da regra A → L. 26.03). 8 e 10. Cada uma das regras obtidas só poderá ser considerada como sendo um padrão caso obtenha alguns critérios. Assim. Vale observar que. que o valor para suporte mínimo seja próximo a 3% (ou 0. p.M é igual a 0. 4.Regras de associação e seus significados literais Número 1 Regra obtida M→L A.L. mais conjuntos diferentes de itens . Dias. Na base de dados do exemplo.D → M A → M. O primeiro critério é o número de transações em que o padrão obtido pode ser confirmado na base de dados. conhecido como suporte da regra. Esse critério.5 (ou 50%).D Significado SE compra macarrão ENTÃO compra lasanha congelada 2 3 SE compra arroz E detergente ENTÃO compra macarrão SE compra arroz ENTÃO compra macarrão E lasanha congelada 4 SE compra arroz E lasanha congelada ENTÃO compra macarrão E detergente Fonte: Graça. 5. quanto menor o valor escolhido para o suporte. Semaan. mesmo que eles apareçam com outros itens não presentes na regra.

menos relevantes se tornarão as regras obtidas.M A.L.Regras possíveis a partir do conjunto freqüente {A. por outro lado.L → M Fonte: Graça.3 Algoritmo 2. 26. Semaan.1 APRIORI . foi apresentada uma importante propriedade dos conjuntos no contexto da obtenção de conjuntos freqüentes.69 irão satisfazê-lo e.Obtenção dos conjuntos freqüentes O problema de se obterem os conjuntos freqüentes de itens de uma base de dados de transações vem sendo tratado com bastante interesse pela comunidade acadêmica nos últimos anos (GRAÇA. a cada dia. O interesse é grande porque. Quadro 2 . A partir dos conjuntos freqüentes. SEMAAN. p.L. Quando o algoritmo APRIORI foi proposto.3.2. as regras poderão ser obtidas.L M.M → L M → A. Como exemplo. Esses conjuntos de itens são chamados de conjuntos freqüentes de itens (itensets). Dias. as bases de dados se tornam maiores e é necessário reduzir o tempo gasto pelo algoritmo para realizar o processamento das transações durante a mineração. Apesar de os diferentes algoritmos fornecerem tempos de execução diferentes para uma mesma base de dados.M A.2.3. Essa .A → M 2. as idéias principais do algoritmo APRIORI ainda são utilizadas.M}. podem ser obtidas as regras indicadas no quadro 2. principalmente devido à otimização nas estruturas de dados manipuladas internamente. verifica-se que. L → A. mais regras poderão ser geradas. a partir do conjunto freqüente {A. DIAS).M} A → L. quanto menor o valor do suporte. conseqüentemente.3.

para se obterem os conjuntos freqüentes será necessário varrer toda a base de dados contando o número de transações em que cada item aparece. O resultado desta contagem é apresentado na tabela 2: Tabela 2 . então o primeiro passo é encontrar todos os produtos que ocorrem na base de dados com freqüência igual ou superior ao valor do SupMin. SEMAAN.5 (50%). considerese a base de dados da tabela 1 e o valor SupMin como sendo igual a 0. deseja-se encontrar os conjuntos freqüentes com suporte maior ou igual a 0. esses são os conjuntos freqüentes de tamanho 1. 27. ser verificado que os itens A.1 % 80 70 70 60 10 Fonte: Graça.8 0. D. Como o menor subconjunto com algum item é o subconjunto de tamanho 1 (contendo apenas 1 produto). o problema de encontrar um conjunto freqüente contendo n itens (referenciando também como conjunto freqüente de tamanho n) passa a ser o problema de encontrar primeiro os seus subconjuntos freqüentes. que corresponde a cinco transações da base da dados em questão. L e M atendem ao suporte mínimo definido.7 0.6 0. Com essa propriedade.7 0. Pode. ou seja. p. Dias. Nesse . Semaan.70 propriedade diz que “todo subconjunto de um conjunto freqüente também é freqüente” (GRAÇA. Assim. então.Conjunto de itens tamanho 1 Conjunto de itens (ns) {A} {D} {L} {M} {P} Nº de transações 8 7 7 6 1 Suporte 0. A partir daqui.5. DIAS). portanto.

Para a base de dados do exemplo. p. deve-se contar o número de transações em que cada um dos pares de itens está presente.D}.71 caso. No exemplo. os conjuntos freqüentes de tamanho dois são {A.M}.5.D} {A.5 0.M} Número de transações 6 5 5 5 4 5 Suporte 0.L} e {L.5 % 60 50 50 50 40 50 Fonte: Graça.L}. Como visto anteriormente.M} {L. Semaan.4 0. Os conjuntos candidatos são todos os conjuntos de tamanho K + 1 que podem ser formados com os itens presentes nos conjuntos freqüentes de tamanho K. De forma geral.M} {A.M}. seja verificado se eles são freqüentes ou não.5 0.5 0. Tabela 3 . considerando o SupMin igual a 0.Conjuntos candidatos formados a partir dos conjuntos freqüentes de tamanho 1 Conjunto de itens {A. Após a geração desses candidatos. qualquer conjunto freqüente maior do que 1 não poderá conter algum item diferente desses quatro itens. a partir dos conjuntos freqüentes de tamanho K. Dias. K = 1 e os candidatos de tamanho K + 1 são as combinações dois a dois dos quatros itens freqüentes obtidos. no APRIORI o próximo passo é a geração dos possíveis conjuntos de tamanho K + 1 (chamados de “conjuntos candidatos”). 27. os pares obtidos e os respectivos valores de suporte após a contagem são apresentados na tabela 3.L} {D. o próximo passo do algoritmo APRIORI será obter os conjuntos . em seguida.6 0. para que. {A. Conforme apresentado na tabela 3.L} {D. {D. {A.

Tal procedimento de eliminação de candidatos que possuam subconjuntos não freqüentes é chamado de “poda” e evita consumir recursos computacionais com a contagem de conjuntos que já se sabe. em princípio. p. M}. que possui o subconjunto não freqüente {D.M} Fonte: Graça. esses conjuntos candidatos também podem ser considerados não freqüentes sem a necessidade de realizar a contagem de ocorrências na base de dados. não serem freqüentes. verifica-se que existem conjuntos candidatos nos quais estão contidos subconjuntos de tamanho 2 que não foram considerados freqüentes. Semaan. Portanto. Os conjuntos . 27.L.L} {A. Tabela 4 . D.L. Esses conjuntos candidatos são o conjunto {A. M}. L e M. L} que também possui o subconjunto não freqüente {D. M} e o subconjunto {D. D. Dias. M. gerados a partir dos conjuntos freqüentes de tamanho 2 Conjuntos de itens {A. Como os itens presentes nos conjuntos freqüentes de tamanho 2 são A.D. deve ser determinado o suporte de cada um dos conjuntos candidatos que não foram podados. através de contagem na base de dados. as combinações 3 a 3 desses itens formam os conjuntos candidatos apresentados na tabela 4.Candidatos de tamanho 3. Em seguida.72 candidatos de tamanho 3.M} {D.M} {A.D. Observando-se a tabela 4.

27. L e M. e assim por diante. M} Número de transações 3 5 Suporte 0. com os conjuntos freqüentes de tamanho 5. L.2 Geração de regras a partir dos conjuntos de itens freqüentes Após a conclusão da etapa de obtenção dos conjuntos de itens freqüentes na base de dados. devem ser geradas as regras de associação. para cada . Dias. 2. tendo-se em vista que. M} é freqüente (com o valor do suporte igual ao SupMin). Em seguida. Essa nova etapa é critica.3. tendo-se em vista que podem ter sido obtidos muitos conjuntos freqüentes e. a elaboração dos conjuntos freqüentes se encerra aqui. realizar a poda e calcular os seus valores de suporte. após a contagem do suporte dos conjuntos candidatos de tamanho 3 (Tabela 5). com apenas os itens A. L} {A.2.3. são apresentados na tabela 5.5 % 30 50 Fonte: Graça. até que não seja possível gerar candidatos K a partir dos conjuntos freqüentes de tamanho K – 1.Candidatos formados a partir dos conjuntos freqüentes de tamanho 2 Conjunto de itens {A.73 candidatos não podados e seus valores de suporte. verifica-se que apenas o conjunto {A. L. D. com os conjuntos freqüentes de tamanho 3. Semaan. não é possível obter conjuntos candidatos de tamanho 4. devem-se gerar candidatos de tamanho 4. Assim. Voltando ao exemplo. Tabela 5 .3 0. No algoritmo APRIORI. p. referentes à base de dados do exemplo.

L} {L. Dias. quais são as mais interessantes. Na segunda coluna da tabela 6 são apresentados as possíveis regras para cada um dos conjuntos freqüentes de itens. p. foram obtidos os conjuntos freqüentes apresentados na tabela 6. Com esse intuito. M L D L. inviabilizando qualquer análise por parte dos usuários de mineração de dados. M. a partir da escolha de uma medida de interesse. 27.se muito grande. M A Fonte: Graça. L. A.74 um deles. L. a partir dos quais podem ser geradas as regras de associação. várias medidas de interesse vêm sendo pesquisadas e algumas são muito utilizadas na literatura do que as outras. M A A D. podem-se obter várias regras através das combinações de seus itens no antecedente e conseqüente de cada regra. cada regra de associação . A. ou medidas.M L. Assim. L M. que possam identificar. L. D} {A. L} {A. Deve-se observar que. L A. Tabela 6 . D A A L. L D A L. Segundo Graça. para a geração de regras. Semaan.Regras possíveis para cada um dos conjuntos freqüentes Conjuntos freqüentes {A. No exemplo. M} {D. M A. só são utilizados os conjuntos freqüentes de tamanho maior ou igual a 2. L A L M. principalmente quando se têm muitos conjuntos freqüentes de tamanho superior a dois. É fácil concluir que o número de regras possíveis pode tornar. M} {A. M} Regras A M. M. Semaan e Dias. são necessários critérios. das possíveis regras de associação.

onde X é o conjunto de itens do antecedente da regra.75 possível de ser gerada é avaliada e aquelas que não atendam a um valor mínimo definido serão descartadas. Se lift (X → Y) > 1. sobre as transações em que os itens do antecedente estão presentes. então os itens do antecedente e conseqüente são positivamente dependentes. dividindo pelo número total de transações da base de dados. Dentre as medidas de interesse. c) Coverage: indica a proporção de transações em que estão presentes os itens que compõem o antecedente da regra. e vice-versa. verifica-se a ocorrência de transações em que todos os itens da regra aparecem. Outra alternativa é o algoritmo apresentar as regras geradas em ordem de valor para a medida de interesse utilizada. Dada uma regra X → Y. Se lift (X → Y) = 1. serão mostradas as 4 mais utilizadas: confiança. b) Lift: foi chamada inicialmente de interest e é utilizada para avaliar o grau de dependência do conseqüente em relação ao antecedente de uma regra. o que permitirá ao usuário verificar as regras geradas por ordem de relevância. lift. A lift indica quão mais freqüente torna-se B quando A ocorre. têm-se as seguintes medidas de interesse sobre a regra. coverage e leverage: a) Confiança: através dessa medida. a ocorrência dos itens do conseqüente é estatisticamente independente da ocorrência dos itens do antecedente. considerando P(X) igual ao número de transações contendo os itens de X. Se lift (X → Y) < 1. Y é o conjunto de itens do seu conseqüente e X U Y é o conjunto de todos os itens presentes no antecedente e no conseqüente. os itens do antecedente e conseqüente são negativamente dependentes. .

Entretanto. No exemplo apresentado. será considerada apenas a medida “confiança”.76 d) Leverage: corresponde à diferença entre as ocorrências dos itens do antecessor X e do conseqüente Y. . A medida confiança é a mais utilizada na aplicação do algoritmo APRIORI. a maioria das ferramentas de mineração de dados que utilizam o APRIORI permitem também a escolha de outras medidas para a geração das regras. juntos em uma mesma transação. e a ocorrência esperada dos itens de X e Y. caso esses sejam estatisticamente independentes.

os dados originais são transformados para o formato . os dados coletados devem ser pré-processados. para que aconteça a mineração.77 CAPÍTULO III ESTUDO DE CASO Apresentados alguns resultados de técnicas aplicadas à mineração de dados (data mining). ou seja.arff para que possam ser processados pelos algoritmos de data mining. aplicadas à análise dos sorteios da mega sena. serão usadas. em especial. Com todos os dados dos sorteios que ocorreram de março de 1996 a julho de 2007. não se assume a possibilidade de obtenção de qualquer informação realmente aplicável para a seleção das dezenas. Será utilizado o software WECA. ou seja. será feita uma análise para extrair todas as informações interessantes. . A mega sena é uma das loterias mais populares no Brasil. e os valores dos prêmios podem chegar à casa dos milhares ou milhões. a visualização e obtenção de regras de associação e clusterização. Este estudo visa apenas revelar informações que possam guiar os apostadores para a escolha das dezenas. totalizando 888 concursos. onde serão apresentadas as técnicas que podem ser usadas e também os seus respectivos resultados. onde são sorteadas 6 dezenas semanalmente. tentando demonstrar a viabilidade e aplicabilidade de técnicas de mineração de dados à análise dos resultados dos sorteios teoricamente equiprováveis.

Essas tendências podem. Dependências funcionais podem ser vistas como regra de associação com fator de confiança igual a 100%. As seqüências visam determinar padrões de ordenação entre dados. mesmo padrão de comportamento numa dada fatia de tempo. Essas afinidades dão expressas as formas de regras: “94% dos registros que contêm as dezenas 48 e 54. onde os itens associados são resultantes de transações diferentes. onde o objetivo é encontrar tendências dentro de um grande número de registros. e costuma ser usado para eliminar tendências fracas. O algoritmo de descoberta de regra de associação identifica afinidades entre itens de um subconjunto de dados. serão aplicadas algumas metodologias e os algoritmos utilizados para a técnica da associação e clusterização. mantendo apenas as regras mais fortes.78 Em seguida. 3. também contêm a dezena 26”. tais como identificação de dezenas que acontecem com a mesma freqüência dentro do banco de dados. por exemplo. fornecendo seus respectivos resultados. problema igual com inúmeras possibilidades de aplicação prática. a dezena 54 também não saiu”. expressas como os concursos e suas dezenas.1 Técnica de associação As associações visam determinar relacionamentos entre conjuntos de itens. tais como “94% de confiança de que. Trata-se de um algoritmo tipicamente endereçado à análise da base de dados. . ou seja. detecção do comportamento das dezenas sorteadas. no caso) representa o fator de confiança da regra. A técnica de associação visa definir grupos similares. A porcentagem de ocorrência (94. quando a dezena 26 não saiu.

1 Dados Antes de executar a aplicação.79 também. ou alocar recursos como salas de aula e professores. Uma regra como “84% dos alunos inscritos em „Introdução a Linux‟ também estão inscritos em „Programação em Java‟” pode ser usada pela direção ou secretaria para planejar o currículo anual. modificar prateleiras ou propagandas e introduzir atividades promocionais específicas. Nesse caso. é o caso de um banco de dados escolar. onde a mesma técnica pode ser utilizada.1. composto de três partes: . relacionando alunos e disciplinas. por exemplo. ou utilização de cartões de crédito. ou tratamentos médicos e também. no caso. ajudar a entender e a explorar padrões de compras naturais. a serem utilizadas para predizer acontecimentos subseqüentes. mas também a ordem em que aparecem e o intervalo entre elas.ARFF (attribute-Relation File Format). 3. e ser usadas para ajustar mostruários. entre compras em uma loja. Um exemplo distinto. as dezenas sorteadas da mega sena. que é o formato esperado pelos componentes do software WECA. O arquivo no formato ARFF é um arquivo de texto puro. Seqüências podem ser úteis para identificar padrões temporais. precisa-se formatar os dados para o formato . onde as regras encontradas entre as relações podem ser usadas para identificar seqüências interessantes. Uma variante do problema de regras de associação é a análise de seqüências. não apenas a coexistência de itens dentro de cada transação é importante.

seguida de uma palavra-chave que identifique a relação ou a tarefa estudada. que deve ser igual a @relation.80  Relação – a primeira linha do arquivo.  Atributos – um conjunto de linhas onde cada uma inicia com @attribute seguida do nome do atributo e do seu tipo. e foram reformatados para o formato ARFF.  Dados – depois de uma linha contendo @data. Cada linha deve corresponder a uma instância e ter valores separados por vírgula correspondente (e na mesma ordem) dos atributos da seção Atributos. que pode ser nominal ou numérico. O arquivo formatado será apresentado na figura 13: . Os dados foram coletados no site da Caixa Econômica Federal. com possibilidade de download no formato HTML.

serão indicados quais elementos ocorrem nos registros com freqüência e. 2007. Como as associações visam determinar relacionamentos entre os conjuntos de dezenas sorteadas. fai-se-á uma primeira análise usando as técnicas de associação para verificar que tipo de regras se encontrará. Fonte: WECA.2 Metodologia (associação) Com os dados coletados e armazenados no formato correto. a dezena 54 também não saiu em 787 vezes”. 3. . tais como “com 94% de certeza de que. para o estudo em questão. podem indicar que dezenas não são freqüentemente sorteadas.81 Figura 13 Arquivo ARFF com os resultados da mega sena configurado para ser usado em técnicas de associação. das 736 vezes em que a dezena 26 não saiu.1.

normalmente não existe uma hipótese prévia a ser verificada. As dezenas sorteadas nos concursos correspondem às dezenas de 01 a 60. o algoritmo mais usado é o APRIORI. aos conjuntos X e Y. busca-se verificar se ela é valida ou não. chamado de antecedente da regra. Considere-se uma base de dados dos sorteios da mega sena com 888 concursos. A extração da regra de associação corresponde à obtenção de regra do tipo “se X ocorre. É importante observar que X. chamado de conseqüente da regra. ou seja. ressaltando que nenhum item poderá pertencer. ou seja. Logo. Para cada concurso são indicadas as dezenas . Na estatística. X → Y. corresponde a um conjunto de itens que pode variar de “um” a vários itens.82 Uma variante do problema de regras de associação á a análise de seqüencias. Na mineração de dados. ou provar alguma coisa. apesar de ser necessária a definição da tarefa a ser realizada e dos dados a serem analisados. a serem utilizadas para predizer acontecimentos subseqüentes. Para essa técnica. em uma mesma regra. como apresentada na tabela 7. onde X e Y correspondem a conjuntos de eventos que ocorrem com certa freqüência na base de dados. é necessário estudar corretamente a teoria da associação antes de tentar medir. trabalha-se dessa forma. que foi desenvolvido com o objetivo de tratar o problema de encontrar padrões referentes a dezenas que são jogadas junto com certa freqüência. a partir de uma hipótese. O mesmo vale para o conjunto Y. então Y ocorre”. onde as regras encontradas entre as relações podem ser usadas para identificar seqüências interessantes.

29.. conhecido como suporte da regra. 41. Cada uma das regras obtidas só poderá ser considerada como sendo um padrão caso obedeça a alguns critérios. 49} {10. 22. foram sorteadas as dezenas 04. 42.83 sorteadas.Exemplo da base de dados com os respectivos concursos e seu conjunto de itens (dezenas) Concursos mega sena Concursos 01 02 03 04 05 06 Conjunto de itens (dezenas) {04. são apresentadas apenas algumas regras dentre várias possíveis. 52. 54. 33. 52}. 05. Esse critério. 05. 886 887 888 Fonte: WECA. 30 33. 59} {01. corresponde à freqüência com que todos os itens presentes na . Nessa tabela. 05. 37. 02. 30. 46} {07. 30. 43. Tabela 7 . 37. 12. 41. {17. 50. 05. 19. 13. 19. 27. 52. 59} {01. a partir da base de dados do exemplo podem ser encontradas regras diferentes a padrões de comportamento das dezenas sorteadas como apresentadas na tabela 8. 2007. 47} . 06. 11. 40. 44} {24. 40. 32. 55. 36. 21. Como exemplo. 34. no concurso 1. 41. 39.. 47} {01. 06. o que é representado no conjunto {04. 16. Um dos critérios é o número de transações em que o padrão obtido pode ser confirmado na base de dados. 52} {09. 60} Assim. 30 33. 33. 50. 41.

2007. Sobre .9 –D 0. Se não sorteou a dezena 39.3 Descobertas de regras de associação Essa técnica pode mostrar informações sobre as dezenas sorteadas. devem ser obtidas apenas as regras que possuam o valor de suporte igual ou acima de um valor mínimo. 54 → 26 Se não sorteou a dezena 26. Para indicar as dezenas que ocorreram com menor freqüência. 48. obtida 54 → 26 17 → 39 Significado Se não sorteou a dezena 26. 3. então não sorteou a dezena 17.5. se o conjunto de itens de uma regra ocorre em 50% das transações.0.84 regra aparecem juntos em uma mesma transação da base de dados. Assim.1. Tabela 8 . 54 → 26 Se não sorteou a dezena 26. onde foi solicitado que fossem geradas 10 regras (-N 10).05 –U 1. 52. Para que sejam obtidas regras que correspondem a padrões de comportamento. então não sorteou a dezena 54.1 -S 1. então não sorteou as dezenas 52 e 54 Fonte: WECA. através de tal medida de interesse. em que a medida de interesse seja a de confiança (-T 0). pois indicam as dezenas que ocorrem com maior freqüência na base de dados. verifica-se a ocorrência de transações em que todos os itens da regra aparecem. será usado o algoritmo APRIORI e os seguintes parâmetros: -N 10 –T 0 –C 0.0 –M 0. então não sorteou as dezenas 48 e 54.Regras de associação e seus significados literais R 1 2 3 4 R. mesmo que eles apareçam com outros itens não presentes na regra. onde será referenciado como suporte mínimo. seu suporte é igual a 0. pois.

Para que se consiga visualizar as relações que menos ocorreram. verificando o atributo “NÃO”. serão usados valores mais altos para os parâmetros –D (delta). O resultado dessa experiência é mostrado na figura 14: Figura 14 Regras de associação utilizando o algoritmo APRIORI.85 as transações em que os itens do antecedente estão presentes. o valor do nível de significação (-S 1. o valor do mínimo suporte (-M 0. -M (mínimo suporte).1) considera só regras com contagens mais altas que este valor de 0. que reduz o apoio até que o suporte mínimo ou o número de regras seja alcançado. medindo somente a confiança.9) estipula-se que o valor de suporte mínino seja de 90%. 2007. com 94 % de confiança.0) diminui o limite do suporte mínimo. pois se espera muitas associações com o valor “NÃO”. por fim. -C (mínima métrica).05).05 (-D 0. devem ser obtidas regras cujo valor de suporte seja igual ou acima de 90%. no valor da mínima métrica (-C 0. que. dos 888 . já o valor de lowerBoundMinSupport (-U 1. utiliza-se 0.1 e. Fonte: WECA. As regras de associação listadas na figura 14 mostram as dezenas que saíram com menor freqüência e se pode dizer. No valor de delta.0). ou seja.

então.0. com 94% de confiança. Obtiveram-se muitos conjuntos freqüentes e. para cada um deles. Usando-se como valores de parâmetro: -N 10 -T 0 -C 0. troca-se o -C 0. Pode-se afirmar.93. 2007. que.9 para –C 0. As regras encontradas na figura 15 mostram regras que foram geradas a partir de conjuntos freqüentes devido ao fato de que a mínima métrica força a gerar apenas regras em que o valor de confiança seja igual ou maior que o valor da mínima métrica.05 -U 1.86 concursos da mega sena. com isso.1 -S -1. a dezena 26 não saiu em 674 concursos e que as dezenas 48 e 54 também não saíram. onde se altera apenas o valor de mínima métrica. podem-se obter várias regras através das combinações de seus itens no antecedente e conseqüente de cada regra. Os resultados dessa mudança de parâmetros serão mostrados na figura 15: Figura 15 Regras de associação com valor de mínima métrica alterado para 0.0 -M 0. assim como a dezena 54.93 -D 0. em 736 concursos a dezena 26 não saiu.93. . Fonte: WECA. solicita-se para o algoritmo que ele mostre apenas as regras que possuem valor de confiança igual ou maior que 93%.

As regras de associação listadas na figura 16 mostram quais dezenas apareceram em conjunto com outras. geram-se as regras que serão apresentadas a figura 16. Somente associações de duas dezenas foram encontradas entre as dez regras mais relevantes e dentre essas regras. quanto menor o valor do suporte. o valor de delta para 0. Figura 16 Regras de associação com valor de mínima métrica alterado para 0.03). mais regras poderão ser geradas. o valor do mínimo suporte para 0. a dezena 54 foi sorteada em 17 concursos e a dezena 26 também foi sorteada”.01 -U 0. quanto menor o valor escolhido para o suporte. por outro lado.04.87 É comum. conseqüentemente. .04). 2007.2). trocando-se valor de mínima métrica para 0.2 -M 1.0E-4).01 (-D 0. ao utilizar um algoritmo de regras de associação em grandes bases de dados. menos relevantes se tornarão as regras obtidas.2 (-U 0. o valor de lowerBoundMinSupport para 0.04 (-C 0.0E-4 -S -1. Vale observar que. Altera-se então. mais conjuntos diferentes de itens irão satisfazê-lo e.01).0. os parâmetros para -N 10 -T 0 -C 0.04 -D 0. a primeira regra pode ser interpretada como “25% de confiança. Fonte: WECA.0001 (-M 1. que o valor para suporte mínimo seja próximo a 3% (ou 0.

As técnicas de clusterização vêm sendo tratadas com freqüência na literatura para a solução de vários problemas de aplicações práticas em diversas áreas do conhecimento.2 Técnica de clusterização De uma forma geral.  Separação está relacionada a objetos de diferentes clusters. O objetivo principal do clustering é separar os objetos ou observações em classes naturais.2. de forma que os elementos pertencentes a um mesmo grupo tenham um alto grau de semelhança ou similaridade. . tanto quanto possível. que devem ser tão similares quanto possível. utilizada a técnica de clusterização para se extraírem novos conhecimentos. enquanto quaisquer elementos pertencentes a grupos distintos tenham pouca semelhança entre si. 3. representem uma configuração em que cada elemento possua uma maior similaridade com qualquer elemento do mesmo cluster do que os elementos de outros clusters. que devem ser distintos entre si. Para se utilizar o software Weca. Os critérios mais comuns adotados em clustering são homogeneidade e separação:  Homogeneidade refere-se a objetos pertencentes a um mesmo cluster.1 Dados Explorando a base de dados da mega sena. ou clusters. obter a solução para um algoritmo de clusterização corresponde ao processo de agrupar os elementos (objetos) de uma base de dados (conjunto) de tal forma que os grupos formados.88 3. será agora.

ARFF. Quando se faz clusterização de dados numéricos. 2007. 3. Fonte: WECA.2 Metodologia (clusterização) Com os dados coletados e armazenados no formato correto. como mostra a figura 17: Figura 17 Arquivo ARFF com os resultados da mega sena configurado para ser usado em técnicas de clusterização. procede-se a uma primeira análise usando a técnica de clusterização para se verificar quais são os agrupamentos formados. normalmente isso é realizado assumindo que os pesos de um vetor de características definem um ponto no espaço e .2.89 precisa-se que a base de dados esteja também com as configurações necessárias no formato .

têm-se os seguintes atributos: concurso. dezena 4. Considerando ainda a base dos concursos da mega sena.90 encontrado a distância entre os pontos (número de pontos é medido pelo número de clusters solicitados). ganhadores da quina. rateio da quina. mega sena acumulou. as etapas iniciais de seleção. que cria um conjunto de K clusters e distribui o conjunto de dados entre esses clusters usando a similaridade entre os vetores e os centróides desses clusters (um centróide é um vetor médio de todos os vetores no respectivo cluster). rateio da quadra. pré- processamento e transformação já fornecerem informações relevantes. ganhadores da sena. dezena 6. No estudo preliminar realizado. os dados são apresentados como mostra a figura 18: Figura 18 Atributos utilizados na técnica de clusterização. dezena 2. devem-se atribuir ao item atributos dois clusters para que haja uma melhor visualização dos agrupamentos formados. rateio da sena. dezena 3. data do sorteio. Como o objetivo deste estudo é identificar qual é o melhor algoritmo a ser utilizado para determinadas técnicas. Fonte: WECA. ganhadores da quadra. . utilizando o algoritmo Simple K-means. valor acumulado. dezena 1. 2007. dezena 5.

já se pode visualizá-lo graficamente de uma forma bem simplificada. Fonte: WECA.91 Para que se consigam visualizar. graficamente. mas já mostrando valores relevantes para que se consigam obter informações. o número de clusteres que deverão ser criados. devem-se adicioná-los a essa lista de atributos. como mostra a figura 19: Figura 19 Atributos utilizados na clusterização com a adição do cluster como atributo. eles devem ser previamente configurados. 2007. como mostra a figura 20: . os clusteres criados. Na inserção dos clusters. O cluster foi configurado para se criar dois clusteres. indicando que o algoritmo utilizado será o Simple K-Means e. Criado o atributo cluster. também.

Executando a técnica de clusterização. 2007. As cores solicitadas para a plotagem do gráfico é a do atributo “mega sena acumulou”. calcula-se a métrica para a separabilidade e compactação dos grupos. .92 Figura 20 Dados exibidos de forma gráfica incluindo os clusteres adicionados. quantas vezes a mega sena acumulou ou não. e observa-se também o atributo cluster que gerou dois grupos (objetos) onde os elementos desses grupos possuem maior semelhança ou similaridade entre si. Fonte: WECA. onde a cor azul informa que a mega sena acumulou e a cor vermelha informa que a mega sena não acumulou. podem-se visualizar algumas informações interessantes como: as dezenas que mais foram sorteadas. Analisando-se superficialmente a figura 20.

=== Run information === 2. rateio_sena 17. erro quadrático total). pois para cada grupo calcula-se a distância entre todos os pontos pertencentes a um grupo e aos seus centróides. 3. dezena3 12. mostra-se o número de instâncias que foram atribuídas para cada cluster. A figura 21 informa alguns pontos de interesse. ganhadores_quina . 1.93 Têm-se.SimpleKMeans -N 2 -S 10 5.attribute. Utilizando o algoritmo Simple K-means. dezena1 10. o software WECA executa todos os cálculos necessários para que os dados sejam agrupados. concurso 8. Instances: 888 6. tais como:  Nas linhas 31 e 32. dezena2 11. e o objetivo principal é minimizar o erro quadrático.filters. ganhadores_sena 16. dezena5 14.unsupervised.  Finalmente.  Nas linhas 34 até a 48. como se vê na figura 21. são mostrados alguns resultados do processo de agrupamento: número de iterações até convergência e medida objetivo minimizadas (soma dos erros quadráticos entre clusters). são mostrados os centróides e os desvios padrões de cada cluster. desvio padrão). a partir da linha 50.clusterers. Cada grupo identificado é caracterizado por todos os dados numéricos presentes na base de dados. Relation: megasena-weka. dezena6 15.AddCluster-Wweka. dezena4 13. Attributes: 17 7. divide-se pelo número de dados para aquele grupo e somam-se as distâncias para todos os agrupamentos gerados. Scheme: weka. mes 9. medidas (contagem de dados.SimpleKMeans -N 2 -S 10 4. como saída.clusterers. os grupos (centróide.

675 36. Clustered Instances 51. Os passos básicos do algoritmo Simple K-Means são:  Passo 1: seleção de n objetos para serem centros iniciais dos K clusters.5201 16.1696 SIM 10331153.3929 N/A 10029684. 47. que é o ponto médio do cluster é calculado pelo algoritmo.3345 4500.2977 2263665. Number of iterations: 2 32.1007 29339. 34. Within cluster sum of squared errors: 1209.1025 6.94 18.438 6484. Std Devs: 182. Cluster 1 44. megasena_acumulou 22.5402 42.0932 9.869 89. cluster 24.3836 6.1295 222.8142 8. === Model and evaluation on training set === 27.5517 78. Cluster 0 37.6192 8849724.0927 48. Esse algoritmo é sensível ao ruído.0506 6035.3205 Janeiro 9.6382 46.3772 0.9545 52.8103 8535.4318 44.944 8. 26.879 9. rateio_quina 19. Mean/Mode: 262.3256 104. 43.8828 N/A 6. 28.4263 Dezembro 8.6553 41.6942 34. 0 448 ( 50%) 53. Test mode: evaluate on training data 25.4269 627.7957 8. 2007.1602 72. .0415 N/A 42. 36. 0.9818 45.7092 10. ====== 30.5439 6560. Fonte: WECA. 1 440 ( 50%) Figura 21 Apresentação dos grupos com seus respectivos cálculos. mas em termos de desempenho.6049 17046.4736 N/A 6. kMeans 29.1364 231. 31. Cluster centroids: 35.0. ganhadores_quadra 20. 52. é relativamente eficiente para grandes bases de dados. valor_acumulado 23. 50. 40.971 38.185 N/A 49. 52.6818 27. chamado de centróide.8864 16991. rateio_quadra 21. Mean/Mode: 623.5157 N/A 7591867.2809 182.984 9.3036 25. 0.6358 39.8595 SIM 6075128.9923995593467 33.1114 18.8185 8.2656 2925472.9304 7758338. Std Devs: 181. O funcionamento do algoritmo Simple K-Means exige a definição prévia do número de clusters e o posicionamento do centro dos clusters.

o mesmo pode ser feito para todos os outros atributos. redefinindo cada um em função dos atributos de todos os objetos pertencentes ao cluster. utilizando o atributo “ganhadores_sena” e através desse. pode-se visualizar que o maior agrupamento de ganhadores acontece entre os números 1 e 2 ganhadores. o deslocamento dos centros médios. para o qual a dissimilaridade entre o objeto e o centro do cluster é menor que as demais.  Passo 3: os centros dos clusteres são recalculados.95  Passo 2: cada objeto é associado a um cluster. O algoritmo é interrompido quando as médias não mais são deslocadas.  Passo 4: retorna ao passo 2 até que os centros dos clusters se estabilizem. no espaço. e o cluster gerado pelo algoritmo na base da mega sena é mostrado na figura 22. por conseqüência. ou há uma insignificante realocação de objetos entre os clusters. A cada interação os objetos são agrupados em função do centro do cluster mais próximo e. A figura 22 mostra os clusters gerados. os centros dos clusters são reavaliados (passo 3). Isso provoca. podem-se visualizar os agrupamentos dos outros atributos como mostra a figura 23: .

2007. Fonte: WECA. em todos os concursos. utilizando o atributo “dezena 1” e através deste. nota-se. . nunca foi mostrada alguma dezena maior que o número 39. Figura 23 Apresentação dos clusters gerados utilizando o atributo “dezena 1”. A figura 23 mostra os clusters gerados. pode-se visualizar a maior incidência de números sorteados na primeira dezena acontece entre as dezenas 1 e 20. também. Fonte: WECA. 2007. que.96 Figura 22 Apresentação dos clusters gerados utilizando o atributo “ganhadores_sena”.

ou seja. os grupos ou classes são construídos com base na semelhança entre os elementos. dizer em quantas classes esses dados se distribuem e como são essas classes. porém muito mais complexa. A dificuldade reside inclusive no fato de que pode não haver tais classes. como mostra a figura 24.97 Aplicando a técnica de clusterização. Fonte: WECA. é. agrupar é simplesmente classificar uma massa de dados em classes desconhecidas a priori em número ou forma. . dadas várias categorias ou classes conhecidas. dizer a qual delas um certo dado pertence. outra tarefa semelhante em objetivo. Uma tarefa é. Figura 24 Apresentação dos clusters gerados utilizando os atributos “ganhadores_sena” e “mês” com cores representando os clusteres. pode-se analisar toda a base de dados procurando os dados que obtiveram maior semelhança entre si. os dados se distribuem eqüitativamente por todo o espaço possível não caracterizando nenhuma categoria. cabendo ao analisador das classes resultantes avaliar se essas significam algo de útil. 2007. ou seja. de posse de uma massa de dados. Na análise dos clusteres.

CONCLUSÃO . como na metodologia da descoberta nãosupervisionada de relações.98 A análise dos clusters normalmente é uma técnica preliminar utilizada quando nada ou pouco se sabe sobre os dados.

No mundo atual. auxiliando assim a tomada de decisão. extraindo dos dados informações relevantes para a geração do conhecimento. explorem todas as fases do processo e as conclua com sucesso. desde a preparação dos dados até a exploração em si. O objetivo é encontrar padrões que possam ser facilmente entendidos pelos analistas dos dados e pelos usuários. um sistema de descoberta de conhecimento que funciona sozinho pode não ser muito útil. daí a importância de uma disciplina evidente na realização de um processo KDD. . são de extrema importância e exigem que a mesma atenção seja dispensada para cada uma delas. em conjunto. O sucesso de uma etapa depende exclusivamente do bom desenvolvimento das etapas anteriores.99 Todas as etapas do processo de mineração de dados. é necessário que ele seja integrado a outros sistemas para que.

Data mining e a descoberta de associações em dados. SANTOS. Acesso em: 15 jan.lac. Data Mining – Técnicas e aplicações para o marketing direto. C.santos>. 2001. Rafael (2007). 26. Data Mining – A mineração de dados no marketing. . SEMAAN. GRAÇA. São Paulo: Berkeley. economia. 2005..br/~rafael. R. medicina. DIAS. ano 2. engenharia e administração. Princípios e aplicações de mineração de dados. Fernanda. 22-30. Disponível em: <http://www. 2007. Luís.100 REFERÊNCIAS BIBLIOGRÁFICAS AMARAL. p. G. A.. Rio de Janeiro: Ciência Moderna. SQL Magazine. S.inpe. A. ed. CARVALHO.