You are on page 1of 103

Material elaborado pelo professor Jos Gonalo dos Santos (jose.goncalo.santos@gmail.

com) sob orientao da professora Silvia Modesto Nassar (silvia@inf.ufsc.br)

Uso de Conjuntos Difusos e Lgica Difusa para Clculo de Atrao e Repulso: Uma Aplicao em Market Basket Analysis

www.pusivus.com.br

ii

Ateno!
Este material parte da tese elaborada pelo professor Jos Gonalo dos Santos (jose.goncalo.santos@gmail.com) sob orientao da professora Silvia Modesto Nassar (silvia@inf.ufsc.br). permitido copiar, alterar ou distribuir, total ou parcialmente, este material desde que no seja usado para fins de obteno de lucros e que os autores sejam citados. Como fazer citao deste material SANTOS, Jos G.; NASSAR, Silvia M. Uso de Conjuntos Difusos e Lgica Difusa para Clculo de Atrao e Repulso: Uma Aplicao em Market Basket Analysis. Florianpolis, 2004, 113p. Tese (Doutorado em Cincia da Computao) Programa de PsGraduao em Cincia da Computao da Universidade Federal de Santa Catarina.

www.pusivus.com.br

iii

Sumrio
Lista de Figuras ................................................................................................................x Lista de Tabelas..............................................................................................................xiii Lista de Abreviaturas.......................................................................................................xv CAPTULO 1 - INTRODUO...................................................................................... 1 1.1 Objetivos........................................................................................................ 3 Objetivo Geral: ......................................................................................................... 3 1.3 Contribuio da Pesquisa .................................................................................... 4 1.4 Estrutura do trabalho ........................................................................................... 4 Captulo 2 Base Conceitual ........................................................................................... 6 2.1 Descoberta de Conhecimento em Base de Dados (DCBD)................................. 6 2.1.1 Definio ...................................................................................................... 7 2.1.2 Etapas do DCBD .......................................................................................... 7 2.2 Minerao de Dados .......................................................................................... 11 2.2.1 Fases da Minerao de dados ...................................................................... 11 2.2.2 Principais Tcnicas da Minerao de dados ............................................... 13 2.3 Regras de Associao e Market Basket Analysis.............................................. 15 2.3.1 O processo da MBA ................................................................................... 16 2.4 Lgica Difusa .................................................................................................... 25 2.4.1 Conjuntos Clssicos....................................................................................... 26 2.4.2 Conjuntos Difusos ......................................................................................... 26 Captulo 3 Mtodo Difuso para Clculo de Atrao e Repulso (MDCAR) .............. 41 3.1 Descrio do mtodo ......................................................................................... 41 3.1.1 - Entradas Numricas Percentual................................................................... 42 3.1.2 - Fuzificao .................................................................................................. 43 3.1.3 - Propagao .................................................................................................. 46 3.1. 4 - Classificao............................................................................................... 48 3.2 Utilizao do MDCAR ...................................................................................... 50 Captulo 4 Ensaios e Resultados.................................................................................. 53 4.1 Ensaios Realizados ............................................................................................ 53 4.1.1 Aquisio dos Dados .................................................................................. 54 4.1.2 Seleo dos dados....................................................................................... 54 4.1.3 Purificao dos Dados ................................................................................ 55 4.1.4 Transformao dos Dados .......................................................................... 55 4.1.5 Obteno dos Dados de Entrada para o MDCAR ...................................... 56 4.1.6 Intervalos ..................................................................................................... 58 4.1.7 Funes de Pertinncia ............................................................................... 59 4.1.8 Modelos Difusos......................................................................................... 60 Desfuzificao ........................................................................................................ 65 4.2 Resumo do Mtodo MDCAR Usado para os Testes ......................................... 67 4.3 - Resultados .......................................................................................................... 68 4.3.1 Resultados Obtidos na Etapa de Classificao ........................................... 69 4.3.2 - Resultados Obtidos na Etapa de Desfuzificao ......................................... 71 4.3.3 Resultados Finais........................................................................................ 74 Referncias ..................................................................................................................... 76

www.pusivus.com.br

iv

Apndice A: Funes de pertinncia Utilizadas na Pesquisa. ........................................ 81 Apndice B: Grficos e Tabelas Obtidas Durante os Experimentos. ............................. 84 Apndice C: Grficos das Combinaes de Funes Usadas nesta Pesquisa ................ 91

www.pusivus.com.br

Lista de Figuras
Figura 2.1: Etapas do DCBD Figura 2.2: Fases da Minerao de dados Figura 2.3: Representao de compras em tabela Figura 2.4: Base de dados de histrico de compra Figura 2.5: Funo de pertinncia de formato triangular Figura 2.6: Funo de pertinncia de formato trapezoidal Figura 2.7: Funo de pertinncia de formato Figura 2.8: Funo de pertinncia de formato Z Figura 2.9: Funo de pertinncia sigmoidal Figura 2.10: Modelo de Mamdani com composio Max-Min Figura 2.11: Modelo de Larsen com composio Max-Prod Figura 2.12: Modelo de Takagi-Sugeno Figura 2.13: Modelo de Tsukamoto sada Figura 2.15: Exemplo de variveis lingsticas Figura 2.16: Modelo fuzzy de classificao Figura 2.17: Exemplo de variveis lingsticas. Figura 3.1: Esquema do MDCAR Figura 3.2: Representao dos conjuntos difusos para as trs entradas numrico Figura 3.3: Exemplo de fuzificao das variveis de entrada Figura 3.4: Representao dos conjuntos difusos para a varivel de sada Figura 3.5: Exemplo grfico da etapa de classificao Figura 4.1: Modelo usado para os testes Figura 4.2: Grfico - atributos X associaes Figura 4.3: Varivel de sada para o modelo de Tsukamoto Figura 4.4: Comparao entre os dois mtodos de composio Figura 4.5: Diferenas Mdias para os modelos testados Figura 4.6: Mdia das diferenas entre os modelos testados Figura A.1: Contedo do CD 37 38 39 42 44 45 48 50 53 57 63 71 73 74 84 08 11 16 16 30 31 32 32 33 34 34 36 36

Figura 2.14: Modelo fuzzy de classificao com duas entradas e trs classes de 37

www.pusivus.com.br

vi

Figura B.1: Funo L (TD) Figura B.2: Funo Gama (TE) Figura B.3: Funo triangular Figura B.4: Funo trapezoidal Figura B.5: Funo PI Figura B.6: Funo Z Figura B.7: Funo Sigmoidal Figura B.8: Funo sino Figura C.1: Resultados da etapa de classificao para composio Min Figura C.2: Resultados da etapa de classificao para composio Prod Figura C.3: Resultados do modelo Mamdani com composio Min Figura C.4: Resultados do modelo Mamdani com composio Prod Figura C.5: Resultados do modelo Takagi-Sugeno com composio Min Figura C.6: Resultados do modelo Takagi-Sugeno com composio Prod Figura C.7: Resultados do modelo Tsukamoto com composio Min Figura C.8: Resultados do modelo Tsukamoto com composio Prod

86 86 86 86 86 86 87 87 89 89 90 90 91 91 92 92

Figura C.9: Comparao entre composio Min e Prod para o modelo de 93 Mamdani Figura C.10: Comparao entre composio Min e Prod para o modelo de 93 Takagi-Sugeno Figura C.11: Comparao entre composio Min e Prod para o modelo de 93 Tsukamoto Figura C.12: Comparao entre Mamdani, Takagi-Sugeno e Tsukamoto com 94 composio Min Figura C.13: Comparao entre Mamdani, Takagi-Sugeno e Tsukamoto com 94 composio Prod Figura C.14: Comparao entre Mamdani e Takagi-Sugeno com composio 94 Min Figura C.15: Comparao entre Tsukamoto e Takagi-Sugeno com composio 95 Min Figura C.16: Comparao entre Mamdani e Takagi-Sugeno com composio 95 Prod

www.pusivus.com.br

vii

Figura C.17: Comparao entre Tsukamoto e Takagi-Sugeno com composio 95 Prod Figura D.1: Combinao 1 Figura D.2: Combinao 2 Figura D.3: Combinao Figura D.4: Combinao 4 Figura D.5: Combinao 5 Figura D.6: Combinao 6 Figura D.7: Combinao 7 Figura D.8: Combinao 8 Figura D.9: Combinao 9 Figura D.10: Combinao 10 Figura D.11: Combinao 11 Figura D.12: Combinao 12 Figura D.13: Combinao 13 Figura D.14: Combinao 14 Figura D.15: Combinao 15 Figura D.16: Combinao 16 96 96 96 96 97 97 97 97 97 97 98 98 98 98 98 98

www.pusivus.com.br

viii

Lista de Tabelas
Tabela 2.1: Tabela de histrico de compra dos clientes Tabela 2.2: Matriz de co-ocorrncia para a Tabela 2.1 Tabela 2.3: Dados para exemplificar o processo de MBA Tabela 2.4: Resumo das medidas de associao usadas em MBA Tabela 3.1: Exemplos de fuzificao Tabela 3.2: Resumo das regras de inferncia, difusas Tabela 3.3: Valores de sada para cada regra Tabela 3.4: Tabela exemplo de transaes Tabela 4.1: Tamanho das amostras Tabela 4.2: Exemplo de histrico de compra aps pr-processamento Tabela 4.3: Matriz de co-ocorrncia para os produtos da Tabela 4.2 Tabela 4.4: Exemplos de dados da base de trabalho Tabela 4.5: Intervalos usados para os ensaios Tabela 4.6: Combinaes entre as principais funes de pertinncia Tabela 4.7: Graus de pertinncia para cada entrada Tabela 4.8: Regras disparadas Tabela 4.9: Funes de pertinncia e suas inversas Tabela 4.10: Coeficientes lineares para cada regra Tabela 4.11: Sadas parciais para cada regra Tabela 4.12: Exemplos da etapa de classificao Tabela 4.13: Resultado dos testes para a etapa de classificao Tabela 4.14: Exemplos da etapa de desfuzificao Tabela 4.15: Diferena Mdia entre Lift e MDCAR Tabela 4.16: Resultado dos ltimos testes Tabela A.1: Exemplo dos resultados obtidos nos testes Tabela B.1: Intervalos usados para os testes iniciais, valores entre 0 e 100 Tabela C.1: Resultados do modelo Mamdani com composio Min Tabela C.2: Resultados do modelo Mamdani com composio Prod Tabela C.3: Resultados do modelo Takagi-Sugeno com composio Min Tabela C.4: Resultados do modelo Takagi-Sugeno com composio Prod 17 17 18 23 45 48 49 52 55 55 56 58 59 60 61 62 64 66 67 69 70 72 73 75 85 88 90 90 91 91

www.pusivus.com.br

ix

Tabela C.5: Resultados do modelo Tsukamoto com composio Min Tabela C.6: Resultados do modelo Tsukamoto com composio Prod

92 92

www.pusivus.com.br

Lista de Abreviaturas
DCBD - Descoberta de Conhecimento em Base de Dados DW Data WareHouse FRA Freqncia Relativa de A (Antecedente da regra Se A ento B) FRB Freqncia Relativa de B (Conseqente da regra Se A ento B) FREAB Freqncia Relativa Esperada de A e B FROAB Freqncia Relativa Obtida de A e B IA Inteligncia Artificial MBA Market Basket Analysis MDCAR Mtodo Difuso para Anlise de Histrico de Vendas

www.pusivus.com.br

CAPTULO 1 - INTRODUO
Recentes avanos na forma de aquisio de dados tm revolucionado a capacidade tecnolgica de armazenamento destes. Logs de servidores web, dados de transaes de clientes, compra com carto de crdito, uso de carto fidelidade, entre outros, produzem terabytes de dados, diariamente, que so teis como dados histricos, mas no to teis quanto poderiam ser se fossem efetivamente processados de forma que pudessem fornecer padres e tendncias (BEKER & VIKTOR, 2004 p. 1). Esses padres e tendncias so conhecimentos extrados (descobertos) desses dados. A Descoberta de Conhecimento em Base de Dados (DCBD) um campo interdisciplinar de pesquisa que mescla conceitos de estatstica, de inteligncia artificial e de banco de dados (HAN & KAMBER, 2001 p. xix). O seu estudo motivado pelo crescimento da complexidade, e da quantidade de dados oriundos de todas as esferas do domnio humano e da necessidade de extrair informaes teis dos dados coletados (VELOSO et. al 2001, p. 81). A descoberta de regras de associao uma rea da DCBD que tem por objetivo encontrar conjuntos de itens freqentes em transaes de uma base de dados e inferir regras capazes de mostrar como um conjunto de itens influencia a presena de outros conjuntos de itens (VELOSO et. al, 2001, p. 81). Ressalta-se que a associao pode ser positiva ou negativa, isto , uma relao com presena-presena ou presena-ausncia de itens. A relao presena-presena chamada de atrao e a presena-ausncia chamada de repulso entre itens. O uso de regras de associao no processo de DCBD foi introduzido inicialmente por AGRAWAL et al (1993). A partir da, muitos trabalhos nessa rea tm sido desenvolvidos, dos quais podem ser citados AGGARWAL & YU (1998), AGRAWAL et al (1994), BRIN (1997), HAN & FU (1995), LAKSHMANAN et al (1998), PARK et al (1995), RASTOGI & SHIM (1998) e SRIKANT et al (1998). Todos os modelos usados nestes trabalhos foram baseados na medida de suporte e de confiana e no tratam da repulso entre itens, ou seja, da associao negativa. Todavia, em

www.pusivus.com.br

SAVASARE et al (1998), AUSLENDER (2000), HAN & KAMBER (2001), GROTH (2000) e BERRY & LINOFF (1997) podem ser encontrados modelos que tratam deste tipo de associao. Os modelos para descoberta de regras de associao trabalham com medidas numricas. No clculo das medidas de atrao/repulso, esses modelos utilizam uma base de dados construda, considerando a ocorrncia ou no do evento. Trabalhando dessa forma com uma matriz denominada de matriz de co-ocorrncia, que contm valores binrios [0;1], onde 0 (zero) representa a no ocorrncia e 1 (um), a ocorrncia do evento. Porm, essa matriz utilizada para o clculo de atrao/repulso entre produtos com valores binrios despreza a intensidade da associao dos eventos. Por exemplo, ao analisar dados de vendas de produtos em supermercados, a quantidade de produtos comprada (ARIA et al., 2002) no seria considerada na matriz de coocorrncia. Isto , se um produto A teve 6 unidades compradas e um outro produto B teve 3 unidades compradas por um mesmo indivduo, ento a fora de atrao entre eles seria de 2 para 1 e no de 1 para 1, como estaria representado na matriz de coocorrncia. Dessa forma, a matriz de co-ocorrncia utilizada para o clculo das medidas de associao em sua forma binria despreza a fora de atrao ou repulso entre eventos. Esta fora poderia ser forte, moderada ou fraca, caracterizando-se como uma varivel lingstica sob a presena da impreciso quanto ocorrncia ou no ocorrncia conjunta de eventos. Para o tratamento da impreciso podem ser utilizadas a teoria dos conjuntos difusos e a lgica difusa. Exemplos da utilizao da abordagem difusa so: CURY (2003), para classificao desempenho de transporte urbano; DRAESEKE (1999), para tratamento de dados econmicos; DUALIBE (2001), para processamento de sinais; GUIMARES (2000), para dosimetria de pena para crimes previstos nos artigos de 121 a 359 do Cdigo Penal Brasileiro; MATTHEWS (2002), para desenvolvimento de sistemas especialistas; ORTEGA (2001), para problemas de biomedicina na rea de epidemiologia; RESSOM et al. (2003), para anlise de cluster; RIBEIRO & MOREIRA

www.pusivus.com.br

(2003), para consulta a base de dados comerciais; ROYES (2003), para anlise de polticas; SCREMIN (2003), para seleo de componentes principais em anlise estatstica; STURM et al. (2003), para classificar imagens geogrficas e WOOLF & WANG (2000), para anlise de dados de carga gentica. Nestes trabalhos, a abordagem difusa foi utilizada com o objetivo de transformar valores numricos (numrico) em descritores (difuso) qualitativos, para que possam ser analisados atravs de regras. Com esta viso, cabe levantar a seguinte questo de pesquisa que norteia este trabalho: No processo de descoberta de conhecimento em bases de dados adequado utilizar a abordagem difusa para modelar a impreciso na matriz de co-ocorrncia? Dessa forma, o problema de pesquisa nesta tese verificar a adequao da abordagem difusa para modelar a impreciso contida na matriz de co-ocorrncia utilizada no clculo da medida atrao/repulso.

1.1 Objetivos
Objetivo Geral: Desenvolver um mtodo para tratar a impreciso na matriz de co-ocorrncia utilizada no clculo de atrao/repulso entre itens. Objetivos Especficos: Investigar a modelagem difusa de valores numricos; Verificar qual o processo mais adequado de inferncia difusa; Decidir, atravs de testes com vrios modelos de regras, qual o modelo de regras o mais adequado; Validar o mtodo proposto.

www.pusivus.com.br

1.3 Contribuio da Pesquisa


O problema de regras de associao, atrao/repulso, vem sendo trabalhado ao longo dos anos por pesquisadores como SAVASARE et al (1998) e MENDES (2002). Autores como BERRY & LINOFF (1997, p. 107 - 109) e GROTH (2000, p. 87 - 88) descrevem mtodos que so usados para tratar deste problema. O grande inconveniente desses mtodos que eles mapeiam entradas numricas para sadas numricas que requerem certa especialidade por parte do usurio para descobrir o significado dos nmeros apresentados. Para mapear entradas numricas para termos qualitativos de forma que possam ser analisados atravs de regras, pesquisadores como WOOLF & WANG (2000) e RIBEIRO & MOREIRA (2003) empregaram com sucesso a teoria dos conjuntos difusos. Nesse contexto, como contribuio principal, a presente pesquisa prope uma nova abordagem para o clculo de atrao/repulso, utilizando conjuntos difusos para mapear valores numricos para termos qualitativos. Para isto, a pesquisa investiga e explora os diversos modelos difusos de inferncia, diversas funes de pertinncia e tambm vrias combinaes dessas funes. Outra contribuio importante o estudo comparativo feito entre os modelos de Mamdani, Larsen, Takagi-Sugeno e Tsumamoto, mostrando as dificuldades, as vantagens e as desvantagens no uso de cada um deles e, tambm, as sugestes de adaptao dos modelos ao problema em questo so apresentadas.

1.4 Estrutura do trabalho


Esta tese est dividida em cinco captulos. No primeiro captulo, consta a introduo, na qual so apresentados a motivao, os objetivos propostos e a contribuio da pesquisa.

www.pusivus.com.br

No segundo captulo apresentada a reviso da literatura, considerada necessria para o desenvolvimento desta pesquisa. Inicia-se por uma abordagem de Descoberta de Conhecimento em Base de Dados e suas etapas, dando nfase etapa de Minerao de dados e suas tcnicas. So apresentados tambm fundamentos de Market Basket Analysis (MBA) e, por fim, apresentada a teoria de lgica difusa. No captulo trs apresentado, descrito passo a passo e discutido o mtodo proposto nesta pesquisa. O captulo quatro destinado apresentao e discusso dos resultados obtidos com o mtodo na etapa de testes. As consideraes finais, com base no desenvolvimento do mtodo, bem como as propostas de trabalhos futuros so apresentadas no captulo cinco.

www.pusivus.com.br

Captulo 2 Base Conceitual


Neste captulo so apresentados os fundamentos tericos que deram suporte pesquisa, comeando-se pela Descoberta de Conhecimento em Base de Dados (DCDB), Minerao de Dados, Market Baket Analysis e, finalmente, Lgica Difusa (Fuzzy Logic).

2.1 Descoberta de Conhecimento em Base de Dados (DCBD)


Ao inciar o assunto de descoberta de conhecimento em base de dados (DCBD), cabe a seguinte pergunta: DCBD tem o mesmo significado de Minerao de dados (DM)? Em realidade, no h um consenso em relao a isso, pois, para alguns autores, os dois termos tm o mesmo significado. Segundo GROTH (2000, p. 3-4), esses temas esto abertos debate, e a definio de cada um pode variar, dependendo do autor escolhido para leitura. Para AMARAL (2001, p. 3), a busca por padres teis, em base de dados tem recebido diversos nomes; como descoberta de conhecimento em base de dados, minerao de dados, descoberta de informao, arqueologia dos dados ou processo de padronizao de dados. Enquanto que o termo minerao de dados usado pelos estatsticos e analistas de dados, os pesquisadores de Inteligncia Artificial (IA) utilizam o termo DCBD. Nesta pesquisa feita uma distino em relao aos dois termos. DCBD tratado como o processo completo de descoberta de conhecimento em base de dados e minerao de dados tratada como uma etapa desse processo e apresentada na Seo 2.3. Nesta seo so apresentadas a definio, as etapas e as aplicaes do DCBD.

www.pusivus.com.br

2.1.1 Definio

DCBD (Descoberta de Conhecimento em Base de Dados), de acordo com AMARAL (2001, p.13), a descoberta de novos conhecimentos, que podem ser padres, tendncias, associaes, probabilidades ou fatos que no so bvios ou de fcil identificao. J GROTH (2000, p. 3) define minerao de dados como sendo a busca por tendncias e padres em base de dados. As definies de GROTH (2000, p. 3) e AMARAL (2001, p. 13) levam a crer que ambos os termos tm o mesmo significado. Mas, para KLSGEN & ZYTKOW (2002, p. 2), o termo DCBD se refere a todo o processo de descoberta de conhecimento em dados, enquanto minerao de dados vista como um passo central desse processo, que aplica algoritmos para extrair e verificar hipteses. DCBD um problema multidisciplinar, que envolve inteligncia artificial, estatstica, visualizao, banco de dados e aprendizagem de mquina, mas segundo KLSGEN & ZYTKOW (2002, p. 22), a cincia, a filosofia da cincia e a lgica tm um papel muito importante para a origem do DCBD, porque so responsveis pelos conceitos bsicos de dados, do conhecimento, da linguagem formal e do raciocnio lgico. A descoberta de conhecimento em base de dados envolve diversas etapas que esto descritas a seguir e ilustradas na figura 2.1.

2.1.2 Etapas do DCBD O processo de DCBD comea com a definio do objetivo do problema em questo. Alguns autores definem esta etapa como pertencente fase de minerao de dados, como o caso de CARVALHO (2001, p. 11). J GROTH (2000, p. 46) diz que o processo de DCBD comea com a preparao dos dados. Para AMARAL (2001, p. 15), a definio do objetivo a definio do conhecimento que o usurio deseja obter sobre os dados. nessa etapa que definido o tipo de padro que se deseja descobrir na base

www.pusivus.com.br

de dados. Nesta pesquisa, o processo de DCBD inicia-se com a definio dos objetivos, conforme ilustra a figura 2.1. A segunda etapa do processo a aquisio de dados, que pode ser feita com o auxlio de um Data Warehouse (DW). A utilizao de Data Warehouse defendida por alguns autores (HAN & KAMBER, 2001, p. 39-99) e negada por outros (GROTH,2000, p. 48). A Figura 2.1 mostra as demais etapas do DCBD, comeando pela definio dos objetivos e seguindo pela seleo dos dados, pr-processamento, transformao, minerao e interpretao. Cada etapa descrita a seguir tem um papel importante no processo de DCBD. Uma observao deve ser feita: as etapas de preparao dos dados, segundo AMARAL (2001, p. 17), consomem 70% do tempo destinado ao processo de descoberta de conhecimento.

Figura 2.1: Etapas do DCBD adaptado de (FAYYAD, PIATETSKY-SHAPIRO & SMYTH, 1996).

www.pusivus.com.br

2.1.2.1 - Definio dos objetivos nesta fase que as metas so traadas, pois, para que um trabalho de descoberta de conhecimento tenha sucesso, necessrio estar claro o que se est buscando. Normalmente esta fase feita com a ajuda de um especialista na rea de aplicao. 2.1.2.2 - Seleo Nesta fase seleciona-se um conjunto de dados ou focaliza-se um subconjunto de atributos ou de instncias de dados, com objetivo de criar um conjunto de dados-alvo, no qual a descoberta ser efetuada. Para realizar esta etapa, necessrio que se tenha uma compreenso do domnio e dos objetivos da tarefa, segundo AMARAL (2001, p. 15) e ROBIN e BEZERRA (2003).

2.1.2.3 - Purificao Segundo HAN & KAMBER (2001, p. 109), nesta etapa feita a limpeza dos dados, que envolve: o tratamento de campos de dados perdidos que pode ser feito eliminando-se a tupla, ou usando, muitas vezes, mdias dos valores presentes para preenchimento dos campos, dentre outros; reduo ou eliminao de rudos que pode ser feito atravs de binning (substituir os valores ruidosos atravs de sorteio de valores pertencentes vizinhana), de agrupamento ou inspeo humana com auxlio de ferramentas computacionais; correo de inconsistncias nos dados que trata da correo ou eliminao de dados inconsistentes. Um exemplo de dado inconsistente seria o atributo cidade ter os valores, Florianpolis, Fpolis ou Floripa.

www.pusivus.com.br

10

2.1.2.4 - Transformao De acordo com HAN & KAMBER (2001, p. 114), nesta etapa os dados so transformados de forma que se tornem apropriados tarefa de minerao, qual sero submetidas. Podendo envolver, dentre outros, a: agregao - muitas vezes no h necessidade de representar todas as faixas de valores de uma determinada varivel. Pode-se reagrup-las em faixas mais abrangentes, diminuindo assim o nmero de faixas de valores e a complexidade do problema; criao de atributos em que atributos so criados e adicionados ao conjuntos de dados para auxiliar no processo de minerao; generalizao dos dados em que os valores iniciais (baixo nvel) dos atributos so trocados por valores de alto nvel no conceito hierrquico. Por exemplo, os valores do atributo idade podem ser substitudos por jovem , adulto ou idoso.

2.1.2.5 - Minerao de Dados nesta etapa que feita a descoberta de conhecimento ou de padres, propriamente dita. Neste momento, as tcnicas so escolhidas de acordo com o tipo de problema a ser resolvido. Maiores detalhes sobre esta etapa sero apresentados na seo 2.2. 2.1.2.6 - Interpretao Nesta etapa feita a interpretao dos conhecimentos descobertos e o possvel retorno aos passos anteriores. So removidos os padres redundantes ou irrelevantes e traduzem-se os padres teis em termos compreensveis aos usurios. Alm disso, devese incorporar o conhecimento obtido, para melhorar o desempenho do sistema, adotando aes baseadas no conhecimento ou simplesmente documentando e relatando este conhecimento para grupos interessados.

www.pusivus.com.br

11

2.2 Minerao de Dados


Minerao de dados, de acordo com KLSGEN & ZYTKOW (2002, p. 2), considerada a fase central do processo de DCBD. Esta fase exclusivamente responsvel pelo algoritmo minerador, ou seja, pelo algoritmo que diante da tarefa especificada busca extrair o conhecimento implcito e potencialmente til dos dados.

2.2.1 Fases da Minerao de dados As fases da minerao de dados so cinco: escolha dos algoritmos a ser aplicada; descoberta de novas relaes; anlise humana das novas relaes descobertas; uso racional das novas relaes descobertas e avaliao dos resultados. A Figura 2.2 mostra essas fases, que so descritas a seguir.

Figura 2.2: Fases do Minerao de dados , adaptado de CARVALHO (2001).

2.2.1.1 Escolha dos Algoritmos Nesta fase, os algoritmos so escolhidos de acordo com os objetivos definidos na fase inicial do DCBD, levando-se em considerao o tipo de dados que se tem para que a fase seguinte seja completada com xito.

www.pusivus.com.br

12

2.2.1.2 - Descoberta de Novas Relaes Nesta fase que so descobertas novas relaes que no so facilmente identificveis, mas que podem ser visualizadas com a ajuda de algumas tcnicas, por meio de uma anlise sistemtica e exaustiva sobre uma grande base de dados.

2.2.1.3 - Anlise das Relaes Descobertas Nesta fase, as relaes descobertas so analisadas por um especialista do domnio para verificar se tem algum valor informacional e se so coerentes. Deve-se tambm verificar se os objetivos foram atingidos totalmente, caso contrrio deve-se voltar fase anterior.

2.2.1.4 - Uso das relaes descobertas Nesta fase, as decises so tomadas de forma a utilizar, da melhor maneira possvel, as relaes descobertas. A utilizao dessas relaes deve ser feita de forma racional para que se obtenha o melhor resultado possvel.

2.2.1.5 - Avaliao dos Resultados Esta a fase final e nela que se verifica se o problema foi resolvido ou se os objetivos foram alcanados. Por isso, ao comear um trabalho de DCBD, deve-se estar ciente de qual problema est se tentando resolver para que os resultados obtidos possam ser validados.

www.pusivus.com.br

13

2.2.2 Principais Tcnicas da Minerao de dados As principais tcnicas de minerao de dados so: associao, classificao, agrupamento e anlise de sries temporais, mostradas a seguir.

2.2.2.1 - Associao Regras de associao so simples classes de sentenas que podem ser descobertas em grandes conjuntos de dados cujos valores so zeros e uns (zero para ausncia de determinado acontecimento e um para presena). A sua utilidade reside na habilidade do algoritmo para encontrar todas as regras que satisfazem certas condies estabelecidas pelo usurio (KLSGEN & ZYTKOW, 2002, p. 344). Regras de associao so tratadas com mais detalhe na Seo 2.4.

2.2.2.2 - Classificao De acordo com BERRY & LINOFF (1997, p. 52), classificao uma tarefa que consiste em examinar caractersticas de um objeto e atribu-lo a uma dentre vrias classes pr-definidas. Segundo GROTH (2000, p. 22), classificao o mapeamento de um conjunto de atributos para um conjunto de classes especficas. Para BERRY & LINOFF (1997 p. 52), classificao uma das tcnicas mais utilizadas no processo de minerao, simplesmente porque uma das tarefas cognitivas humanas mais realizadas no auxlio compreenso do ambiente em que se vive. A mente humana naturalmente segmenta coisas em grupos distintos GROTH (2000, p. 22). O ser humano est sempre classificando as coisas ao seu redor: grupos de crianas, pessoas no trabalho, na escola, construes, por exemplo. GROTH (2000, cap. 6-7) mostra dois exemplos completos sobre classificao.

www.pusivus.com.br

14

2.2.2.3 - Agrupamento um mtodo que agrupa linhas de dados que compartilham tendncias e padres similares, ou seja, o processo de dividir um conjunto de dados em grupos distintos (GROTH 2000, p. 247). De acordo com BARRY & LINOFF (1997, p. 55), a tarefa de segmentar uma populao heterognea em um ou mais subgrupos homogneos. E o que distingue agrupamento de classificao, o fato de que no agrupamento no se tem grupos pr-definidos. Cada grupo de objetos formado de maneira que eles tenham alto grau de similaridade com outro objeto do mesmo grupo e alta dissimilaridade com objetos de outros grupos. Os grupos que so formados podem ser vistos como uma classe de objeto, da qual podem ser derivadas regras. Agrupamento tambm pode facilitar formao taxonmica, isto , a organizao de observaes em uma hierarquia de classe (HAN & KAMBER, 2001, p.25).

2.2.2.4 - Anlise de Sries Temporais (AST) De acordo com BERK (1994, p. 321), AST tem a tarefa de analisar grandes conjuntos de dados de sries temporais para encontrar certas regularidades e caractersticas interessantes, incluindo busca por seqncia ou subseqncia similar e minerar padres seqenciais, periodicidades, tendncias e desvios. Por exemplo, prever a quantidade de estoque para uma determinada poca do ano para uma loja de departamento baseado em histrico do estoque, situao do negcio, desempenho dos concorrentes e mercado atual. Anlise de sries temporais tambm uma busca por seqncia ou regras de seqncia que so, de acordo com NOTARI (2000), aquelas para as quais existe uma associao temporal nos fatos e, como nas regras de associao, existe um relacionamento de causa e efeito. A diferena que nas regras de seqncia os itens que se relacionam esto em transaes diferenciadas, ao contrrio das regras de associao em quem os itens que se relacionam esto dentro da mesma transao.

www.pusivus.com.br

15

Regras de associao e market basket analysis so uns dos principais focos desta pesquisa. Dessa forma, torna-se necessria a apresentao mais detalhada sobre estes temas, o que ser feita na prxima seo.

2.3 Regras de Associao e Market Basket Analysis


Para GROTH (2000, p. 28), associao refere-se informao comercial til que pode ser extrada de associaes agregadas entre os diferentes itens vendidos em catlogos ou em loja (fsica ou virtual). As entradas para a anlise de associao so os dados transacionais dos pontos de vendas, e as sadas so informaes e recomendaes sobre associaes entre produtos e comportamento de compra dos clientes. De acordo com HAN & KAMBER (2001, p. 225), Market Basket Analysis (MBA), uma tpica aplicao de regras de associao o processo que analisa hbitos de compra de clientes para encontrar associaes entre os diferentes itens que os clientes colocam em sua cesta de compra. uma tcnica matemtica, freqentemente usada por profissionais de marketing, para revelar afinidades entre produtos individuais ou grupo de produtos. O nome Market Basket Analysis uma analogia idia de que todos os clientes colocam suas compras em uma cesta. O MBA usado para determinar quais produtos so vendidos juntos, para o qual a entrada normalmente uma lista de transaes de vendas, e cada linha da tabela de dados representa uma venda ou um cliente, dependendo se o objetivo da anlise encontrar quais itens so vendidos juntos (ao mesmo tempo ou para o mesmo cliente). De acordo com GROTH (2000, p. 29), o MBA transforma dados transacionais em regras da forma se cliente compra produto A, ele tende a comprar produto B, X% das vezes. Geralmente, os produtos so representados como atributos em uma base de dados. A Figura 2.3 mostra um exemplo de representao de produtos de duas cestas de mercado.

www.pusivus.com.br

16

Figura 2.3: Representao de compra ou no compra de produtos em tabela de dados.

Como pode ser observado na Figura 2.3, cada item colocado na cesta representa um atributo ou coluna na tabela, e a existncia do item em cada cesta representada pelo valor lgico 1, e a no existncia representada pelo valor lgico 0. A cada produto diferente apresentado nas cestas, uma nova coluna na tabela gerada, no importando quantos clientes compraram esse produto. Segundo GROTH (2000, p. 29), MBA pode ser aplicado em vendas casadas, layout do mercado ou loja, projeto de catlogos de produtos, anlise de perda de liderana, preo de produtos e promoes, dentre outros.

2.3.1 O processo da MBA O processo da MBA comea com a aquisio dos dados. A partir de uma base de dados de histrico de compra de clientes, como ilustrado na Figura 2.4, os dados so organizados em uma base de dados, como mostrado na Tabela 2.1.

Figura 2.4: Base de dados de histrico de compra.

www.pusivus.com.br

17

Tabela 2.1: Tabela de histrico de compra dos clientes, baseada em (AGRAWAL e SRIKANT, 1994)

Cliente 001 002 003 004 005 006 ... A1 A3 A1 A1 A1 A1 ... A2 A5 A3 A2 A3 A1 ...

Produto A5 A4 A3 A4 A3 ... A5 A5 A5 A4 ... A5 ...

O processo de extrao dos elementos da base de dados pode ser feito usando qualquer ferramenta de query (consulta). Na Tabela 2.1, os smbolos A1, A2,...,A5 representam os produtos comprados pelos clientes; como pode ser visto, essa forma de colocao dos dados, apesar de ser mais informativa do que estava na base de dados, ainda no a ideal. Dessa forma, os dados ainda no esto prontos para o trabalho de MBA. Para que os dados estejam preparados para a tarefa de MBA, necessrio displos da seguinte forma: os produtos se transformam em atributos e, quando est presente na cesta do cliente, a interseo do produto com o cliente recebe o valor lgico 1, caso contrrio, recebe o valor lgico 0. Um exemplo mostrado na Tabela 2.2, que tambm conhecida como matriz de co-ocorrncia.

Tabela 2.2: Matriz de co-ocorrncia para a Tabela 2.1

Cliente A1 001 002 003 004 005 006 ... 1 0 1 1 1 1 ...

A2 1 0 0 1 0 1 ...

A3 0 1 1 1 1 1 ...

A4 0 0 1 0 1 1 ...

A5 1 1 1 1 1 1 ...

www.pusivus.com.br

18

Com os dados dispostos em uma matriz de co-ocorrncia, comea-se o processo de extrao de conhecimento da forma se A ento B. Nesta fase calcula-se duas medidas: suporte e confiana que sero definidos a seguir. 2.3.1.1 - Suporte o percentual mnimo de transaes na base de dados que contm os itens A e B (GROTH, 2000, p. 29), ou seja, o percentual dos casos em que a ocorrncia de A prev corretamente a ocorrncia de B. Na prtica, suporte o percentual de ocorrncia de A e B, simultaneamente, na matriz de co-ocorrncia. O clculo simples, basta verificar a freqncia relativa de A e B, conforme (2.1). A Tabela 2.3 mostra o exemplo de um conjunto de dados para ilustrar o clculo do suporte.

sup(A B) = prob(A^B) =

n(A^B) , N

(2.1)

onde: sup(A B) = suporte da regra se A, ento B;


prob(A^B) = probabilidade de ocorrncia de A e B; n(A^B) = nmero de ocorrncias simultneas de A e B; N = nmero de casos na base de dados.
Tabela 2.3: Dados para exemplificar o processo de MBA

Cliente A1 001 002 003 004 005 006 007 008 009 010 1 1 0 1 0 0 0 1 0 1

A2 1 1 0 0 1 1 1 1 0 0

A3 0 1 1 1 1 0 0 0 1 1

A4 1 0 0 0 1 1 1 0 0 1

A5 0 0 1 1 1 1 1 0 1 0

www.pusivus.com.br

19

Suponha-se que se queira calcular o suporte baseado na Tabela 2.3 para a regra se o cliente compra A2 ento compra A4. O resultado seria 40% que significa que, se o cliente compra o produto A2, ento ele compra o produto A4 em 40% dos casos. Poderse-ia ter, por exemplo, mais de uma varivel no antecedente do condicional, ou seja, se o cliente comprar A1 e A3, ento compra A5. O resultado seria 10%, o que significa que em apenas 10% dos casos h ocorrncias dos trs itens simultaneamente. 2.3.1.2 - Confiana Para (GROTH, 2000, p. 29), confiana o percentual mnimo daquelas cestas que contm A e tambm contm B, ou seja, o percentual dos cestos em que a coocorrncia observada. Em termos probabilsticos, confiana a probabilidade de ocorrer B dado que A ocorreu, isto , P(B|A) a probabilidade condicional. O clculo feito da seguinte forma: basta dividir a freqncia relativa de A e B pela freqncia relativa de A, conforme (2.2).

conf(A B) =

freq_rel(A B) , freq_rel(A)

(2.2)

onde: conf(A B) = Confiana da regra se A ento B, freq_rel(A^B) = Freqncia relativa de A e B, freq_rel(A) = Freqncia relativa de A. Suponha-se que se queira calcular a confiana baseada na Tabela 2.3 para a regra se o cliente compra A2 ento compra A4. O resultado seria 66% que significa que esta regra aplica-se a 66% dos casos, ou seja, em 66% de todas as compras devem aparecer os produtos A2 e A4 juntos. Pode-se ter, por exemplo, mais de uma varivel no antecedente do condicional, ou seja, se o cliente comprar A1 e A3, ento compra A5. O resultado seria aproximadamente 33%, o que significa que se o cliente compra os produtos A1 e A3, ele compra o produto A5 em 33% dos casos. Fazendo-se uma anlise conjunta das duas medidas, para a regra se o cliente comprar A1 e A3, ento compra A5, o conhecimento extrado da base do exemplo da

www.pusivus.com.br

20

Tabela 2.3 seria: se o cliente comprar os produtos A1 e A3, ento ele comprar o produto A5 em 33% dos casos e esta regra se aplicar a 10% dos casos. GROTH (2000, p. 29-30) faz crticas a esses mtodos de medida de associao, suporte e confiana, porque essas medidas no conseguem prever se a associao encontrada casual ou no, ou se os produtos so concorrentes, isto , em vez de se atrarem, se repelirem. Alm disso, ele aponta problemas com a MBA, porque a maioria dos mtodos no detecta se a associao entre os itens casual ou no. Diz ainda que a medida de associao, confiana, apenas uma probabilidade condicional de B visto que A ocorreu e, sozinho, no consegue distinguir entre uma associao casual ou uma associao til. Com relao medida de associao, suporte parece ser mais interessante, pois permite verificar transaes pouco freqentes. Muitos trabalhos interessantes nessa rea esto sendo desenvolvidos para que este tipo de problema seja resolvido. Pode-se encontrar na literatura algumas medidas para verificar se realmente h uma dependncia entre os itens associados ou se a coocorrncia dos itens no so casuais, como em (AUSLENDER, 2000), (BRIN et al., 1997), (BAKER et al., 2004 ) e (ARIA et al., 2002), entre outros. Essas medidas so apresentadas a seguir. Para verificar se o item A dependente de B e vice-versa, em uma associao do tipo se A, ento B, calcula-se a co-ocorrncia de A e B a priori e a posteriori. Se a diferena entre ambas for muito grande, pode-se considerar que A e B so dependentes e se ambas as probabilidades forem iguais ou aproximadamente iguais, A e B so independentes. Mas existe um problema em relao a essa medida de dependncia. Como saber se a diferena suficientemente grande? Para resolver tal problema, podese fazer o teste de significncia estatstica teste qui-quadrado, conforme (2.3). Para mais detalhe sobre o teste qui-quadrado, consulte BARBETTA (2004, p. 222-235).

2 =

(freq_relo(A B) freq_rele(A B))2 , freq_rRele(A B)

(2.3)

onde: 2 = Medida de distncia,

www.pusivus.com.br

21

freq_rele(A B) = freqncia relativa esperada de A e B, freq_relo(A B) = freqncia relativa obtida, de A e B.

Alm desta, outras medidas podem ser encontradas, como em GROTH (2000, p. 87) que apresenta uma medida chamada impacto (impact) que o quociente entre coocorrncia obtida e a co-ocorrncia esperada, conforme (2.4). Se o valor do impacto for prximo de 1, indica que os itens so independentes, caso contrrio, so dependentes.

impact =

freq_rele(A B) , freq_relo(A B)

(2.4)

Outra medida muito comum, no mundo da MBA, o lift, que GROTH (2000, p 87) apresenta conforme (2.5). O valor do lift um valor que est entre 1 e 1. Caso este seja igual a 0, A e B so independentes; caso seja negativo, A e B se repelem; caso seja positivo, A e B se atraem.

lift(A B) =

freq_relo(A B) freq_rele(A B) , freq_rel(A)

(2.5)

onde: lift(A B) = Medida de atrao entre os itens A e B,


freq_rele(A B) = Freqncia Relativa esperada de A e B, freq_relo(A B) = Freqncia Relativa obtida de A e B,

freq_rel(A) = Freqncia Relativa de A. BERRY& conforme (2.6). LINOFF (1997, p.107-109) apresentam outra medida,

informatividade da associao se A, ento B, cujo nome tambm lift e calculada

freq_rel(A^B) conf(A B) freq_rel(A^B) freq_rel(A) lift(A B) = = = , freq_rel(B) freq_rel(B) freq_rel(A)*freq_rel(B)

(2.6)

www.pusivus.com.br

22

onde: lift(A B) = medida de atrao/repulso da associao se A, ento B,


conf(A B) = Confiana da associao A, ento B, freq_rel(B) = Freqncia relativa de B.

A faixa de valores das equaes (2.5) e (2.6) diferente apesar de ambas as equaes terem o mesmo propsito: verificar se A e B so dependentes ou independentes, ou se repelem, ou se atraem. A faixa de valores de (2.5) varia de 1 a 1, onde um valor no intervalo [-1, 0) indica repulso; um valor igual a 0 indica independncia e um valor no intervalo (0, 1] indica atrao. J (2.6) s possui o limite inferior definido igual a 0, pois o limite superior depende do valor do denominador de (2.6). Por exemplo, se o valor do denominador for igual a 0,1, o limite superior ser igual a 10. A interpretao se d da seguinte forma: um valor menor que 1 indica associao negativa, ou seja, repulso; um valor igual a 1 indica independncia, e um valor maior do que 1 indica associao positiva, ou seja, atrao. Outras medidas de associao podem ser encontradas, que so: coverage e
leverage que so apresentados, respectivamente, pelas equaes (2.7) e (2.8). Coverage

indica a proporo de exemplos no conjunto de dados que coberto pelo antecedente da regra, e leverage a medida de importncia da associao que refletida pela cobertura e confiana.
cov(A B) = freq_relo(A) ,

(2.7)

onde: cov(A B) = Coverage para a regra se A, ento B,


freq_rel(A) = Freqncia relativa de A. lev(A B) = sup(A B) freq_rel(A)*freq_rel(B) =

n(A^B) freq_rel(A)*freq_rel(B) , N

(2.8)

onde: lev(A B) = leverage para a regra se A, ento B,


sup(A B) = suporte para a regra se A, ento B, calculado conforme (2.1).

www.pusivus.com.br

23

Deste estudo elaborou-se um resumo das medidas de associao apresentando-se a Tabela 2.4.
Tabela 2.4: Resumo das medidas de associao usadas em MBA

Medida Suporte

Equao

Confiana

QuiQuadrado Impact

Lift (Groth, 2000) Lift BERRY& LINOFF (1997, p.107109) Coverage

Leverage

Descrio o percentual mnimo de n(A^B) sup(A B) = prob(A^B) = transaes na base de N dados que contm os itens A e B. freq_rel(A B) o percentual mnimo conf(A B) = daquelas cestas que freq_rel(A) contm A e tambm contm B. 2 Medida de distncia entre (freq_relo(A B) freq_rele(A B)) 2 = a freqncia esperada e freq_rRele(A B) obtida, de A e B. Se o valor do impacto for freq_rele(A B) impact = prximo de 1, indica que freq_relo(A B) os itens so independentes, caso contrrio, so dependentes. freq_relo(A B) freq_rele(A B) Verifica se A e B so lift(A B) = dependentes ou freq_rel(A) independentes e se repelem ou se atraem. Mede a conf(A B) lift(A B) = informatividade da freq_rel(B) associao, ou seja, indica quo freqente B em relao a A. Indica a proporo de cov(A B) = freq_relo(A) exemplos no conjunto de dados que coberto pelo antecedente da regra. lev(A B) = sup(A B) freq_rel(A)*freq_rel(B) a medida de importncia da associao que refletida pela cobertura e confiana.

www.pusivus.com.br

24

Como pde ser visto nesta seo, existem vrias medidas para quantificar a associao entre A e B, conforme resumo apresentado na Tabela 2.4. Porm, todas elas exigem uma interpretao que no pode ser feita por usurios no especialistas. Exigese que o usurio conhea no mnimo um pouco de estatstica, para que possa tirar proveito do conhecimento extrado da base de dados. O ideal seria uma medida que pudesse dizer ao usurio o que esse conhecimento significa. Para tanto, foi necessrio desenvolver um mtodo que trabalha com impreciso devido ao fato de que a comunicao com o usurio exige o entendimento do raciocnio humano, que impreciso. Como a proposta desta pesquisa foi verificar a adequao da lgica difusa, que baseada na teoria dos conjuntos difusos, foi feito um estudo sobre estes dois tpicos que apresentado na prxima seo.

www.pusivus.com.br

25

2.4 Lgica Difusa


Nesta seo so apresentados conceitos sobre lgica difusa. Porm, inicialmente, feita uma breve introduo teoria da lgica clssica. De acordo com o postulado do meio excludo da lgica clssica, toda proposio s admite o valor verdadeiro ou falso, no existindo um termo intermedirio. Segundo BARRETO (2000, p. 42), os profissionais da computao encontram nesse postulado correspondncia natural com os dois estados dos circuitos empregados nos sistemas computacionais. Porm, as proposies no mundo real admitem valores diferentes desses dois estados, e a limitao da lgica clssica dificulta expressar, com preciso satisfatria, as idias cujas origens so as sensaes e percepes humanas. Existem lgicas que admitem valor intermedirio, so as lgicas multi-valoradas. As lgicas multi-valoradas mais conhecidas so a de Kleene (tri-valorada) que considera um terceiro valor como ignorncia, ou seja, um valor que pode assumir tanto verdadeiro como falso; e a de Lukasievsky que, de acordo com BARRETO (2000, p. 42), considera a possibilidade de tantos valores intermedirios quantos forem necessrios para melhor captar os nveis de verdade possveis, sendo um passo para a lgica difusa, que definida a seguir. Lgica difusa trabalha com algoritmos usados para emular pensamentos e decises humanas em mquinas. a lgica que serve de base para os modos de raciocnio que so aproximados, ao invs de exatos (TANSCHEIT, 2003, p. 1). De acordo com BARRETO (2000, p. 42), assim como a lgica de primeira ordem tem sua correspondente na teoria dos conjuntos clssicos, a lgica difusa tem sua correspondente na teoria dos conjuntos difusos. Para melhor compreenso destes faz-se a seguir uma apresentao dos conjuntos clssicos

www.pusivus.com.br

26

2.4.1 Conjuntos Clssicos Dado um conjunto clssico A, em um universo de discurso U, pode-se definir A listando todos os seus elementos ou atravs de uma propriedade que os identifica (MENDEL, 1995, p. 348). Pode-se definir uma funo para indicar se um determinado elemento pertence ou no a um conjunto, sendo atribudo o valor zero para no pertinncia x A e o valor um para pertinncia x A . Essa funo chamada por MENDEL (1995, p. 348) de funo zero-um ou funo caracterstica.

A ( x) : U {0,1}
onde, 1, se e somente se x A 0, se e somente se x A

(2.9)

A ( x) =

(2.10)

De acordo com SCREMIN (2003, p. 46), a teoria dos conjuntos clssicos admite apenas resultados binrios 0 ou 1 quanto pertinncia de um elemento a um conjunto no permite que esse elemento pertena parcialmente a outro conjunto. Para mais detalhes sobre lgica clssica, consulte NOLT (1991), DEVLIN (1991), GABBAY (1994) e NISSANKE (1999). Em meados dos anos 60, Lofti Zadeh (ZADEH, 1965) desenvolveu a teoria de conjuntos difusos que permite trabalhar de acordo com o raciocnio humano, que intrinsecamente impreciso e vago. Essa teoria diz que um conjunto no apresenta necessariamente limites bem definidos, podendo um elemento pertencer parcialmente a um conjunto ou pertencer a dois conjuntos ao mesmo tempo.

2.4.2 Conjuntos Difusos Nesta seo, so apresentados os conceitos essenciais sobre conjuntos difusos para o desenvolvimento desta pesquisa. Todos os conceitos e definies so baseados em KANDEL (1986), KLIR (1995), KOSKO (1997), ROSS (1995) e YAGER (1987).

www.pusivus.com.br

27

2.4.2.1 Conceitos e Definies Definio de conjuntos difusos Seja X um conjunto de pontos com um elemento genrico denotado por x, assim
x X . Um conjunto difuso A X caracterizado por uma funo caracterstica

A ( x) que associa cada elemento de A a um nmero real em um intervalo [0,1], onde A ( x) representa o grau de pertinncia de x ao conjunto A.
A funo A ( x) referida como funo de pertinncia ou funo de associao e representada matematicamente conforme (2.11).

A ( x) : X [0, 1] ,
onde A ( x) representa o grau de pertinncia de x ao conjunto A.

(2.11)

A representao algbrica mais usada de um conjunto difuso apresentada pelas equaes (2.12) e (2.13), que representam, respectivamente, os conjuntos difusos, discreto e contnuo.

(x ) (x ) (x ) n (x ) A = A 1 + A 2 + ... + A n = A i x2 x n i =1 xi x1

(2.12) (2.13)

A=
x

A ( x)
x

dx ,

onde o sinal (+) representa a operao unio e no uma soma aritmtica.

Suporte
O suporte de A o conjunto de pontos em X tal que A ( x) >0, que pode ser escrito conforme (2.14).

Sup( A) = {x X , A ( x) > 0}

(2.14)

www.pusivus.com.br

28

Alfa-Cut ou Corte Alfa ( cut )


Dado um conjunto difuso A definido em X e algum nmero [0,1], o corte

A , e o corte forte (que uma variante do corte )

A so os conjuntos clssicos

definidos pelas equaes (2.15) e (2.16), respectivamente.

A = {x | A( x) }

(2.15)

e
+

A = { x | A( x) > } ,

(2.16)

onde o cut ou corte forte de um conjunto difuso A o conjunto clssico conjunto clssico
+

A ou o

A que contm todos os elementos do conjunto universo X cujos

graus de pertinncia em A so, respectivamente, maiores ou iguais, ou somente maior do que um valor especfico .

Principais Operaes com Conjuntos Difusos


As operaes bsicas da teoria dos conjuntos difusos so: complemento, interseo (t-norma) e unio (t-conorma) e so baseadas no conceito de pertinncia ou no de um elemento a um conjunto difuso. H diferentes propostas para encontrar suas funes de pertinncia. A funo de pertinncia do complemento padro de um conjunto difuso A, com funo de pertinncia A , definida como o complemento da correspondente funo de pertinncia, tambm chamado de critrio da negao; ela representada matematicamente atravs de (2.17).

A = 1 A

(2.17)

A funo de pertinncia da interseo padro de dois conjuntos difusos A e B, com funes de pertinncia A e B , definida como o mnimo das duas funes de

www.pusivus.com.br

29

pertinncia individuais, tambm chamada de critrio dos mnimos; ela representada matematicamente conforme (2.18). (2.18)

S [A B(x)] = min[ A(x),B(x)]

Alm da t-norma, interseo padro, apresentada em (2.18), existem outras t normas, das quais podem-se citar diferena limitada, produto algbrico e interseo drstica que so representadas matematicamente conforme (2.19), (2.20) e (2.21), respectivamente.

b [ A B( x)] = Max[0, A ( x) + B ( x) 1] p [ A B( x)] = Max[ A ( x). B ( x)]

(2.19)

(2.20)

A(x), d [A B(x)] = B(x), 0,

se se caso

B(x) = 1 A(x) = 1 contrrio


(2.21)

A funo de pertinncia da unio padro de dois conjuntos difusos A e B, com funes de pertinncia A e B , definida como o mximo das duas funes de pertinncia individuais, tambm chamada de critrio dos mximos ou t-conorma; ela representada matematicamente conforme (2.22).

A B ( x) = Max( A ( x), B ( x))

(2.22)

Assim como a t-norma, existem outras t-conormas alm da apresentada conforme (2.22) das quais podem-se citar soma limitada, soma-produto e unio drstica que so representadas matematicamente conforme (2.23), (2.24) e (2.25), respectivamente.

b [ A B( x)] = Min[1, A ( x) + B ( x) + A ( x). B ( x)]

(2.23)

www.pusivus.com.br

30

p [ A B( x)] = Min[ A ( x) + B ( x) A ( x). B ( x)]

(2.24)

A(x), d [A B(x)] = B (x), 1,

se se caso

B (x) = 0 A(x) = 0 contrrio


(2.25)

2.4.2.2 Funes de pertinncia


Nesta seo so apresentadas as principais funes de pertinncia e suas representaes grficas. As funes de pertinncia podem ser lineares ou no-lineares. As lineares apresentadas aqui so a triangular, a trapezoidal a gama a L, e as no lineares so Gaussiana, Z e sigmoidal.

Funo triangular
Seja a,b,c (conjunto dos nmeros reais), define-se a funo triangular conforme (2.26). E sua representao grfica ilustrada pela Figura 2.5.

x a , se a xb b a c x ( x) = , se bxc c b caso contrrio 0,

(2.26)

Figura 2.5: Funo de pertinncia de formato triangular.

www.pusivus.com.br

31

Funo trapezoidal
Seja a,b,c,d , define-se a funo trapezoidal conforme (2.27). Sua representao grfica ilustrada pela Figura 2.6.

0, xa , b a ( x) = 1, d x d c , 0,

se

xa (2.27)

se a < x b se b < x c se c < x d se x>d

Figura 2.6: Funo de pertinncia de formato trapezoidal.

Funo gama
Seja a,b,c , define-se a funo gama conforme (2.28). Sua representao grfica ilustrada pela Figura 2.7. 0, x a ( x) = b a 1,

se

xa (2.28)

se a < x b se b < x c

www.pusivus.com.br

32

Figura 2.7: Funo de pertinncia do tipo gama.

Funo L
Seja a,b,c , define-se a funo L conforme (2.29). Sua representao grfica ilustrada pela Figura 2.8. 1, c x ( x) = c b 0,

se a x < b se b < x c se x>c (2.29)

Figura 2.8: Funo de pertinncia do tipo L.

Funo Gaussiana
A funo Gaussiana, tambm chamada de , definida por (2.30), onde o valor de x para qual a funo ( x) tem ponto de mximo, e representa a largura do
intervalo, onde ( x) = 0 . Sua representao grfica ilustrada pela Figura 2.9.

www.pusivus.com.br

33

0, 2 2 2 (x + ) , ( x) = 1 2 ( x ) 2 , 2 2 2 (x )2 ,

se x e x + se se se

x +
2 x +

2
(2.30)

x +

Figura 2.9: Funo de pertinncia de formato

Funo Z
A funo Z definida por (2.31), onde o valor de x para qual ( x) tem um ponto de mximo, e representa a largura do intervalo. Sua representao grfica ilustrada pela Figura 2.10.

1, 2 2 2 (x ) , ( x) = 2 1 2 (x )2 , 0,

se se se + se

x +

2 (2.31)

x + 2 x +

www.pusivus.com.br

34

Figura 2.10: Funo de pertinncia de formato Z.

Funo Sigmoidal
A funo sigmoidal definida por (2.32), onde a inclinao no ponto de transio, e define o ponto de transio. Sua representao grfica ilustrada pela Figura 2.11. 0, 2 2 2 (x + ) , ( x) = 2 1 2 (x )2 , 1,

se

se x se se

2 (2.32)

x 2 x

Figura 2.11: Funo de pertinncia sigmoidal.

www.pusivus.com.br

35

Alm dessas outras funes de pertinncia podem ser encontradas na literatura, como o caso da funo sino (Figura B.8), funo gama e funo L, dentre outras. s vezes, a mesma funo pode aparecer com nomes diferentes em diferentes textos, como o caso da funo sigmoidal que pode ser encontrada com o nome de funo S. Existem combinaes de funes, como o caso da funo sino-sigmide.

2.4.2.3 Modelos de Regras Difusas


As regras difusas formam a parte fundamental da estrutura de conhecimento em um sistema difuso de inferncia. Os formatos de regras difusas podem ser classificados em quatro grupos principais. Os trs primeiros, Mamdani e Larsen, Takagi-Sugeno e Tsukamoto correspondem ao modelo de inferncia difuso. A diferena bsica entre esses trs primeiros modelos recai no tipo de conseqente e no procedimento de desfuzificao. A seguir so descritos os quatro formatos.

Modelo Mamdani e Larsen


No modelo Mamdani e Larsen, as regras so do tipo: Rj: se x1 A1,j e...e xn An,j ento yj Cj. Sendo que no modelo de Mamdani a sada obtida atravs do seguinte processo: calcula-se, inicialmente, as t-normas usando interseo padro, conforme (2.18); em seguida, calcula-se o mnimo entre as t-normas para cada regra disparada; finalmente, a sada o mximo entre esses mnimos. Esse processo, ilustrado pela Figura 2.12, conhecido como Max-Min. J no modelo de Larsen, em vez de interseo padro, calcula-se as t-normas usando produto algbrico, conforme (2.20); em seguida, obtm-se o produto das t-normas para cada regra disparada e, para se obter a sada final, procede-se da mesma forma do que no modelo de Mamdani. Este processo, ilustrado pela Figura 2.13, conhecido como Max-Prod.

www.pusivus.com.br

36

Figura 2.12: Modelo de Mamdani com composio Max-Min adaptado de (SANDRI & CORREA, 1999, p. c80).

Figura 2.13: Modelo de Larsen com composio Max-Prod adaptado de (SANDRI & CORREA, 1999, p. c80).

Modelo de Takagi-Sugeno
No modelo Takagi-Sugeno, as regras so do tipo: Rj: se x1 A1,j e...e xn An,j ento y j = f j ( x1 ,..., x m ) . Nesse caso, a sada de cada regra uma funo das variveis de entrada. Geralmente, a funo que mapeia a entrada e sada para cada regra uma combinao linear das entradas, isto , y = d 0 + d1, j x1 + ... + d m , j x m . No caso em que d 1 = ... = d m = 0 , tem-se y = d0 (fuzzy singleton). A sada do sistema obtida pela mdia ponderada, procedimento de desfuzificao, das sadas de cada regra usando-se o grau de disparo dessas regras como pesos de ponderao. A Figura 2.14 ilustra esse processo.

www.pusivus.com.br

37

Figura 2.14: Modelo de Takagi-Sugeno adaptado de (SANDRI & CORREA, 1999, p. c81).

Modelo de Tsukamoto
No modelo Tsukamoto, as regras so do tipo: Rj: se x1 A1,j e...e xn An,j ento yj Cj. Nesse sistema difuso de inferncia o conseqente de cada regra representado por um conjunto difuso com uma funo de pertinncia monotnica, conforme ilustrado pela Figura 2.15.

Figura 2.15: Modelo de Tsukamoto adaptado de (SANDRI & CORREA, 1999, p. c80).

www.pusivus.com.br

38

Modelo para classificao


Neste modelo, as regras so do tipo: Se x A e y B ento padro (x,y) pertence a classe i. Segundo SOUZA (1999, p. 14), este modelo de regras difuso foi acrescentado aos modelos clssicos anteriores pelo fato dos demais no serem adequados aos sistemas de inferncia difusa desenvolvidos para tarefas de classificao. A Figura 2.16 ilustra um exemplo de um sistema difuso para classificao com duas entradas e trs classes de sada. Nesse modelo, as sadas so calculadas diretamente pelas operaes de t-conorma aplicadas sobre o grau de disparo das regras (t-normas). Nesse caso no h procedimento de desfuzificao.

Figura 2.16: Modelo fuzzy de classificao com duas entradas e trs classes de sada (SOUZA, 1999).

As variveis lingsticas so partes integrantes de um sistema difuso, pois elas so responsveis por representar termos lingsticos. Para melhor entendimento do seu significado, a prxima seo apresenta a definio formal e um exemplo.

www.pusivus.com.br

39

2.4.2.4 Variveis Lingsticas

Uma varivel lingstica difusa uma varivel cujo valor expresso qualitativamente por um termo lingstico e quantitativamente por uma funo de pertinncia. Uma varivel lingstica caracterizada pela t-upla {n,T,X,m(t)}, onde n o nome da varivel, como, por exemplo, temperatura, presso, febre, sabor e dor, T o conjunto de termos lingsticos de n, como, por exemplo, elevada, baixa, extrema, suave e intensa, X o domnio de valores de n sobre o qual o significado do termo lingstico determinado e m(t) uma funo semntica que assinala para cada termo lingstico t T o seu significado, que um conjunto difuso em X, ou seja, m : T X, onde X o espao dos conjuntos difusos. A Figura 2.17 mostra um exemplo de varivel lingstica. O nome (n) da varivel FRVG (Freqncia Relativa de Venda de Geladeira). Os termos lingsticos t T que atribuem um significado semi-quantitativo a FRVG so baixa, moderada e alta. O domnio X da varivel o intervalo [0,1]. Cada termo lingstico tem a ele associado um conjunto difuso m(t) que o caracteriza.

Figura 2.17: Exemplo de variveis lingsticas.

Os conceitos apresentados nesta seo tm como objetivo dar uma idia geral sobre a teoria da lgica difusa, enfocando apenas os tpicos que do suporte a esta pesquisa.

www.pusivus.com.br

40

Neste captulo foram apresentados conceitos de Descoberta de Conhecimento em Base de Dados (DCBD) dando destaque a uma de suas etapas, a minerao de dados. A minerao de dados tem um grande papel no processo de DCBD, porque nesta etapa que so escolhidas e aplicadas as tcnicas de minerao de dados para a descoberta do conhecimento. Uma das tcnicas a descoberta de regras de associao que bastante usada no processo de Market Basket Analysis (MBA), que tambm foi discutido. O captulo se fecha com uma reviso da teoria sobre conjunto difuso e tambm sobre lgica difusa, assuntos que serviram para completar o embasamento terico que deu suporte a esta pesquisa, visto que se trata de uma investigao do uso de conjunto difuso para tratamento de impreciso contida na matriz de co-ocorrncia utilizada no processo de MBA.

www.pusivus.com.br

41

Captulo 3 Mtodo Difuso para Clculo de Atrao e Repulso (MDCAR)


Devido ao fato de as medidas utilizadas no clculo de atrao e repulso entre itens no tratarem a impreciso contida na matriz de co-ocorrncia, procurou-se desenvolver um mtodo baseado na teoria de conjuntos difusos e na lgica difusa para resolver este problema. Para isso, procurou-se mapear as medidas de atrao/repulso mais utilizadas que so lift de Berry-Linoff (BERRY e LINOFF, 1997) e lifit de Groth (GROTH, 2000), ou seja, usar essas duas medidas como entrada. Mas no foi possvel usa-las diretamente visto que a de Berry-Linoff no tem um limite superior definido como descrito na Seo 2.3.1. Por isso foi necessrio fazer algumas adaptaes nestas medidas, o que levou s seguintes entradas FRA (Freqncia Relativa do antecedente da regra se A ento B), FREAB (Freqncia Relativa Esperada do antecedente e conseqente da regra se A ento B) e FROAB (Freqncia Relativa Obtida do antecedente e conseqente da regra se A ento B). Essas entradas so valores numricos percentuais que so mapeadas para uma sada qualitativa conforme ilustrado pela Figura 3.1 e descritas na Seo 3.1.1. A prxima seo apresenta uma descrio detalhada do mtodo MDCAR.

3.1 Descrio do mtodo


A Figura 3.1 mostra o esquema geral da proposta do mtodo difuso para clculo de atrao e repulso, o MDCAR, que comea com a fuzificao das entradas, terminando com o fornecimento de uma sada qualitativa do MDCAR. Cada etapa do processo descrita a seguir.

www.pusivus.com.br

42

Figura 3.1: Esquema do MDCAR.

3.1.1 - Entradas Numricas Percentual

As entradas numricas, cujos valores variam entre 0 e 1, so as mesmas usadas para calcular o lift de Groth (GROTH, 2000, p. 87) (2.5) que a medida usada como referncia para desenvolvimento do mtodo proposto, que so: FRA - Freqncia Relativa de A, obtida por (3.1), onde A o antecedente da regra do tipo Se A, ento B, que pode ser, por exemplo, Se o cliente compra o item Px, ou os itens P1, P2, ..., Pn, ento compra tambm o item Qy, ou produtos Q1, Q2, ..., Qn; FREAB Freqncia Relativa Esperada de A e B, onde B o conseqente da regra descrita anteriormente, obtida por (3.2); FROAB Freqncia Relativa Obtida de A e B, que calculada por (3.4).

oA
FRA = freq_rel(A) =
1

(3.1)

www.pusivus.com.br

43

onde: oA = ocorrncia de A na tabela de transaes, n = nmero de transaes. FREAB = FRAxFRB , onde: FRA = freqncia relativa de A, calculada conforme (3.1) e FRB = freqncia relativa de B, calculada de acordo com ( 3.3). (3.2)

oB
FRB = freq_rel(B) =
1

(3.3)

onde: oB = ocorrncia de B na tabela de transaes.

(oA^ oB)
FROAB = freq_relO(A^B) =
1

(3.4)

onde: oA^oB = ocorrncia de A e B, simultaneamente.

3.1.2 - Fuzificao

No processo de fuzificao, FRA, FREAB e FROAB so transformadas em variveis difusas, compostas por trs conjuntos, representados pelos termos lingsticos: alta, moderada e baixa. Devido ao fato de as trs entradas terem as mesmas caractersticas, a fuzificao feita de forma idntica e os intervalos de funes de pertinncia so ilustrados na Figura 3.2. A investigao que resultou na escolha dessas funes e intervalos encontra-se na Seo 4.2.

www.pusivus.com.br

44

Figura 3.2: Representao dos conjuntos difusos para as trs entradas numricas.

Conforme Figura 3.2, o conjunto que representa o termo lingstico baixa limitado pela funo definida por (2.26), com =0,1 e =0,3; moderada, pela funo definida por (2.25), com =0,4 e =0,3 ; e alta, pela funo definida por (2.27), com

=0,7 e =0,3. O processo de fuzificao ocorre da seguinte maneira: para cada


entrada calculado um valor de pertinncia , para cada conjunto; e os valores obtidos so armazenados para serem usados na etapa de propagao. A Tabela 3.1 mostra trs exemplos de fuzificao.

Tabela 3.1: Exemplos de fuzificao dos valores numricos

Entradas FRA FREAB FROAB

Valor Numrico 0,780 0,220 0,170 0,320 0,060 0,070 0,120 0,210 0,140

Baixa
0,000 0,320 0,755 0,000 1,000 1,000 0,980 0,405 0,920

Moderada
0,000 0,680 0,245 0,980 0,000 0,000 0,002 0,595 0,080

Alta
1,000 0,000 0,000 0,02 0,000 0,000 0,000 0,000 0,000

www.pusivus.com.br

45

Os termos apresentados na Tabela 3.1 tm os seguintes significados: FRA Freqncia Relativa do antecedente da regra se A ento B; FREAB Freqncia Relativa Esperada de A e B; FROAB Freqncia Relativa Obtida de A e B; Valor numrico Valor de entrada de cada freqncia acima;

Baixa - Grau de pertinncia do valor de entrada ao conjunto difuso cujo


termo lingstico Baixa;

Moderada
Alta

- Grau de pertinncia do valor de entrada ao conjunto difuso

cujo termo lingstico Moderada;

- Grau de pertinncia do valor de entrada ao conjunto difuso cujo

termo lingstico Alta. A Figura 3.3 ilustra um dos exemplos, onde: (a) representa a fuzificao do valor 0,780 da varivel FRA; (b), do valor 0,320 da varivel FREAB fuzificada; (c), do valor 0,120 da varivel FROAB fuzificada.

Figura 3.3: Exemplo de fuzificao das variveis de entrada.

www.pusivus.com.br

46

3.1.3 - Propagao

Nesta etapa ocorre o processo de inferncia difusa, no qual as regras apresentadas a seguir so disparadas de acordo com os graus de pertinncia obtidos no processo de fuzificao e com um mtodo de composio. Ressalta-se que foi investigado qual o mtodo de composio mais adequado, conforme mostrado na Seo 4.1.7.

Regras
As regras foram obtidas atravs de heurstica. Primeiro, montou-se uma rvore de possibilidades para combinar as trs entradas, resultando em 27 possveis regras, visto que h trs entradas e trs conjuntos difusos para cada entrada, do qual se tem 33 possibilidades. Em seguida foi selecionado, por sorteio, um conjunto de dados que permitiram deduzir a sada para cada regra e descartar algumas possibilidades que no ocorrem na prtica como, por exemplo, ter as duas primeiras entradas baixas e a ltima alta. As regras obtidas, apresentadas de forma resumida na Tabela 3.2, so as seguintes:

1. Se FRA BAIXA e FREAB BAIXA e FROAB BAIXA, ento MDCAR Atrao Moderada. 2. Se FRA BAIXA e FREAB MODERADA e FROAB BAIXA, ento MDCAR Repulso Alta. 3. Se FRA BAIXA e FREAB MODERADA e FROAB MODERADA, ento MDCAR Atrao Moderada. 4. Se FRA MODERADA e FREAB BAIXA e FROAB BAIXA, ento MDCAR Repulso Baixa. 5. Se FRA MODERADA e FREAB BAIXA e FROAB MODERADA, ento MDCAR Atrao Alta. 6. Se FRA MODERADA e FREAB MODERADA e FROAB BAIXA, ento MDCAR Repulso Alta. 7. Se FRA MODERADA e FREAB MODERADA e FROAB

MODERADA, ento MDCAR Atrao Baixa. 8. Se FRA MODERADA e FREAB ALTA e FROAB BAIXA, ento MDCAR Repulso Alta.

www.pusivus.com.br

47

9. Se FRA MODERADA e FREAB ALTA e FROAB MODERADA, ento MDCAR Repulso Alta. 10. Se FRA ALTA e FREAB BAIXA e FROAB BAIXA,

ento MDCAR Repulso Baixa. 11. Se FRA ALTA e FREAB BAIXA e FROAB MODERADA,

ento MDCAR Atrao Moderada. 12. Se FRA ALTA e FREAB MODERADA e FROAB BAIXA,

ento MDCAR Repulso Moderada. 13. Se FRA ALTA e FREAB MODERADA e FROAB

MODERADA, ento MDCAR Repulso Baixa. 14. Se FRA ALTA e FREAB MODERADA e FROAB ALTA,

ento MDCAR Atrao Alta. 15. Se FRA ALTA e FREAB ALTA e FROAB BAIXA,

ento MDCAR Repulso Alta. 16. Se FRA ALTA e FREAB ALTA e FROAB MODERADA,

ento MDCAR Repulso Moderada. 17. Se FRA ALTA e FREAB ALTA e FROAB ALTA,

ento MDCAR Atrao Baixa.


Tabela 3.2: Resumo das regras de inferncia, difusas Regra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 FRA BAIXA BAIXA BAIXA MODERADA MODERADA MODERADA MODERADA MODERADA MODERADA ALTA ALTA ALTA ALTA ALTA ALTA ALTA ALTA FREAB BAIXA MODERADA MODERADA BAIXA BAIXA MODERADA MODERADA ALTA ALTA BAIXA BAIXA MODERADA MODERADA MODERADA ALTA ALTA ALTA FROAB BAIXA BAIXA MODERADA BAIXA MODERADA BAIXA MODERADA BAIXA MODERADA BAIXA MODERADA BAIXA MODERADA ALTA BAIXA MODERADA ALTA MDCAR AMODERADA RALTA AMODERADA RBAIXA AALTA RALTA ABAIXA RALTA RALTA ABAIXA ABAIXA RMODERADA RBAIXA AMODERADA RALTA RMODERADA ABAIXA

www.pusivus.com.br

48

Os termos apresentados na Tabela 3.2 tm os seguintes significados: FRA Freqncia Relativa do antecedente da regra se A ento B; FREAB Freqncia Relativa Esperada de A e B; FROAB Freqncia Relativa Obtida de A e B; MDCAR Mtodo Difuso para Clculo de Atrao/Repulso.

3.1. 4 - Classificao

Nesta etapa, as regras disparadas na etapa anterior so compostas por MaxProduto por ser a forma de composio que apresentou melhores resultados conforme discutido na seo 4.2. A varivel de sada, chamada MDCAR e ilustrada na Figura 3.4, composta por 6 conjuntos difusos representados pelos termos lingsticos: RALTA (Repulso Alta) limitado pela curva definida por (2.23); RMOD (Repulso Moderada) limitado pela curva definida por (2.22); RBAIXA (Repulso Baixa) limitado pela curva definida por (2.24); ABAIXA (Atrao Baixa) limitado pela curva definida por (2.22); AMOD (Atrao Moderada), limitado pela curva definida por (2.22); e AALTA (Atrao Alta) limitado pela curva definida por (2.24).

Figura 3.4: Representao dos conjuntos difusos para a varivel de sada.

Os termos apresentados na Figura 3.4 tm os seguintes significados: RALTA Repulso Alta entre os itens pesquisados;

www.pusivus.com.br

49

RMOD Repulso Moderada entre os itens pesquisados; RBAIXA Repulso Baixa entre os itens pesquisados; ABAIXA Atrao Baixa entre os itens pesquisados; AMOD Atrao Moderada entre os itens pesquisados; AALTA Atrao Alta entre os itens pesquisados.

Esse processo de classificao ocorre da seguinte forma: 1) avalia-se todas as regras, calculando-se a sada de cada uma, atravs do produto entre os graus de pertinncia s calculados na etapa de fuzificao. A Tabela 3.3 mostra as sadas das regras para as entradas da Tabela 3.1; 2) os valores de sada de cada regra so comparados, a que tiver o maior valor a vencedora, sendo, portanto, a sua sada o resultado que ser apresentado em termos lingsticos. Por exemplo, a sada(1) da Tabela 3.3 mostra que a regra vencedora a 12, com isso a sada em termos lingsticos Repulso Moderada; na sada(2), o resultado Atrao Alta; e na sada(3), Atrao Moderada. Estes termos lingsticos representam os conjuntos da varivel de sada, descrita a seguir.
Tabela 3.3: Valores de sada para cada regra

Regra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Sada(1) 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,960 0,002 0,000 0,009 0,000 0,000

Sada(2) 0,130 0,000 0,000 0,280 0,400 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Sada(3) 0,695 0,000 0,000 0,225 0,020 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

www.pusivus.com.br

50

Os termos apresentados na Tabela 3.3 tm os seguintes significados: Sada(1) Sada obtida a partir das entradas FRA = 0,780, FREAB = 0,320 e FROAB = 0,120 mostradas na Tabela 3.1; Sada(2) Sada obtida a partir das entradas FRA = 0,220, FREAB = 0,060 e FROAB = 0,210 mostradas na Tabela 3.1; Sada(3) Sada obtida a partir das entradas FRA = 0,170, FREAB = 0,070 e FROAB = 0,140 mostradas na Tabela 3.1. A Figura 3.5 ilustra o processo de classificao, usando como exemplo a sada(2) da Tabela 3.3, para a qual so disparadas as regras 1, 4 e 5. Conforme pode ser observado, a regra 5 a vencedora, portanto a sada atrao alta.

Figura 3.5: Ilustrao grfica da etapa de classificao.

3.2 Utilizao do MDCAR

www.pusivus.com.br

51

O MDCAR pode ser usado para fazer consulta personalizada a uma base de dados, por exemplo, pode-se criar uma interface que permita ao usurio entrar com consulta da seguinte forma: o item A tem forte atrao pelo item B? ou o item C atrado pelos itens A e B? ou, ento, quais so os itens que tm maior atrao pelo item W?, dentre outras. A ttulo de exemplificao do uso do MDCAR, seja a Tabela 3.4, onde A, B e C representam os produtos comercializados, seja a transao que representa cada cesta de compra do estabelecimento. Suponha que o usurio faa essa consulta: o produto B tem forte atrao pelo produto A?, a resposta sim, porque a resposta fornecida pelo MDCAR AALTA, que significa que A atrai B fortemente, ou seja, que B tem forte atrao por A. Pode-se fornecer mais informaes ao usurio como, por exemplo, o grau de pertinncia ao conjunto AALTA ou, talvez, fornecer o valor da sada numrico tambm. Isso depende de cada analista que for usar o mtodo em seu sistema.
Tabela 3.4: Tabela exemplo de transaes

Transao 1 2 3 4 5 6 7 8 9 10

A 1 0 0 1 1 0 1 0 0 0

B 1 0 0 1 1 0 1 0 0 0

C 0 1 1 1 0 0 1 1 0 1

A interface que tornaria possvel a consulta mencionada no pargrafo anterior deve disparar uma funo que busque, na matriz de co-ocorrncia (exemplificada pela Tabela 3.4), os valores de FRA, FREAB e FROAB e os fornea para o mtodo MDCAR a fim de disparar todo o processo descrito na Seo 3.1. Para o desenvolvimento do MDCAR foi necessrio testar vrios modelos difusos, vrias combinaes de funes de pertinncias e intervalos, at conseguir decidir qual

www.pusivus.com.br

52

a melhor combinao para o mtodo proposto. Para isso foram necessrias centenas de ensaios. Na prxima seo, so apresentados todos os passos seguidos para se chegar ao modelo apresentado aqui.

www.pusivus.com.br

53

Captulo 4 Ensaios e Resultados


Neste captulo, so apresentados os ensaios realizados com vrios modelos de composio difusa e combinaes de funes de pertinncia e os correspondentes intervalos. apresentada tambm uma anlise dos resultados obtidos, procurando mostrar o modelo mais adequado resoluo do problema em questo. Para realizar estes ensaios, o mtodo MDCAR foi implementado em DELPHITM Verso 7.0. Para realizar uma avaliao do mtodo MDCAR, realizou-se uma comparao com a medida de lift de Groth e com a obtida pelo MDCAR. Assim foi necessrio obter a estimativa da medida lift por meio de uma etapa de desfuzificao conforme figura 4.1. Esta etapa de desfuzificao permite obter um valor numrico para a medida lift.

Figura 4.1: Modelo usado para os testes.

4.1 Ensaios Realizados


Para se chegar a um conjunto de dados para desenvolvimento e testes do mtodo proposto, foram necessrias vrias etapas, como so apresentadas nas prximas sees.

www.pusivus.com.br

54

4.1.1 Aquisio dos Dados

Um dos grandes problemas para se desenvolver pesquisa para aplicao comercial est na aquisio de dados, porque as empresas tm receio de fornec-los, por suspeitarem que isso possa ser prejudicial ao seu negcio. Outro grande problema o formato dos dados, devido aos SGDBs usados pelas empresas, nesse caso, Oracle, Interbase e SQL Server. Para resolver tal problema, foi necessrio desenvolver um programa para se comunicar com os trs formatos ao mesmo tempo e coloc-los em um nico formato, para facilitar o trabalho de implementao do mtodo MDCAR. Os dados usados na presente pesquisa foram obtidos do histrico de vendas, de cinco anos, de uma rede de supermercados, de uma loja de departamentos e de uma rede de livrarias. A massa de dados adquirida contm milhes de transaes (linhas) e milhares de itens (colunas), mas nem todos foram usados. Para agilizar o processo, foram selecionadas amostras de cada base, conforme apresentado na prxima seo.

4.1.2 Seleo dos dados

Foi escolhida uma amostra, por sorteio, entre itens e transaes cujo tamanho se encontra na Tabela 4.1. O porqu da grande diferena entre quantidade de itens e de transaes reside no fato de existirem mais transaes do que itens no histrico de compras. Alm disso, o esforo computacional para trabalhar nmero de itens elevados muito maior do que para trabalhar com elevado nmero de transaes, como mostrado na Seo 4.1.4.

www.pusivus.com.br

55

Tabela 4.1: Tamanho das amostras

Tamanho 1.100 Itens Transaes 600.000

4.1.3 Purificao dos Dados

Nesta etapa, os dados selecionados foram inspecionados com ajuda de recursos computacionais. E as transaes que continham dados perdidos ou incompletos foram eliminadas e as que continham dados inconsistentes foram corrigidas, utilizando como base as transaes similares e que continham dados consistentes. Para cada transao eliminada, outra foi escolhida, por sorteio, para substitu-la.

4.1.4 Transformao dos Dados

Aps as etapas anteriores, os dados purificados foram dispostos em tabelas, cada base em uma tabela distinta, como exemplifica a Tabela 4.2.
Tabela 4.2: Exemplo de histrico de compra aps pr-processamento

Cliente 001 002 003 ... 600.000

Cinto Cala Relgio ... Cala

Compra Carteira Sapato Camisa Sapato Meias Camisa ... ... Relgio ...

... ... ... ... ...

Como o objetivo desta etapa transformar os dados para se ajustarem ao algoritmo de minerao a ser aplicado, foi necessrio rearranjar as entradas da tabela 4.2, de forma que se tenham apenas zeros e uns, que so os dados adequados a este tipo de problema. A Tabela 4.3 mostra como os dados mostrados na Tabela 4.2 (conhecida por matriz de co-ocorrncia) ficaram aps a transformao. Os detalhes, dessa transformao, podem ser encontrados na Seo 2.4.1.

www.pusivus.com.br

56

Tabela 4.3: Matriz de co-ocorrncia para os produtos da Tabela 4.2

Cliente 001 002 003 ... 600.000

Cinto 1 0 0 ... 0

Carteira 1 0 0 ... 0

Sapato 1 1 0 ... 0

Cala 0 1 0 ... 1

Camisa 0 1 1 ... 0

Relgio 0 0 1 ... 1

Meias 0 0 1 ... 0

... ... ... ... ... ...

Aps a transformao dos dados onde foi obtida a matriz de co-ocorrncia, conforme Tabela 4.3, inicia-se a prxima etapa, que envolve a descoberta do conhecimento, que nesse caso a procura por valores relativos s trs entradas para o mtodo proposto, que so: Freqncia Relativa de A, Freqncia Relativa Esperada de A e B e Freqncia Relativa Obtida de A e B.

4.1.5 Obteno dos Dados de Entrada para o MDCAR

A partir desta etapa, no importa a origem dos dados, o que importa obter um conjunto de valores para as trs entradas. Para isso, pensou-se em calcular os valores de todas as associaes possveis para cada amostra, o que se mostrou invivel devido ao nmero elevado de combinaes possveis, o que pode ser observado por (4.3). Para obter (4.3), usou-se o princpio de induo matemtica.
n 1

A = n!+ N j ,
j =2

(4.3)

onde: A = nmero de associaes possveis n = nmero de atributos da matriz de co-ocorrncia os Njs so calculados por (4.4).

N j = 2(n j ) (n i ) ; 2 j n 1 ,
i = j 1

n 1

(4.4)

onde: N = nvel de associao, explicado a seguir.

www.pusivus.com.br

57

Para explicar os nveis de associao calculados por (4.4), seguem os exemplos abaixo:

Exemplo 1: Suponha que a matriz de co-ocorrncia tenha dois atributos (A e B), tem-se
apenas associaes do primeiro nvel, que so: A B e B A , ou seja, duas associaes possveis (2! = 2).

Exemplo 2: Suponha agora 3 atributos (A, B e C), tem-se associaes do primeiro e


segundo nveis, que so: A B, B A, A C, C A, B C, C B (primeiro nvel); AB C, AC B, CB A, C AB, B AC e A CB (segundo nvel), ou seja, 12 associaes possveis, 3! + N2 = 12, onde N2 = 2(3-2)[(3-1)+(3-2)]) = 6. medida que se aumenta o nmero de atributos, o nmero de associaes possveis aumenta exponencialmente, conforme ilustrado pela Figura 4.2; portanto para 1.100 atributos (itens), invivel trabalhar com todas as associaes possveis. A soluo encontrada foi retirar uma amostra (de 600.000 associaes, com o mesmo nmero de transaes de cada base de dados) de cada conjunto de dados.

Figura 4.2: Grfico - atributos X associaes.

Das 600.000 associaes possveis, retiradas de cada conjunto de dados (no total foram 1.800.000), foram calculados o FRA, FREAB e FROAB, que so as entradas usadas para o desenvolvimento do MDCAR. Desse total, foram retirados 10% para

www.pusivus.com.br

58

servir como base de teste, ficando, assim, a base de trabalho com 1.620.000 e a base de teste com 180.000. Desses totais, foram retiradas associaes com freqncias relativas, para qualquer uma das trs variveis, com valores inferiores a 5%, sobrando, dessa forma, a base de trabalho com 1.242.507 linhas e a base de teste com 124.200 linhas. Essas bases de dados e as demais obtidas nos ensaios se encontram no CD, em anexo, e as explicaes sobre o contedo se encontram no Apndice A. A Tabela 4.4 mostra um estrato da base de dados de trabalho. Os valores apresentados na tabela so as freqncias relativas de cada entrada.
Tabela 4.4: Exemplos de dados da base de trabalho

FRA 0,47 0,70 0,56 ...

FREAB 0,06 0,20 0,28 ...

FROAB 0,09 0,14 0,37 ...

4.1.6 Intervalos

Os intervalos foram determinados por meio de heursticas. Foi fixado um valor para cada entrada e foram testados vrios intervalos e as sadas foram observadas e analisadas, a fim de verificar se havia coerncia ou no com o que se esperava obter. Os intervalos para cada combinao de funes de pertinncia so mostrados na Tabela B.1, que se encontra no Apndice B. O modelo de composio usado foi o de MaxProduto, por ser o que se mostrou mais adequado durante testes preliminares realizados. Os intervalos, valores entre 0 e 1, obtidos para cada funo so mostrados na Tabela 4.5. Todas essas funes foram usadas para determinao do modelo difuso de composio ideal para compor o MDCAR, como mostrado na prxima seo.

www.pusivus.com.br

59

Tabela 4.5: Parmetros das funes de pertinncia usados para os ensaios

Funo de pertinncia L Gama Triangular Trapezoidal Gaussiana Sigmoidal Z Sino

a
0,00 0,40 0,10 0,10 0,10

b
0,10 0,70 0,40 0,35 0,35

Parmetros c d
0,40 1,00 0,70 0,45 0,45 0,70 0,70

0,40 0,70 0,10 -

0,30 0,30 0,30 -

4.1.7 Funes de Pertinncia

As funes, para cada conjunto (Baixa, Moderada e Alta) que representam as variveis lingsticas para as entradas do sistema (FRA, FREAB e FROAB), foram escolhidas de acordo com suas caractersticas. Para o conjunto difuso baixa, as funes que mais se ajustaram foram L e Z (ilustradas pelas figuras B.1 e B.6, respectivamente); para o conjunto difuso alta, as funes que mais se ajustaram foram gama e sigmoidal (ilustradas pelas figura B.2 e B.7); as demais, triangular (Figura B.3) , trapezoidal (Figura B.4), Pi (Figura B.5) e sino (Figura B.8), so mais indicadas para o conjunto difuso moderada. Para se chegar a uma combinao de funes ideal, foram testadas todas as combinaes possveis, 16 no total, das funes mostradas na Tabela 4.5. A Tabela 4.6 mostra as combinaes de funes, cujos grficos se encontram no apndice D, usadas nesta pesquisa. Para cada combinao de funes, foram testados vrios modelos de composio e desfuzificao, como apresentado na prxima seo.

www.pusivus.com.br

60

Tabela 4.6: Combinaes entre as principais funes de pertinncia

Combinao Baixa 1 2 3 4 L 5 6 7 8 9 10 11 Z 12 13 14 15 16

Conjunto Moderada Alta Triangular Gama Sigmoidal Trapezoidal Gama Sigmoidal PI Gama Sigmoidal Sino Gama Sigmoidal Triangular Gama Sigmoidal Trapezoidal Gama Sigmoidal PI Gama Sigmoidal Sino Gama Simoidal

4.1.8 Modelos Difusos

Os modelos difusos de composio testados foram: o modelo de classificao; o modelo de Mamdani; o modelo de Takagi-Sugeno; e o modelo de Tsukamoto; com composio de regras do tipo mnimo e produto (produto algbrico, conforme (2.20)) para cada um. Para cada uma das dezesseis combinaes da Tabela 4.6, foram testados todos esses modelos duas vezes, uma com composio mnimo e outra com produto, dando um total de 128 repeties dos testes com a mesma base, base de testes com 124.200 linhas. Os resultados foram gravados em bases de dados que se encontram no CD, em anexo.

4.1.8.1 - Classificao
No modelo de classificao, como ilustrado pela Figura 2.10 Seo 2.5.2.2, no h a etapa de desfuzificao. Calcula-se a t-norma (interseo padro) nesta pesquisa testou-se a interseo produto algbrico tambm, para cada regra disparada em

www.pusivus.com.br

61

seguida calcula-se a t-conorma, ou seja, busca-se o mximo entre estes mnimos e a regra vencedora, a qual apresentou o maior valor para a t-conorma e determina a sada do sistema. A seguir apresentado um exemplo do funcionamento do mtodo, usando o modelo de classificao. Suponha as entradas 0,52, 0,36 e 0,28 para FRA, FREAB e FROAB, respectivamente. Usando a combinao de funes 14 (Z, Pi, Sigmoidal), mostrado na Tabela 4.6, com os parmetros apresentados na Tabela 4.5, obtm-se os graus de pertinncia para cada conjunto apresentados na Tabela 4.7.
Tabela 4.7: Graus de pertinncia para cada entrada

Entradas FRA FREAB FROAB

Valor Numrico 0,52 0,36 0,28

Baixa
0,00 0,00 0,02

Moderada
0,00 0,82 0,98

Alta
0,86 0,08 0,002

Os termos apresentados na Tabela 4.7 tm os seguintes significados: FRA Freqncia Relativa do antecedente da regra se A ento B; FREAB Freqncia Relativa Esperada de A e B; FROAB Freqncia Relativa Obtida de A e B; Valor numrico Valor de entrada de cada freqncia acima;

Baixa - Grau de pertinncia do valor de entrada ao conjunto difuso cujo


termo lingstico Baixa;

Moderada
Alta

- Grau de pertinncia do valor de entrada ao conjunto difuso

cujo termo lingstico Moderada;

- Grau de pertinncia do valor de entrada ao conjunto difuso cujo

termo lingstico Alta. Usando mnimo ou produto (para comparao entre ambos), as regras disparadas foram 12, 13, 15 e 16, sendo que a regra 13 possui o maior grau de pertinncia (como mostra a Tabela 4.8); portanto, a regra vencedora e resultado o repulso baixa, conforme conjunto de regras mostrado na Seo 3.1.3.

www.pusivus.com.br

62

Tabela 4.8: Regras disparadas

Composio Mnimo

Produto

Regra 12 13 14 15 16 12 13 14 15 16

Grau 0,02 0,82 0,002 0,02 0,08 0,014 0,69 0,001 0,0013 0,067

A partir desta sada do mtodo MDCAR, a resposta dada ao usurio poderia ser na forma: O produto A repele fracamente o produto B . E fica a cargo da criatividade de cada analista.

4.1.8.2 - Mamdani
O modelo de Mamdani difere do modelo de classificao (Figura 2.16) pelo fato de permitir a desfuzificao, que feita como ilustra a pela Figura 2.6, mostrada na Seo 2.5.2.2. Usando as mesmas entradas da seo anterior, a classificao repulso baixa, para os dois casos mnimo e produto. Aps a desfuzificao, as sadas numricas obtidas foram as seguintes: usando o padro do modelo de Mamdani, teve-se como resultado o valor de -0,123; mudando o padro, em vez de mnimo, usando o produto, o resultado obtido foi de -0,104. O valor calculado utilizando lift de Groth (2.5) foi 0,154.

4.1.8.3 - Tsukamoto
O modelo de Tsukamoto difere dos modelos anteriores, por exigir que as funes de pertinncia para cada conjunto de sada sejam monotnicas. Para isso, as funes e

www.pusivus.com.br

63

intervalos de sada foram adaptados, conforme ilustra a Figura 4.3. Para os demais modelos, os conjuntos da varivel de sada so os mesmos conforme ilustra a Figura 3.5. O modelo de Tsukamoto exige que as funes associadas aos conjuntos de sada, sejam monotnicas, ou seja, estritamente crescente ou estritamente decrescente. Devido a isso, buscou-se transformar as funes associadas aos conjuntos RMOD e AMOD em funes monotnicas, como ilustra a Figura 4.3. O uso de funes lineares (para este caso), em vez de no-lineares, deve-se ao fato da complexidade matemtica, nesse caso, para se calcular as inversas das funes de pertinncia.

Figura 4.3: Varivel de sada para o modelo de Tsukamoto.

A sada numrica final , usando o modelo de Tsukamoto, calculada por (4.5), e o resultado, usando mnimo, -0,099 e para produto, -0,152.

s
SF =
i =1 n

* wi , (4.5)
i

w
i =1

onde: n = n de regras disparadas, wi = resultado da operao composio, mnimo ou produto para cada regra disparada, SF = sada numrico final, si calculado pela inversa da funo monotnica de cada conjunto.

www.pusivus.com.br

64

A Tabela 4.9 mostra as funes e suas inversas para cada conseqente da regra, que so os conjuntos difusos de sada.

Tabela 4.9: Funes de pertinncia e suas inversas

Conjunto RALTA

Funo

Inversa

( x) =
RMODERADA

( x) =
RBAIXA

( x) =
ABAIXA

( x) =
AMODERADA

( x) =
AALTA

( x) =

3 x 10 7 10 1 x 10 4 10 5 x+ 10 5 10 5 x 10 5 10 1 x 10 4 10 3 x 10 7 10

1 ( x) =

7x 3 10

1 ( x) =

4x 1 10

1 ( x) =

5x 5 10

1 ( x) =

5 5x 10

1 ( x) =

4x + 1 10

1 ( x) =

7x + 3 10

Os termos apresentados na Tabela 4.9 tm os seguintes significados:

RALTA Repulso Alta entre os itens pesquisados; RMOD Repulso Moderada entre os itens pesquisados; RBAIXA Repulso Baixa entre os itens pesquisados; ABAIXA Atrao Baixa entre os itens pesquisados; AMOD Atrao Moderada entre os itens pesquisados; AALTA Atrao Alta entre os itens pesquisados.

www.pusivus.com.br

65

As funes mostradas na Tabela 4.9 foram obtidas atravs de combinaes lineares que mapeiam as entradas para cada sada.

4.1.8.4 Takagi-Sugeno
Para o modelo de Takagi-Sugeno, usando as mesmas entradas da Tabela 3.7, teve-se como resultado a repulso baixa e a sada numrica para mnimo igual a -0,135 e, para produto, -0,14. O processo de fuzificao e classificao foram apresentados na Seo 3.1 e o processo de desfuzificao apresentado a seguir.

Desfuzificao

Nesta etapa, a sada difusa, isto , na forma de termos lingsticos, transformada em um valor numrico. Esta realizada, seguindo o seguinte procedimento: 1. calcula-se as sadas parciais de cada regra atravs da combinao linear das entradas, conforme (3.5);

S i = xpi + yqi + zri + s i ,


onde: Si = sada parcial para cada regra i o nmero da regra (Regra 1, Regra 2, ...)

(4.6)

x = FRA y = FREAB z = FROAB p,q,r e s so coeficientes lineares das entradas para cada regra, obtidos atravs
de interpolao polinomial que se encontram na Tabela 4.10.

www.pusivus.com.br

66

Tabela 4.10: Coeficientes lineares para cada regra Regra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 P -0,820 0,675 -0,800 0,170 -0,860 1,140 0,221 2,670 3,680 -0,040 -1,690 0,420 0,120 -0,110 1,590 0,300 0,150 q -0,820 -0,880 -2,110 -3,170 -4,100 -0,830 -0,370 -2,830 -2,500 -0,950 0,390 -1,320 -1,580 -0,210 -1,940 -1,230 -1,500 r 1,300 0,675 -1,890 3,080 2,610 -2,330 0,860 3,000 0,270 1,550 1,670 1,080 1,580 0,176 2,460 0,800 1,360 S 0,050 -0,050 0,102 -0,040 0,560 0,570 -0,240 -0,960 -0,690 -0,030 0,810 -0,300 -0,070 0,079 -0,860 -0,080 -0,010

2. calcula-se a sada final, que a sada numrica desejada, de acordo com (3.6).
17

w s
Rf =
i =1 17

i i

w
i =1

(4.7)

onde: Rf a sada numrica final do mtodo,

si = sadas parciais de cada regra, wi = pesos, valores obtidos atravs da operao mnimo ou produto, para
cada regra mostrada na Tabela 3.2. Suponha que se deseja calcular a sada numrica para as seguintes entradas 0,78, 0,32 e 0,12 para FRA, FREAB e FROAB, respectivamente. Os wis esto determinados conforme mostra a Tabela 3.2, sada(1). Os sis so calculados conforme (4.6) e so mostrados na Tabela 4.11. Com isso a sada final, calculada conforme (4.7), igual a -

0,2623, enquanto o lift calculado por (2.5) igual a -0,2564. Isto mostra que o valor
fornecido pelo mtodo MDCAR est bem prximo da sada fornecida pelo lift de Groth.

www.pusivus.com.br

67

Tabela 4.11: Sadas parciais para cada regra

Regra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Sada Parcial -0,6960 0,2759 -1,4240 -0,5522 -1,1096 0,9140 -0,0828 0,5770 1,4128 -0,1792 -0,1830 -0,2652 -0,2924 -0,0529 0,0546 -0,1436 -0,2098

Apesar de a Tabela 4.11 mostrar as sadas parciais de todas as regras, no h necessidade do clculo de todas, apenas das que foram disparadas. No exemplo acima seria necessrio calcular s as sadas das regras 12, 13 e 15 que foram as regras disparadas. Embora isso no v influenciar no resultado, visto que os pesos das regras no disparadas esto zerados. Na prxima seo, so discutidos e analisados os resultados obtidos para cada modelo e para combinaes de funes apresentadas aqui.

4.2 Resumo do Mtodo MDCAR Usado para os Testes


Seja o vetor de entrada VE = (FRA, FREAB, FROAB). 1. As entradas so transformadas trs conjuntos, em variveis difusas, pelos

compostas

por

representados

termos lingsticos: alta, moderada e baixa. 2. Calcula-se o grau de pertinncia aos conjuntos alta, baixa e moderada de cada valor de entrada.

www.pusivus.com.br

68

3. Os valores da etapa anterior so propagados. Nessa etapa ocorre o processo de inferncia difusa, em que as

regras so disparadas. 4. As regras disparadas na etapa anterior so compostas por Max-Produto, conforme os passos a seguir: 1) avalia-se todas as regras, calculando-se a sada de cada uma, atravs do produto entre os valores

calculados na etapa 2. 2) compara-se os valores de sada de cada regra, a que apresentar o maior valor a vencedora, sendo portanto sua sada o resultado ao que ser Por apresentado exemplo, se em o

linguagem

natural

usurio.

conseqente da regra vencedora for Repulso Alta, a resposta ao usurio o produto A repele fortemente o produto B. 5. A sada difusa transformada em um valor numrico, usando o modelo de Takagi-Sugeno, conforme os passos a seguir: 1) calcula-se as sadas parciais de cada regra atravs da combinao linear das entradas, conforme (4.5); 2) calcula-se a sada final, que a sada numrico desejada, de acordo com (4.6). 6. O resultado em termos lingsticos e o valor numrico de sada so apresentados ao usurio.

4.3 - Resultados
Os resultados foram obtidos a partir de testes realizados, usando as combinaes de funes mostradas na Tabela 4.6. Para a etapa de classificao do mtodo proposto, foram testadas as composies mnimo e produto. J, para a etapa de desfuzificao, foram testados os modelos de Mamdani, Takagi-Sugeno e Tsukamoto, sendo que cada modelo foi testado com ambos os tipos de composio.

www.pusivus.com.br

69

4.3.1 Resultados Obtidos na Etapa de Classificao

Na etapa de classificao, foram observadas as sadas do sistema e comparadas com o valor numrico fornecido pelo MDCAR usado para teste e verificado se a sada coerente ou no. Por exemplo, a Tabela 4.12 mostra que nas cinco primeiras linhas as sadas so coerentes porque a primeira linha mostra que o valor numrico de sada igual a 0,03, o que pode ser considerado como baixa atrao ou mesmo ausncia de atrao ou repulso, pois est prximo de zero. O mesmo acontece com as linhas dois e quatro que, apesar de o primeiro caso sugerir baixa repulso e o valor ser positivo, pode-se considerar como coerente a sada, porque o valor numrico est prximo de zero. Pode-se fazer a mesma anlise para o segundo caso.
Tabela 4.12: Exemplos da etapa de classificao

FRA
0,87 0,57 0,78 0,50 0,67 0,74

Entradas FREAB FROAB


0,70 0,10 0,31 0,455 0,55 0,40 0,73 0,11 0,16 0,450 0,18 0,53

Sadas Valor MDCAR Numrico 0,03 ABAIXA 0,01 RBAIXA -0,20 RMODERA -0,01 ABAIXA -0,55 RALTA 0,17 AALTA

Os termos apresentados na Tabela 4.12 tm os seguintes significados:

FRA Freqncia Relativa do antecedente da regra se A ento B; FREAB Freqncia Relativa Esperada de A e B; FROAB Freqncia Relativa Obtida de A e B; Valor numrico Valor de entrada de cada freqncia acima; MDCAR Mtodo Difuso para Clculo de Atrao/Repulso.

As sadas das linhas trs e cinco tambm podem ser consideradas coerentes, pois esses valores pertencem aos conjuntos repulso moderada e repulso alta, respectivamente, com certo grau de pertinncia. J a sada da linha seis no pode ser considerada coerente, pois o valor 0,17 no pertence ao conjunto atrao alta, porm isso se explica pelo fato da impreciso contida na matriz de co-ocorrncia. Pelo

www.pusivus.com.br

70

exemplo da Tabela 4.12, pode-se concluir que 83,3% das sadas so coerentes. Baseado nesse tipo de anlise, chegou-se aos resultados descritos a seguir. A Tabela 4.13 mostra os resultados de cada combinao de funes apresentados na Tabela 4.6 para os conjuntos de entrada. Como pode ser observado, no h grande diferena entre os dois modelos de composio. Conforme mostra a Tabela 4.13 e ilustra a Figura 4.4, a melhor combinao foi a dois, composio mnimo, e a pior foi a onze, composio produto. Pode-se observar tambm que dependendo da combinao escolhida, o resultado foi o mesmo, no importando, portando, o tipo composio. O que importa, nesse caso, o tipo de combinao de funes.
Tabela 4.13: Resultado dos testes para a etapa de classificao Combinao Mnimo Produto 1 0,801 0,801 2 0,849 0,801 3 0,794 0,794 4 0,793 0,793 5 0,793 0,793 6 0,794 0,794 7 0,788 0,785 8 0,789 0,786 9 0,801 0,801 10 0,801 0,801 11 0,796 0,702 12 0,795 0,795 13 0,793 0,793 14 0,794 0,794 15 0,790 0,787 16 0,790 0,788

www.pusivus.com.br

71

Figura 4.4: Comparao entre os dois mtodos de composio.

Os grficos individuais dos modelos de composio apresentados na Tabela 4.13 se encontram no Apndice C (Figura C.1 para mnimo e C.2 para produto).

4.3.2 - Resultados Obtidos na Etapa de Desfuzificao

Ressalta-se que fez-se a desfuzificao para validar o mtodo MDCAR em relao ao mtodo tradicional de medida de atrao-repulso Os resultados obtidos nesta etapa foram comparados com a medida de referncia

lift para verificar se as sadas obtidas esto prximas ou no da sada desejada. A


diferena mdia entre a sada do MDCAR para cada um dos 128 testes e a sada de referncia lift calculada conforme (4.6). Por exemplo, suponha as entradas e sadas da Tabela 4.14, a diferena mdia igual a 0,043.

|MDCAR LIFT |
i i

DM =

i =1

(4.6)

onde: n = nmero de linhas da tabela de resultados; MDCAR Mtodo Difuso para Clculo de Atrao/Repulso; LIFT Medida de Atrao/Repulso (GROTH, 2000).

www.pusivus.com.br

72

Tabela 4.14: Exemplos da etapa de desfuzificao

FRA 0,87 0,57 0,78 0,50 0,67 0,74

Entradas FREAB FROAB 0,70 0,73 0,10 0,11 0,31 0,16 0,455 0,450 0,55 0,18 0,40 0,53

Sadas LIFT MDCAR 0,03 0,06 0,01 0,02 -0,20 -0,20 -0,01 -0,02 -0,55 -0,42 0,17 0,09

Os termos apresentados na Tabela 4.14 tm os seguintes significados:

FRA Freqncia Relativa do antecedente da regra se A ento B; FREAB Freqncia Relativa Esperada de A e B; FROAB Freqncia Relativa Obtida de A e B; LIFT Medida de Atrao/Repulso (GROTH, 2000); MDCAR Mtodo Difuso para Clculo de Atrao/Repulso.

As diferenas mdias para todos os testes realizados so mostradas na Tabela 4.15, cujos campos tm os seguintes significados: MM Modelo de Mamdani com composio Min; MP Modelo de Mamdani com composio Prod; TKM Modelo de Takagi-Sugeno com composio Min; TKP Modelo de Takagi-Sugeno com composio Prod; TSM Modelo de Tsukamoto com composio Min; TSP Modelo de Tsukamoto com composio Prod.

www.pusivus.com.br

73

Tabela 4.15: Diferena Mdia entre Lift e MDCAR Combinao 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Mdia Desvio Padro MM 0,124 0,124 0,134 0,134 0,127 0,126 0,136 0,136 0,126 0,126 0,136 0,136 0,139 0,139 0,129 0,129 0,131 0,005 MP 0,123 0,123 0,127 0,128 0,125 0,124 0,131 0,131 0,124 0,124 0,130 0,130 0,127 0,126 0,134 0,135 0,128 0,003 TKM 0,094 0,094 0,096 0,098 0,087 0,089 0,089 0,092 0,095 0,098 0,097 0,100 0,088 0,090 0,090 0,093 0,093 0,004 TKP 0,094 0,096 0,097 0,098 0,088 0,091 0,090 0,093 0,095 0,098 0,098 0,100 0,089 0,092 0,092 0,094 0,094 0,003 TSM 0,100 0,101 0,094 0,096 0,122 0,127 0,115 0,120 0,101 0,103 0,094 0,099 0,125 0,131 0,119 0,222 0,117 0,012 TSP 0,115 0,115 0,105 0,107 0,138 0,141 0,127 0,130 0,115 0,117 0,107 0,110 0,139 0,143 0,130 0,134 0,123 0,012

Como pode ser observado na Tabela 4.15 e na Figura 4.5, o modelo de Takagi-

Sugeno teve o melhor desempenho, apesar de nas combinaes 3, 4 e 11 o modelo de Tsukamoto ter apresentado um melhor resultado. Em mdia, o modelo que apresenta o
melhor resultado o de Takagi-Sugeno, como mostrado a seguir.

Figura 4.5: Diferenas Mdias para os modelos testados.

www.pusivus.com.br

74

A diferena mdia entre o modelo de Takagi-Sugeno (TKM Takagi-Sugeno,

mnimo e TKP Takagi-Sugeno, produto) e os demais testados, grande, como ilustra a


Figura 4.6. J a diferena entre mnimo e produto pequena.

Figura 4.6: Mdia das diferenas entre os modelos testados.

As tabelas que deram origem Tabela 4.15 e aos grficos individuais se encontram no Apndice C. Pelos dados obtidos nesta pesquisa, constata-se que o melhor modelo de desfuzificao o de Takagi-Sugeno, que pode ser usado com interseo: padro e produto, porm optou-se por usar o segundo tipo de composio, para o mtodo MDCAR proposto, visto que, em conjunto com o mtodo de desfuzificao escolhido, apresenta resultado melhor. Aps a determinao do modelo ideal para composio do MDCAR, outros testes foram realizados a fim de fazer a sua validao. Os resultados desses testes so apresentados na prxima seo.

4.3.3 Resultados Finais

Para fazer os ltimos testes com o modelo escolhido para o MDCAR, foram selecionadas, por sorteio, 9.000 possveis associaes para cada base de dados: rede de supermercados, loja de departamentos e rede de livrarias. Os resultados so apresentados na Tabela 4.16, onde: as bases so numeradas de 1 a 3, para os trs

www.pusivus.com.br

75

segmentos de mercado; a coluna classificao o resultado percentual para o nmero de sadas coerentes da etapa de classificao, conforme explicado anteriormente; a coluna desfuzificao a diferena mdia entre a sada do MDCAR e a medida LIFT de referncia.
Tabela 4.16: Resultado dos ltimos testes

Base 1 2 3

N de casos 3000 3000 3000

% de classificao adequada
0,79310 0,79700 0,80080

Diferena mdia
0,09348 0,09207 0,09072

Como pode ser observado na Tabela 4.16, no h grande diferena entre os resultados obtidos com dados escolhidos aleatoriamente de diferentes segmentos do mercado e tambm entre os resultados obtidos anteriormente. Portanto, o mtodo desenvolvido pode ser aplicado a qualquer um desses segmentos, sem necessidade de adequao.

www.pusivus.com.br

76

Referncias
AGGARWAL, C. and YU, P. Online generation of association rules. ICDE-98, 1998, pp. 402-411. AGRAWAL, R., IMIELINSKI, T., SWAMI, A. Mining association rules between

sets of items in large databases. SIGMOD-1993, 1993, pp. 207-216.


AGRAWAL, R. and SRIKANT, R. Fast algorithms for mining association rules.

VLDB-94, 1994.
AMARAL, Fernanda C. N. Minerao de dados: Tcnicas e Aplicaes para o Marketing Direto. So Paulo: Berkeley, 2001.
ARIA, Massino; MOLA, Francisco; SICILIANO, Roberta. Growing and Visualizing Prediction Paths Trees in Market Basket Analysis. In: XV Conference on

Computational Statistics, Berlin - Germany, 2002. BARBETTA, Pedro A. Estatstica Aplicada s Cincias Sociais. Florianpolis: Editora da UFSC, 2004. BARRETO, Jorge M. Inteligncia Artificial no Limiar do Sculo XXI. Florianpolis: J. M. Barreto, 2000. BERK, Kenneth N. Data Analysis with Systat. USA: SYSTAT, 1994. BERRY, Michael, J. A. & LINOFF, Gordon. Minerao de dados Techniques: for Marketing, Sales, and Customers. USA: John Wiley & Sons, 1997. BRIN, S. MOTWANI, R. ULLMAN, J. and TSUR, S. Dynamic Itemset counting and

implication rules for market basket data. SIGMOD-97, 1997, pp. 255-264.
CARVALHO, Lus A. V. de. Datamining: A Minerao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. So Paulo: rica, 2001. CURY, Marcus V. Q. Mtodo para Classificar o Desempenho de Sistemas de Transporte Urbano com Uso da Lgica difusa. Revista Transporte ANPET, Braslia, Abril de 2003. DEVLIN, Keith. Logic and Information. England: Cambridge University Press, 1991. DRAESEKE, Robert; GILES, David.E.A., A Fuzzy Logic Approach to Modelling the

Underground Economy. In: International Conference on Modelling and Simulation

www.pusivus.com.br

77

(MODISM 99) - Modelling and Simulation Society of Australia and New Zealand. Vol. 2, p. 453-458, December, 1999. DUALIBE, Carlos; JESPERS, Paul; VERLEYSEN, Michel. On Designing Mixed-

Signal Programmable Fuzzy Logic Controllers as Embedded Subsystems in Standard CMOS Technologies. In: 14th Symposium on Integrated Circuits and
Systems. Braslia - DF, p. 194-200, 10 a 15, September, 2001. FAYYAD, Usama, PIATETSKY-SHAPIRO, Gregory e SMYTH Padhraic. The DCBD

Process for Extracting Useful Knowledge. Communications of the ACM Digital


Library, Novembro, 1996, Vol. 39, p 27-34. GABBAY, Dov M. What is Logical System? USA: Oxford Science Publications, 1994. GROTH, Robert. Data Mining: Building Competitive Advantage. New Jersey USA: Prentice Hall, 2000. GUIMARES, Mrcio G. Um Sistema de Apoio Dosimetria da Pena do Cdigo

Penal Brasileiro Utilizando Fuzzy Logic. Florianpolis, 2003, 106p. Dissertao


(Mestrado em Cincia da Computao) Programa de Ps-Graduao em Cincia da Computao da Universidade Federal de Santa Catarina. HAN, J. and FU, Y. Discovery of multiple-level association rules from large

databases. VLDB-95.
HAN, Jiawei & KAMBER, Micheline. Minerao de dados: Concepts and Techniques. USA: Morgan Kaufmann, 2001. KANDEL, Abraham. Fuzzy Mathematical Techiniques with Applications. USA: Addison-Wesley Publishing, 1986. KLIR, George; YUAN, Bo. Fuzzy Sets and Fuzzy Logic: Theory and Applications. USA: Prentice Hall, 1995. KLSGEN, Willi & ZYTKOW, Jan M. Handbook of Minerao de dados and

Knowledge Discovery. USA: Oxford University Press, 2002.


KOSKO, Bart. Fuzzy Engineering. USA: Prentice-Hall, 1997. LAKSHMANAN, L.; NG. R. T.; HAN, J. Exploratory mining and pruning

optimizations of constrained association rules. SIGMOD-98, 1998.

www.pusivus.com.br

78

MATTHEWS, Chris. Fuzzy Concepts and Formal Methods: A Sample Specification

for a Fuzzy Expert System. In: World Congress on Computational Intelligence


(WCCI 2002), IEEE Press, 2002. MENDES, Ilza M. B. Regras de Associao Negativas. Niteri-RJ, 2002, 63p. Dissertao (Mestrado em Computao Aplicada e Automao) Programa de PsGraduao em Computao Aplicada e Automao da Universidade Federal Fluminense. NISSANKE, Nimal. Introductory Logic and Sets for Computer Scientists. England: Addison Wesley Longman, 1999. NOLT, J.; ROHATYN, D. Lgica. So Paulo: Mcgraw-Hill, Inc., 1991. NOTARI, Daniel L. Aplicao de Redes Neurais Artificiais Minerao de Dados. Disponvel em:<http://www.inf.ufrgs.br/~dlnotari/trabalhos/ucs/arnmd/index.html>. Acesso em 15/02/2000. ORTEGA, Neli R. S. Aplicaes da Teoria de Conjuntos difusos a Problemas da

Biomedicina. So Paulo-SP, 2001, 166p. Tese (Doutorado em Cincias) Programa


de Ps-Graduao Cincias da Universidade de So Paulo. PARK, J. S. CHEN, M. S. and YU, P. S. An effective hash based algorithm for

mining association rules. SIGMOD-95, 1995, pp. 175-186.


RASTOGI, R. and SHIM, K. Mining optimized association rules with categorical

and numeric attributes. ICDE 98.


RESSOM, H.; REYNOLDS, R.; VARGHESE, R. S. Increasing the efficiency of fuzzy logic-based gene expression data analysis. Physiological Genomics, Stanford University - CA, v. 2, n. 13, p. 107-117, 16 de Abril de 2003. RIBEIRO, Rita A. & MOREIRA, Ana M. Fuzzy Query Interface for a Business Database. International Journal of Human-Computer Studies, V. 58 , N. 4 p. 363-391, Abril de 2003. ROBIN, Jacques; BEZERRA, Ricardo. Descoberta de Conhecimento em BD. Disponvel em: <www.di.ufpe.br/~compint/aulas-IAS/DCBD-991/DCBD.ppt >. Acesso em: 13/08/2003. ROSS, Timothy J. Fuzzy Logic with Engeneering Applications. USA: McGraw-Hill, 1995.

www.pusivus.com.br

79

ROYES, Gleiber F. Plataforma Hbrida Fuzzy-Multicritrio-RBC para o Apoio

Anlise de Polticas. Florianpolis, 2003, 195p. Tese (Doutorado em Cincia da


Computao) Programa de Ps-Graduao em Cincia da Computao da Universidade Federal de Santa Catarina. SANDRI, Sandra; CORREA, Cludio. Lgica Nebulosa. In: V Escola de Redes Neurais, Promoo - Conselho Nacional de Redes Neurais. p. c073-c090, 19 de julho- ITA, So Jos dos Campos - SP, 1999. SAVASARE, A.; OMIECINSKI, E.; NAVATHE, S. Mining for Strong Negative

Associations in a Large Database of Customer Transactions. In: 14th


International Conference on Data Engineering, Florida, 494-502, 1998. SCREMIN, Marcos A. A. Mtodo para a Seleo do Nmero de Componentes

Principais com Base na Lgica Difusa. Florianpolis, 2003, 124p. Tese


(Doutorado em Engenharia de Produo) Programa de Ps-Graduao em Engenharia de Produo Universidade Federal de Santa Catarina. SOUZA, Flvio J. de. Modelos Neuro-Fuzzy Hierrquicos. Tese de Doutorado, DEEPUC/RJ, 29 de abril de 1999. SRIKANT, R., VU, Q. and AGRAWAL, R. Mining association rules with item

constraints. KDD-97, 1997, pp. 67-73.


STURM, Ulrike et al. Anlise da Ocupao em reas de Preservao Permanente

na rea Urbana do Municpio de Matinhos Utilizando a Imagem Ikonos II. In:


III Colquio Brasileiro de Cincias Geodsicas Novos Desenvolvimentos em Cincias Geodsicas, Curitiba, 06 a 09 de maio de 2003. TANSCHEIT, Ricardo. Lgica difusa, Raciocnio Aproximado e Mecanismo de

Inferncia. Disponvel em: <http://www.ica.ele.puc-rio.br/cursos/download/LNLogica_Controle_Fuzzy.pdf>. Acesso em: 28/08/2003. YAGER, R. R. et al. Fuzzy Sets and Applications: Selected Papers by L. A. Zadeh. USA: John Willey & Sons, 1987. ZADEH, L. A., Fuzzy Sets, Inf. Control 8, 338-353, 1965. VELOSO, A. et. al. Minerao Incremental de Regras de Associao. In: XVI Simpsio Brasileiro de Banco de Dados. IME Rio de Janeiro, p. 80-94, 2001.

www.pusivus.com.br

80

WOOLF, Peter J.; WANG, Yixin. A fuzzy logic approach to analyzing gene expression data. Physiological Genomics, Stanford University - CA, v. 1, n. 3, p. 9-15, Abril, 2000.

www.pusivus.com.br

81

Apndice A: Funes de pertinncia Utilizadas na Pesquisa.


Neste apndice so apresentadas as funes de pertinncia usadas para a realizao dos testes. As figuras de B.1 a B.8 mostram os grficos de cada funo utilizada para fazer os experimentos.

Figura B.1: Funo L (TD).

Figura B.2: Funo Gama (TE).

Figura B.3: Funo triangular.

Figura B.4: Funo trapezoidal.

Figura B.5: Funo PI.

Figura B.6: Funo Z.

www.pusivus.com.br

82

Figura B.7: Funo Sigmoidal.

Figura B.8: Funo sino.

A Tabela B.1 mostra os resultados obtidos para cada conjunto de parmetros, com as entradas FRA = 0,52, FRE = 0,36 e FRO = 0,28.

www.pusivus.com.br

83

Tabela B.1: Intervalos usados para os testes iniciais, valores entre 0 e 100

Conjuntos Baixa Funo Intervalo


L(TD) 0,10,40 0,15,45 0,10,35 0,10,30 0,10,40 0,10,30 0,10,30 0,10,30 0,10,30 0,10,40 0,10,30 0,10,30 0,10,40 0,10,40 0,10,30 0,10,40 0,10,30 0,10,30 0,10,30 0,10,40 0,10,30 0,10,30 0,10,30 0,10,30 0,10,30 0,10,30 0,10,30 0,10,30 0,10,30 0,10,40 0,10,40 0,15,35 0,10,40 0,10,40 0,10,40 0,10,40 0,10,40 0,10,40 0,10,40 0,10,40

Moderada Funo Intervalo


Triangular 10,40,60 15,45,65 10,35,55 10,35,60 10,40,70 10,30,60 10,30,60 10,30,60 10,30,60 10,40,70 10,30,40,60 10,20,30,60 10,35,45,70 10,35,45,70 35,15 40,30 30,15 30,18 30,19 40,30 10,18,38,60 10,19,39,60 10,29,39,60 10,30,40,60 10,35,55,75 10,30,50,70 10,30,50,60 10,25,45,70 10,25,45,60 10,35,45,70 10,35,45,70 10,30,60 10,40,70 10,40,70 10,35,45,70 10,35,45,70 40,30 40,30 10,35,45,70 10,35,45,70

Alta Funo
TE

Intervalo
40,70,100 45,75,100 35,65,100 35,70,100 40,70,100 70,36 70,40 70,45 60,41 70,30 30,60,100 30,60,100 40,70,100 70,30 30,60,100 40,70,100 60,30 60,30 60,30 70,30 30,60,100 30,60,100 30,60,100 30,60,100 30,60,100 30,60,100 30,60,100 30,60,100 30,60,100 40,70,100 70,30 30,60,100 40,70,100 70,30 40,70,100 70,30 40,70,100 70,30 40,70,100 70,30

Sig

Trapzio

TE

Pi

Sig TE
Sig

Sino

TE

Triangular Trapzio Pi Sino

Sig TE Sig TE Sig TE Sig TE Sig

Resultado MDCAR Num rico -0,06 Rmod -0,37 Abaixa -0,09 Amod -0,07 Abaixa Rbaixa -0,11 -0,07 Rmod -0,05 Abaixa 0,04 Amod -0,10 Abaixa Rbaixa -0,12 -0,11 Amod -0,11 Abaixa Rbaixa -0,11 Rbaixa -0,13 -0,09 Rmod Rbaixa -0,11 -0,10 Abaixa -0,12 Amod -0,12 Abaixa Rbaixa -0,12 -0,11 Rmod -0,11 Abaixa -0,11 Amod -0,11 Abaixa 0,13 Rbaixa 0,15 Rbaixa 0,15 Rbaixa -0,11 Amod -0,11 Abaixa Rbaixa -0,11 -0,13 Rbaixa -0,11 Abaixa Rbaixa -0,11 Rbaixa -0,12 Rbaixa -0,11 Rbaixa -0,13 Rbaixa -0,11 Rbaixa -0,12 Rbaixa -0,11 Rbaixa -0,13

www.pusivus.com.br

84

Apndice B: Grficos e Tabelas Obtidas Durante os Experimentos.


Neste apndice apresentado um conjunto de grficos e tabelas que foram empregados ao longo da documentao.

Figura C.1: Resultados da etapa de classificao para composio Min.

Figura C.2: Resultados da etapa de classificao para composio Prod.

Os campos das tabelas apresentadas a seguir tm os seguintes significados:

www.pusivus.com.br

85

TABELA tabela usada para o teste que se encontra no CD em anexo e descrito no Apndice A; DIFNUMRICO diferena entre a sada numrico do MDCAR e a medida de referncia, lift.

Tabela C.1: Resultados do modelo Mamdani com composio Min TABELA DIFNUMRICO TDTRITE.dbf 0,124 TDTRISIG.dbf 0,124 TDTRATE.dbf 0,134 TDTRASIG.dbf 0,134 TDPITE.dbf 0,127 TDPISIG.dbf 0,126 TDSITE.dbf 0,136 TDSISIG.dbf 0,136 ZETRITE.dbf 0,126 ZETRISIG.dbf 0,126 ZETRATE.dbf 0,136 ZETRASIG.dbf 0,136 ZEPITE.dbf 0,139 ZEPISIG.dbf 0,139 ZESITE.dbf 0,129 ZESISIG.dbf 0,129

Figura C.3: Resultados do modelo Mamdani com composio Min.

Tabela C.2: Resultados do modelo Mamdani com composio Prod TABELA DIFNUMRICO TDTRITE.dbf 0,123 TDTRISIG.dbf 0,123 TDTRATE.dbf 0,27 TDTRASIG.dbf 0,128 TDPITE.dbf 0,125 TDPISIG.dbf 0,124 TDSITE.dbf 0,131 TDSISIG.dbf 0,131 ZETRITE.dbf 0,124 ZETRISIG.dbf 0,124 ZETRATE.dbf 0,130 ZETRASIG.dbf 0,130 ZEPITE.dbf 0,127 ZEPISIG.dbf 0,126 ZESITE.dbf 0,134 ZESISIG.dbf 0,135

Figura C.4: Resultados do modelo Mamdani com composio Prod.

www.pusivus.com.br

86

Tabela C.3: Resultados do modelo Takagi-Sugeno com composio Min TABELA DIFNUMRICO TDTRITE.dbf 0,094 TDTRISIG.dbf 0,094 TDTRATE.dbf 0,096 TDTRASIG.dbf 0,098 TDPITE.dbf 0,087 TDPISIG.dbf 0,089 TDSITE.dbf 0,089 TDSISIG.dbf 0,092 ZETRITE.dbf 0,095 ZETRISIG.dbf 0,098 ZETRATE.dbf 0,097 ZETRASIG.dbf 0,100 ZEPITE.dbf 0,088 ZEPISIG.dbf 0,090 ZESITE.dbf 0,090 ZESISIG.dbf 0,093

Figura C.5: Resultados do modelo Takagi-Sugeno com composio Min.

Tabela C.4: Resultados do modelo Takagi-Sugeno com composio Prod TABELA DIFNUMRICO TDTRITE.dbf 0,094 TDTRISIG.dbf 0,096 TDTRATE.dbf 0,097 TDTRASIG.dbf 0,098 TDPITE.dbf 0,088 TDPISIG.dbf 0,091 TDSITE.dbf 0,090 TDSISIG.dbf 0,093 ZETRITE.dbf 0,095 ZETRISIG.dbf 0,098 ZETRATE.dbf 0,098 ZETRASIG.dbf 0,100 ZEPITE.dbf 0,089 ZEPISIG.dbf 0,092 ZESITE.dbf 0,092 ZESISIG.dbf 0,094

Figura C.6: Resultados do modelo Takagi-Sugeno com composio Prod.

www.pusivus.com.br

87

Tabela C.5: Resultados do modelo Tsukamoto com composio Min TABELA DIFNUMRICO TDTRITE.dbf 0,100 TDTRISIG.dbf 0,101 TDTRATE.dbf 0,094 TDTRASIG.dbf 0,096 TDPITE.dbf 0,122 TDPISIG.dbf 0,127 TDSITE.dbf 0,115 TDSISIG.dbf 0,120 ZETRITE.dbf 0,101 ZETRISIG.dbf 0,103 ZETRATE.dbf 0,094 ZETRASIG.dbf 0,099 ZEPITE.dbf 0,125 ZEPISIG.dbf 0,131 ZESITE.dbf 0,119 ZESISIG.dbf 0,222 Figura C.7: Resultados do modelo Tsukamoto com composio Min.

Tabela C.6: Resultados do modelo Tsukamoto com composio Prod TABELA DIFNUMRICO TDTRITE.dbf 0,115 TDTRISIG.dbf 0,115 TDTRATE.dbf 0,105 TDTRASIG.dbf 0,107 TDPITE.dbf 0,138 TDPISIG.dbf 0,141 TDSITE.dbf 0,127 TDSISIG.dbf 0,130 ZETRITE.dbf 0,115 ZETRISIG.dbf 0,117 ZETRATE.dbf 0,107 ZETRASIG.dbf 0,110 ZEPITE.dbf 0,139 ZEPISIG.dbf 0,143 ZESITE.dbf 0,130 ZESISIG.dbf 0,134

Figura C.8: Resultados do modelo Tsukamoto com composio Prod.

www.pusivus.com.br

88

Figura C.9: Comparao entre composio Min e Prod para o modelo de Mamdani.

Figura C.10: Comparao entre composio Min e Prod para o modelo de Takagi-Sugeno.

Figura C.11: Comparao entre composio Min e Prod para o modelo de Tsukamoto.

www.pusivus.com.br

89

Figura C.12: Comparao entre Mamdani, Takagi-Sugeno e Tsukamoto com composio Min.

Figura C.13: Comparao entre Mamdani, Takagi-Sugeno e Tsukamoto com composio Prod.

Figura C.14: Comparao entre Mamdani e Takagi-Sugeno com composio Min.

www.pusivus.com.br

90

Figura C.15: Comparao entre Tsukamoto e Takagi-Sugeno com composio Min.

Figura C.16: Comparao entre Mamdani e Takagi-Sugeno com composio Prod.

Figura C.17: Comparao entre Tsukamoto e Takagi-Sugeno com composio Prod.

www.pusivus.com.br

91

Apndice C: Grficos das Combinaes de Funes Usadas nesta Pesquisa


Neste apndice so apresentados os grficos das combinaes de funes utilizadas durante os testes realizados nesta pesquisa.

Figura D.1: Combinao 1 (Ver Tabela 4.6).

Figura D.2: Combinao 2 (Ver Tabela 4.6).

Figura D.3: Combinao 3 (Ver Tabela 4.6).

Figura D.4: Combinao 4 (Ver Tabela 4.6).

www.pusivus.com.br

92

Figura D.5: Combinao 5 (Ver Tabela 4.6).

Figura D.6: Combinao 6 (Ver Tabela 4.6).

Figura D.7: Combinao 7 (Ver Tabela 4.6).

Figura D.8: Combinao 8 (Ver Tabela 4.6).

Figura D.9: Combinao 9 (Ver Tabela 4.6).

Figura D.10: Combinao 10 (Ver Tabela 4.6).

www.pusivus.com.br

93

Figura D.11: Combinao 11 (Ver Tabela 4.6).

Figura D.12: Combinao 12 (Ver Tabela 4.6).

Figura D.13: Combinao 13 (Ver Tabela 4.6).

Figura D.14: Combinao 14 (Ver Tabela 4.6).

Figura D.15: Combinao 15 (Ver Tabela 4.6).

Figura D.16: Combinao 16 (Ver Tabela 4.6).

www.pusivus.com.br