Algoritmos

Algoritmos
Autor: Alisson Patrick Maximino
Centro Universitrio Baro de Mau Curso de Bacharelado em Cincia da Computao
COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS
Alisson Patrick Maximino
Ribeiro Preto 2007 Alisson Patrick Maximino
COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS
Orientador: Prof. Dr. Paulo Eduardo Ambrsio
Ribeiro Preto 2007 Monografia apresentada ao Curso de Cincia da Computao do Centro Universitrio Baro de Mau, como parte dos requisitos para obteno do ttulo de Bacharel em Cincia da Computao.
Dedicatria
Aos meus pais, minha amada Me Marli, meu amado Pai Vanderlei e minha amada Av Floripes, pessoas maravilhosas, batalhadoras, minha fonte maior de inspirao, cuidaram e doaram incondicionalmente seu sangue e suor em forma de amor e trabalho por mim, a minha grande e maravilhosa companheira Juliana, que me deram apoio e carinho nos momentos mais difceis durante esses anos dedicados aos estudos,
Agradecimentos
Primeiramente Deus, dedico o meu agradecimento maior, porque tm sido tudo em minha vida, o maior responsvel por este grande sonho que se realiza.
todos professores(as), que conseguiram transmitir o seu conhecimento, contribuindo para minha sabedoria, e para meu crescimento pessoal e profissional, em especial ao professor Dr. Paulo Ambrsio, pela pacincia e dedicao, e todos aqueles(as) que cruzaram em minha vida, participando de alguma forma construtiva.
Aos meus grandes amigos e companheiros, Roger e Flvio, que sempre me incentivaram e proporcionaram momentos de lazer, imprescindveis ao bom andamento desses 4 anos de estudos.
Resumo
A classificao de padres, neste caso, para diversos tipos de patologias, doenas aplicadas ao pulmo, podem ser classificadas por um profissional, como um mdico, onde, atravs de seu vasto conhecimento e estudo, capaz de analisar e identificar uma doena especifica. A partir da rea de estudo de Inteligncia Artificial, e utilizando os conceitos e tcnicas de aprendizado de mquina, no qual, existem diversos tipos de algoritmos de aprendizado de mquina que podem ser utilizados na classificao de padres. Na prtica, difcil saber qual tipo de algoritmo utilizar para cada problema. Os diversos sistemas de aprendizado de mquina possuem caractersticas particulares e comuns que possibilitam sua classificao quanto linguagem de descrio, modo, paradigma e forma de aprendizado utilizado. O objetivo principal desse trabalho realizar um estudo sobre alguns dos principais algoritmos de aprendizado de mquina, dentre eles, algoritmos de induo, de regras de deciso, redes neurais artificiais, algoritmos baseados em mtodos estatsticos, e outros, onde
sero realizadas comparaes de desempenho sobre resultados obtidos pelos algoritmos.
Palavras-chave: Aprendizado de mquina, Algoritmos, Minerao de Dados, Base de Dados, Resultados. Abstract
The pattern classification, in this case, for several kinds of pathologies, lung related diseases may be classified by a physian, where through his or her vast knowledge and study, is capable of analyzing and spotting a specific disease. Starting from the Artificial Intelligence field, and using the concepts and learning techniques of machines, in which, there are several types of learning algorithms of machines that can be used in pattern classification. In practice, it is hard to know what kind of algorithm to use for each problem. The different learning systems of machines bear particular and common characteristics, which make their classification possible as to description language, manner, paradigm and the learning method used. The main goal of the present study is to carry out a study on some of the principal learning algorithm of machine, among them, induction algorithms, decision rules, artificial neural nets, algorithms based on statistical methods, and others, where performance comparisons will be carried out over the results obtained by algorithms.
Keywords: Learning Machine, Algorithms, Data Mining, Database, Results.
Lista de Figuras Figura 1.1 Hierarquia do aprendizado. ..................................................................................... 16 Figura 2.1 Redes Neurais. ........................................................................................................ 19
Figura 2.2 rvores de Deciso. ................................................................................................ 21 Figura 2.3 Processo KDD......................................................................................................... 24 Figura 2.4 Tela inicial do WEKA............................................................................................. 26 Figura 2.5 Tela do Pr-Processo............................................................................................... 27 Figura 2.6 Tela de Classificao. ............................................................................................. 28 Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos..................................................... 32 Figura 3.2 Exemplo extrado da base de dados. ....................................................................... 34 Figura 3.3 Grfico em (%) de Acerto com Cross-Validation................................................... 36 Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation. ....................... 36 Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.................................... 37 Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out. .................................................... 38 Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out........................... 39 Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out...................................... 40 Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation. ..................................... 41 Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out...................................... 41 Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation. ................................... 42 Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out. ..................................... 42 Figura 3.13 Matriz Confuso C4.5 Cross-Validation............................................................... 43 Figura 3.14 Matriz Confuso C4.5 Leave-One-Out. ................................................................ 43 Figura 3.15 Matriz Confuso ZEROR Cross-Validation......................................................... 44 Figura 3.16 Matriz Confuso ZEROR Leave-One-Out............................................................ 44 Figura 3.17 Matriz Confuso ONER Cross-Validation. .......................................................... 45 Figura 3.18 Matriz Confuso ONE Leave-One-Out. ............................................................... 45 Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation............................................. 46 Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out. .............................................. 46
Lista de Tabelas
Tabela 1 Estrutura do arquivo ARRF. ...................................................................................... 29 Tabela 2 Relao das patologias investigadas. ......................................................................... 30 Tabela 3 (%) de Acerto com Cross-Validation. ....................................................................... 35 Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation. ............................................. 36 Tabela 5 (s) Tempo de Execuo com Cross-Validation. ........................................................ 37 Tabela 6 (%) de Acerto com Leave-One-Out........................................................................... 38 Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out. ............................................... 39 Tabela 8 (s) Tempo de Execuo com Leave-One-Out. .......................................................... 39
Lista de Siglas AM: Aprendizado de Mquina IA: Inteligncia Artificial KDD: Knowledge Discovery in Databases GPL: General Public Licence WEKA: Waikato Environment for Knowledge Analysis
Sumrio
INTRODUO........................................................................................................................ 25 1 APRENDIZADO.............................................................................................................. 13 1.1 A HIERARQUIA DE APRENDIZADO.................................................................. 13 1.2 PARADIGMAS DE APRENDIZADO .................................................................... 14 1.3 TCNICAS DE VALIDAO................................................................................ 16 1.3.1 CROSS-VALIDATION ................................................................................... 16 1.3.2 LEAVE-ONE-OUT .......................................................................................... 17 2 APRENDIZADO DE MQUINA ................................................................................... 18
2.1 REDES NEURAIS ................................................................................................... 18 2.2 RVORES DE DECISO....................................................................................... 20 2.3 C4.5 .......................................................................................................................... 21 2.4 ZERO RULE (ZEROR) ........................................................................................... 22 2.5 ONE RULE (ONER) ................................................................................................ 22 2.6 REDE BAYESIANA................................................................................................ 22 2.7 INTRODUO MINERAO DE DADOS ..................................................... 23 2.8 WEKA ...................................................................................................................... 24 2.8.1 AMBIENTE EXPLORER DO WEKA ............................................................ 25 2.8.2 AMBIENTE EXPLORER - PR-PROCESSO................................................ 26 2.8.3 AMBIENTE EXPLORER - CLASSIFICAO ............................................. 27 2.8.4 ARQUIVO ARRF ............................................................................................ 28 3 DESENVOLVIMENTO PRTICO ................................................................................ 30 3.1 LEVANTAMENTOS DE DADOS.......................................................................... 30 3.2 PARMETROS CLNICOS E RADIOLGICOS ................................................. 31 3.3 DADOS COLETADOS............................................................................................ 34 3.4 BASE DE DADOS PARA TREINAMENTO E TESTES....................................... 34 3.5 RESULTADOS OBTIDOS POR CADA ALGORITMO........................................ 34 3.5.1 RESULTADOS OBTIDOS - CROSS-VALIDATION.................................... 35 3.5.2 RESULTADOS OBTIDOS - LEAVE-ONE-OUT .......................................... 37 3.5.3 REDES NEURAIS (MLP) - CROSS-VALIDATION ..................................... 40 3.5.4 REDES NEURAIS (MLP) - LEAVE-ONE-OUT............................................ 41 3.5.5 REDES NEURAIS (RBF) - CROSS-VALIDATION...................................... 41 3.5.6 REDES NEURAIS (RBF) - LEAVE-ONE-OUT ............................................ 42 3.5.7 C4.5 - CROSS - VALIDATION ...................................................................... 42 3.5.8 C4.5 - LEAVE-ONE-OUT ............................................................................... 43 3.5.9 ZEROR - CROSS-VALIDATION ................................................................... 43
3.5.10 ZEROR - LEAVE-ONE-OUT ......................................................................... 44 3.5.11 ONER - CROSS-VALIDATION ..................................................................... 44 3.5.12 ONER - ONE-LEAVE-OUT............................................................................ 45 3.5.13 REDE BAYESIANA - CROSS-VALIDATION ............................................. 45 3.5.14 REDE BAYESIANA - LEAVE-ONE-OUT .................................................... 46 CONCLUSES ........................................................................................................................ 47 REFERNCIAS BIBLIOGRFICAS ..................................................................................... 48 INTRODUO Nos ltimos anos a informtica tem se apresentado como um fator significativo no dia-a-dia das pessoas, causando assim mudanas marcantes no modo de viver. O computador tem sido de grande influncia em diversas reas de atuao, quer no emprego, em casa, centros de pesquisas ou diversas reas de estudos, est relacionado a constantes melhorias em qualidade e desempenho, e, atravs de sua rpida evoluo surgem cada vez mais equipamentos cada vez menores e mais acessveis. Atravs deste crescimento computacional, ocorre uma intensificao de estudos cientficos sobre o assunto, como ferramenta de auxlio para todas as demais cincias. O conceito de Aprendizado de Mquina representa parte desta interao como uma forma de extrao de conhecimento, ou seja, uma forma de aprendizado realizado por um computador com o objetivo de obter comportamentos computacionalmente inteligentes, por exemplo o reconhecimento de padres. Especificamente na Medicina, os computadores podem ser utilizados como ferramenta de auxlio tomada de decises, como por exemplo, em sistemas de apoio ao diagnstico, os quais tm como principal objetivo auxiliar o profissional da rea no processo de tomada de decises. Para um mdico, diagnosticar certa doena, com base nos sintomas, exames, bem
mais simples, devido ao conhecimento, ou seja, o poder do ser humano relacionado alta capacidade de aprendizagem, e recursos a serem utilizados. Agora, utilizar um sistema com base em Aprendizado de Mquina que realize com mesmo grau de eficincia no processo de diagnosticar, no uma tarefa to simples. O objetivo deste trabalho a realizao de estudos sobre algoritmos de aprendizado de mquina, aplicados a uma base de dados mdicos, e utilizando a biblioteca de algoritmos WEKA (biblioteca gratuita de minerao de dados, que possui suporte a vrios algoritmos, que ser apresentada com mais detalhe no capitulo 2). Os resultados obtidos pelos algoritmos de classificao de padres, nem sempre apresentam o mesmo grau de eficincia, ou melhor, podem-se obter resultados variados, tendo a viso de qual dos algoritmos utilizados tiveram um melhor desempenho durante a sua execuo.
13 1 APRENDIZADO Os seres humanos possuem varias habilidades, destacando a capacidade de aprender, tal assunto, ao longo dos anos tornaram-se grande alvo para a realizao de pesquisas. Os homens e alguns animais possuem essa capacidade de aprendizagem muito evoluda. Eles adquirem aprendizagem com base na experincia, aprendem ouvindo, aprendem aumentando a capacidade do conhecimento que j possuem, atravs de acontecimentos sucessivos. Pode-se considerar o
aprendizado um processo complexo, no apenas por reunir diversas habilidades e reas de conhecimento, mas tambm por reunir diferentes nveis de abstrao, no qual, podemos encontrar varias definies sobre o processo de aprendizado (AMBRSIO, 2002).
O aprendizado descrito como o processo atravs do qual um sistema melhora o seu desempenho (SIMON, 1983 apud AMBRSIO, 2002). Esta melhoria no desempenho pode ocorrer devido aplicao de novos mtodos e conhecimentos, podendo tambm ocorrer atravs do aperfeioamento dos mtodos e conhecimentos existentes, tornando-os mais rpidos e precisos. 1.1 A HIERARQUIA DE APRENDIZADO O conhecimento sobre um determinado problema ou situao pode ser interpretado de varias formas. A induo a forma lgica, do qual, podem-se tirar concluses incertas sobre conjuntos de exemplos em questo. A induo caracterizada como um raciocnio obtido de forma generalizada atravs de um conceito especfico, onde esse conceito pode ser aprendido atravs da utilizao indutiva partir de exemplos citados.As possveis hipteses adquiridas pela induo podem ou no estarem corretas (MONARD, 2002). Segundo Monard (2002), Foi atravs da induo que Arquimedes descobriu a primeira lei da hidrosttica e princpio da alavanca, que Kepler descobriu as leis do movimento planetrio, que Darwin descobriu as leis da seleo natural das espcies. A induo uma das formas de se obter um novo conhecimento mais utilizado pelo crebro humano, no qual, deve-se ter cuidado em utilizar, pois, se os exemplos a serem
escolhidos no forem os mais adequados, a hiptese resultante pode no ser verdadeira. Os 14 sistemas de aprendizado podem ser classificados em duas grandes categorias (BARANAUSKAS, 2001): Sistemas tipo caixa preta que desenvolvem sua prpria representao do conceito, isto , sua representao interna pode no ser facilmente interpretada por humanos e no fornecem nem esclarecimento, nem explicao do processo de reconhecimento. Sistemas orientados a conhecimento que objetivam a criao de estruturas simblicas que sejam compreensveis por humanos.
1.2 PARADIGMAS DE APRENDIZADO O aprendizado de mquina pode ser implementado seguindo diferentes paradigmas. Uma das classificaes adotadas separa os paradigmas em: Simblico, Estatstico, Baseado em Exemplos, Conexionista e Gentico (BARANAUSKAS, 2001):
Simblico - Sistemas simblicos de Aprendizado de Mquina podem ser classificados com base na linguagem de representao de exemplos utilizados, de forma simblica. Estes smbolos podem ser representados de forma lgica, seja ela, utilizando rvore de deciso, regras ou rede semntica.
Estatstico - Estudiosos da rea de Estatstica vem desenvolvendo variados mtodos de classificao, tendo uma grande semelhana com sistemas de aprendizado de mquina. Tais estudiosos tm como objetivo utilizar modelos estatsticos para encontrar solues parecidas com a forma indutiva de conhecimento. Alguns autores consideram Redes Neurais e aprendizado Bayesiano, como mtodos estatsticos semi-paramtricos.
Baseado em Exemplos - Uma forma de classificar um exemplo lembrar-se de outro similar cuja classe conhecida e assumir que o novo exemplo ter a mesma classe. Essa filosofia exemplifica os sistemas baseados em exemplos, que classificam exemplos nunca vistos atravs de exemplos similares conhecidos. 15
Conexionista - No aprendizado conexionista baseia-se nos estudos de Redes Neurais, tal sistema similar ao modelo biolgico do sistema nervoso do ser humano. No se procura obter regras como na abordagem simblica da Inteligncia Artificial, mas determinar a intensidade de conexes entre neurnios.
Gentico De acordo com Baranauskas (2001) Um classificador gentico consiste de uma populao de elementos de classificao que competem para fazer a predio. Elementos mais fortes sobrevivem, e os mais fracos so descartados, produzindo variaes de si mesmo. O paradigma gentico esta relacionado diretamente com a teoria de Darwin, na qual sobrevivem os mais bem adaptados ao ambiente.
Por meio dos paradigmas citados, a aprendizagem pode ser classificada em dois tipos: aprendizado supervisionado e aprendizado no supervisionado. Aprendizado supervisionado - Definido tambm como aprendizagem com um professor, passando valores necessrios de entrada ao sistema, como a presena de um elemento externo supervisor que fornece as informaes, ou seja, atravs dessa informao ocorre superviso, onde, o sistema poder verificar a sada, a resposta esperada para que assim verifique o quanto errou durante o processo, para que possa aprender com esse erro (AMBRSIO, 2002).
Aprendizado no-supervisionado - Diferente da aprendizagem supervisionada, no depende do elemento (professor) para que possa realizar a superviso para o processo de aprendizagem (AMBRSIO, 2002).
Na Figura 1.1 ilustrado o processo de aprendizagem, aps realizar o aprendizado, sendo supervisionado ou no supervisionado, at chegar classificao, onde, poder se obter resultados, como objetivo principal deste trabalho.
16
Figura 1.1 Hierarquia do aprendizado. Fonte: Adaptado de MONARD, 2002. 1.3 TCNICAS DE VALIDAO As tcnicas de validao so fundamentais para que as execues com classificadores, ou seja, o algoritmo em questo possa ocorrer, pois, a maneira de como se validar o mesmo referenciado a essas tcnicas. Dentre as vrias opes de validao disponveis no Software WEKA, foram escolhidas duas tcnicas para validar os testes realizados neste trabalho, validao por CrossValidation e Leave-One-Out, sendo elas brevemente descritas a seguir: 1.3.1 CROSS-VALIDATION Cross-Validation em r-fold - CV. Os exemplos so aleatoriamente divididos em r parties mutuamente exclusivas (folds) de tamanho aproximadamente igual a n/r exemplos. Os exemplos nos (r-1) folds so usados para treinamento e a hiptese induzida testada no fold diferente para teste. O erro na Cross-Validation a mdia dos erros calculados em cada um dos r
folds (MONARD, 2002).
17 1.3.2 LEAVE-ONE-OUT Leave-One-Out um caso especial de Cross-Validation. computacionalmente dispendioso e frequentemente usado em amostras pequenas. Para uma amostra de tamanho n uma hiptese induzida utilizando (n1) exemplos; a hiptese ento testada no nico exemplo remanescente. Este processo repetido n vezes, cada vez induzindo uma hiptese deixando de considerar um nico exemplo. O erro a soma dos erros em cada teste dividido por n (MONARD, 2002).
18 2 APRENDIZADO DE MQUINA Aprendizado de Mquina - AM, pertence rea de IA, tem como objetivo principal desenvolver tcnicas computacionais como relao ao aprendizado desenvolver sistemas com a misso de obter conhecimento de forma automtica. Define-se sistema de aprendizado, como um programa de computador, sendo capaz de tomar decises com base de experincias realizadas atravs da soluo bem sucedida de problemas anteriores. Para simplificar o entendimento, aprendizado de mquina, uma tcnica utilizada para obter um novo conhecimento automtico, aplicado em um computador, esse processo utiliza os algoritmos de AM, para realizar o aprendizado de forma computacional (MITCHELL, 1997). Desde a inveno dos computadores, o ser humano teve a curiosidade de saber se a inveno foi feita para aprender, e tambm compreender como os programar para obter um melhor aprendizado sobre o mesmo. Os algoritmos para a aprendizagem de mquina nos auxiliam a uma melhor compreenso como habilidades de aprendizagem humanas (MITCHELL, 1997). Conforme Carvalho (2001) Os algoritmos de aprendizado de mquina so muito interessantes, pois, alm de modelarem bem os dados, permitindo previses e classificaes. Por meio dessa teoria de aprendizagem de mquina sero respondidas perguntas de como ser realizado aprendizagem e o desempenho variando dos treinamentos apresentados, e, se os
algoritmos de aprendizagem so os mais apropriados para vrios tipos de formas de aprendizagem, visando saber qual algoritmo teve um melhor desempenho.
2.1 REDES NEURAIS Pode-se dizer que redes neurais artificiais consistem em um modo de abordar a soluo de problemas de inteligncia artificial. A aprendizagem de uma rede neural artificial ocorre atravs de um processo iterativo de correes e ajustes associados a suas conexes, pelo qual a rede vai aprendendo aos poucos a cada iterao realizada durante o processo de treinamento (AMBRSIO, 2002). Neste caso, ao invs de programar um computador de modo a faz-lo similar a um comportamento humano inteligente como, saber jogar xadrez, compreender e manter um dilogo, 19 resolver problemas matemticos, procura-se construir um sistema computacional que possa modelar circuitos de forma semelhante aos circuitos cerebrais humanos (BARRETO, 2002). Espera-se ver um comportamento inteligente, aprendendo novas tarefas, errando, fazendo generalizaes e descobertas, com caractersticas de um neurnio pertencente ao crebro humano. O algoritmo de treinamento conhecido como backpropagation, responsvel por fazer esses ajustes associados s conexes da rede, sendo a propagao para frente (feed forward) do sinal de entrada e propagao para trs (backpropagation) do erro da sada obtida em relao sada desejada (AMBRSIO, 2002). Da mesma forma, estes circuitos neurais artificiais podero se auto-organizar, quando apresentados em ambientes diversos, criando suas prprias representaes internas e apresentar
comportamentos imprevisveis. Neste trabalho utilizou-se duas redes neurais, a rede RBF (Radial Basis Function) aplicada normalmente em pequenas amostras devido a utilizao de funes em base radial, e a rede MLP (Multilayer Perceptron) rede neural de mltiplas camadas. Uma rede MLP possui a camada de entrada, as camadas intermedirias e a camada de sada, uma rede RBF possui apenas uma camada intermediria. Uma rede neural pode ter o treinamento supervisionado e no supervisionado (BARRETO, 2002). Um exemplo de uma rede neural MLP ilustrado na figura 2.1.
Figura 2.1 Redes Neurais. Fonte: TATIBANA e KAETSU, SD. 20 2.2 RVORES DE DECISO Dentre os vrios algoritmos utilizados em minerao de dados, destaca-se o algoritmo de rvore de deciso. Pode-se definir e representar uma rvore de deciso graficamente, ou seja, gerando uma estrutura na forma de uma rvore que ajuda na classificao e deciso a serem tomadas (JUSTINO, sd). O algoritmo de classificao por rvores de deciso um algoritmo supervisionado, ou seja, necessrio conhecer todos os registros, as informaes da base de dados utilizadas no treinamento (LPEZ & HERRERO, 2004). O processo de gerao da rvore, realizada pelo algoritmo inicia-se com a definio de quais so os elementos, ou seja, os valores da rvore. A figura 2.2, um exemplo de uma
estrutura de uma rvore de deciso. Para um fcil entendimento, a rvore constituda por um conjunto de ns que so conectados por ramificaes, que auxiliam na compreenso dos processos de ligao entre os ns. A estrutura bsica de uma rvore pode ser formada por trs tipos de ns: o n raiz, que representa o inicio da rvore, os ns comuns que dividem um determinado atributo e geram ramificaes e os ns folha que contm as informaes de classificao do algoritmo (PICHILIANI, 2006)..
21
Figura 2.2 rvores de Deciso. Fonte: Adaptado de BARANAUSKAS, 2002. 2.3 C4.5 O J48 o algoritmo mais conhecido do WEKA. Baseado na implementao do C 4.5 release 8, desenvolvido por Ross Quinlan, que gera uma rvore de deciso baseado em um conjunto de dados de treinamento, sendo que este modelo usado para classificar as instncias no conjunto de teste. A verso mais recente do algoritmo, disponibilizada apenas comercialmente, a C 5.0 (WITTEN & FRANK, 1999).
N Raiz N Comum N
Comum N Comum Ns Folhas Classificao Ns Folhas Classificao
Ns Folhas Classificao
Regra de Deciso Regra de Deciso Regra de Deciso
22 2.4 ZERO RULE (ZEROR) Este o algoritmo de aprendizagem mais antigos do software WEKA. Consiste em modelar uma base de dados com uma nica regra. Devido a essa caracterstica, o poder de desempenho deste algoritmo inferior aos demais. Para uma base de dados, onde ocorrer uma nova classificao, o algoritmo ZEROR prediz o valor de maior freqncia, nos dados de treinamento. O algoritmo ZEROR pode ser aplicado em problemas com valores nominais ou valor da classe comum para problemas numricos (WITTEN & FRANK, 1999).
2.5 ONE RULE (ONER) O algoritmo ONER um algoritmo que produz uma regra simples, pois, baseado em um nico atributo, assim como o ZEROR, possui baixo desempenho para os demais, mas, comparando os dois algoritmos, o ONER ao ser aplicado na base de dados de treinamento, consegue obter maior sucesso se referindo porcentagem de acertos. Este algoritmo leva um nico parmetro que o nmero mnimo de exemplos (WITTEN & FRANK, 1999).
2.6 REDE BAYESIANA Redes Bayesianas um algoritmo de aprendizado supervisionado, baseia-se no teorema de probabilidade de Bayes, tambm conhecido por classificador de Nave Bayes. Tem como objetivo calcular valores de probabilidade como predizer a classe mais provvel, onde se caracteriza como uma classificao estatstica, pois completamente baseada em probabilidades (PICHILIANI, 2006). A rede bayesiana considerada simples ou ingnua, segundo (PICHILIANI, 2006) ela considera que o efeito do valor de um atribudo sobre uma determinada classe independente dos valores dos outros atributos, o que simplifica os clculos envolvidos. O raciocnio Bayesiano fornece uma aproximao probabilstica de inferncia. As decises timas podem ser feitas analisando estas probabilidades junto aos dados utilizados. O raciocnio Bayesiano fornece a base para algoritmos de aprendizagem isso manipula diretamente probabilidades, como uma estrutura para analisar operao de outros algoritmos que no 23 manipulam explicitamente probabilidades. Os mtodos Bayesianos so importantes para nosso
estudo de aprendizado de mquina, no qual, fornecem uma perspectiva para compreenso de vrios algoritmos de aprendizagem que no manipulam explicitamente probabilidades (MITCHELL, 1997).
2.7 INTRODUO MINERAO DE DADOS A Minerao de Dados consiste no do processo de Extrao de Conhecimento de um grande volume de dados. A Extrao de Conhecimento definida por Fayyad et al. (1996) como: KDD (Knowledge Discovery in Databases) se refere ao processo global de escobrir conhecimento til de dados. E minerao de dados se refere a um passo particular neste processo. A minerao de dados a aplicao de algoritmos especficos para extrair padres de dados. O processo da utilizao de tcnicas de minerao de dados (data mining) vem sendo bastante utilizado em diversas reas como finanas, economia, biologia, astronomia, anlise de mercado, diagnsticos, entre outros, mas principalmente o seu crescimento aplicado rea de Cincia da Computao, denominada KDD. O processo de KDD combina tcnicas de aprendizado de mquina, conforme j citado neste trabalho, reconhecimento de padres, estatsticas, banco de dados e visualizao para extrair conhecimento (ou informao) de dados brutos, atravs da tcnica de minerao de dados. Carvalho (2001) define minerao de dados como o uso de tcnicas automticas de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho nu pelo ser humano. Destacam-se algoritmos como Redes Neurais, Algoritmos Genticos, baseados em estatsticas e Arvores de Decises. Pode-se dividir esse processo em algumas etapas (FAYYAD et al., 1996): Seleo Processamento Transformao Minerao dos dados Interpretao/Evoluo Os processos dessas etapas esto representados na figura 2.3, refere-se ao processo de preparao e seleo dos dados a serem analisados, padronizando o tipo, formato, e estrutura de tal, neste trabalho ser utilizado dados mdicos. Visa cumprir os objetivos definidos na etapa de identificao do problema, compreende o processo de escolha do algoritmo a ser utilizado para processar as informaes e extrair os padres propriamente ditos focado na transformao dos dados, representando os padres obtidos no processo da minerao de dados aplicado, obtendo-se a interpretao ou evoluo dos dados para o conhecimento.
Figura 2.3 Processo KDD. FONTE: FAYYAD et al., 1996.
2.8 WEKA Para aplicar a tcnica de minerao de dados foi utilizado o software de domnio pblico, um software livre que possui sua licena baseada na GPL (General Public Licence) denominado WEKA (Waikato Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelndia. O pacote WEKA consiste de uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Pode ser usado para aplicar mtodos de aprendizado a um conjunto de dados e analisar a sada para extrair informaes a partir dos dados de entrada. Todos os algoritmos so implementados em Java, tanto novos como aqueles prexistentes. Por exemplo, o indutor C 4.5, originalmente escrito em linguagem de programao C foi recodificado para linguagem Java, nomeado como J.48 (WITTEN & FRANK, 1999). Assim como os algoritmos contidos no WEKA, o prprio software foram escritos em linguagem Java, uma vez que esta linguagem est disponvel em varias plataformas como Windows, Linux e Macintosh, transformando assim, num software bastante portvel (WITTEN & FRANK, 1999). Neste trabalho ser utilizado o ambiente Explorer do WEKA, para a realizao dos testes, a seguir ser ilustrado imagens dos respectivos ambientes utilizados do software. 2.8.1 AMBIENTE EXPLORER DO WEKA Neste trabalho utilizado o ambiente Explorer do WEKA representada na figura 2.4, para a realizao dos testes, como abertura do arquivo da base de dados com extenso arff, a escolha dos algoritmos para os testes e a validao aplicada a eles, onde, se obter os resultados para a realizao de comparao de desempenho.
26
Figura 2.4 Tela inicial do WEKA.
2.8.2 AMBIENTE EXPLORER - PR-PROCESSO Nesta tela (Figura 2.5), ocorre a abertura do arquivo da base de dados, onde realizada a
identificao dos atributos e instncias da base por completo.
27
Figura 2.5 Tela do Pr-Processo.
2.8.3 AMBIENTE EXPLORER - CLASSIFICAO Aps a abertura da base de dados, utilizado o ambiente de classificao, onde acontece a escolha do classificador (Figura 2.6), ou seja, o algoritmo a ser executado e a tcnica de validao. Feito as escolhas dos requisitos, inicia-se o processo de execuo, onde ao final do processo o WEKA disponibiliza os resultados em porcentagem de erro e acerto, neste, caso representa os erros e acertos para classificao de certo tipo da doena esperada.
28
Figura 2.6 Tela de Classificao.
2.8.4 ARQUIVO ARRF
O WEKA utiliza arquivos de dados de treinamento, com formato (arff), onde devem ser mostradas quais variveis so permitidas para uma relao especfica, bem como o tipo de dado de cada varivel, isto , nominal ou valor numrico (Tabela 1). Dever conter uma lista de todos os atributos definindo-se o tipo do atributo ou os valores que ele pode representar. Os valores devem estar representados entre chaves {} e separados por vrgulas.
29 Tabela 1 Estrutura do arquivo ARRF.
@relation
Representa o conjunto de dados a ser analisado. @attribute
Define as caractersticas, ou seja, o tipo de cada varivel. O atributo pode ser do tipo: Nominal Booleano Numrico @data
a representao dos registros da base de dados. As informaes devem ser colocadas separadas por vrgulas, e cada linha representa um nico registro.
30 3 DESENVOLVIMENTO PRTICO O objetivo principal deste trabalho a utilizao de algoritmos de AM, para aplicao em dados mdicos, precisamente em um grupo de patologias classificadas como leses intersticiais pulmonares, obtendo resultados onde ser utilizado para comparao de desempenho entre os mesmos.
3.1 LEVANTAMENTOS DE DADOS Os dados utilizados foram retirados de (AMBRSIO, 2002), dentre varias doenas que podem ser classificadas no grupo das leses intersticiais pulmonares, totalizando mais de 180 diferentes doenas. Para realizar a escolha de quais seriam utilizadas como exemplo para o desenvolvimento do sistema, contou-se com a ajuda de um mdico especializado na rea, no qual, foram selecionadas as seguintes patologias:
Tabela 2 Relao das patologias investigadas.
Paracoccidioidomicose Fibrose Pulmonar Idioptica (IPF) Tuberculose Miliar Histoplasmose Sarcoidose Silicose Esclerose Sistmica (Escleroderma) Histiocitose X (Granuloma Eosinoflico) Linfangite Carcinomatosa 31 3.2 PARMETROS CLNICOS E RADIOLGICOS Em seguida, aps a escolha das patologias, tambm atravs do auxlio de um especialista, criou-se os principais parmetros a serem analisados no exame clnico e radiolgico que podem auxiliar no diagnstico diferencial, obtendo-se aos seguintes (AMBRSIO, 2002):
a) parmetros clnicos: idade do paciente; sexo; tempo de durao dos sintomas; constatao de estado febril; nvel de imunidade; relato de doena maligna; paciente fumante; relato de tratamentos com drogas; relato de exposio constante poeira; relato de exposio constante a antgenos orgnicos.
b) Parmetros radiolgicos: grau de leses apresentadas na rea superior, nas metades esquerda e direita; grau de leses apresentadas na rea mdia, nas metades esquerda e direita; grau de leses apresentadas na rea inferior, nas metades esquerda e direita; apresentao de padro proximal ou perifrico; homogeneidade das leses apresentadas; apresentao de padro fino ou grosseiro; apresentao de nodularidade; apresentao de linhas septais; apresentao de pulmo em favo de mel; verificao de perda de volume pulmonar; apresentao de linfadenopatia; apresentao de efuso pleural; 32 tamanho cardaco alterado. Com o conjunto de elementos, j bastante reduzidos, e analisados por um especialista, foi realizado a quantificao dos parmetros radiolgicos e o preenchimento do protocolo utilizado como entrada de dados para o sistema.
Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos. Fonte: Adaptado de AMBRSIO, 2002. 33
Os dados caracterizados como parmetros clnicos foram obtidos atravs do pronturio do paciente, adaptados e quantificados da seguinte maneira (AMBRSIO, 2002):
a) Idade: idade do paciente, em anos; b) Sexo: sexo do paciente, sendo o valor masc para sexo masculino e fem para sexo feminino; c) Durao dos sintomas: relatado pelo paciente, de 0 a 12 meses (relatos de mais de doze meses foram fixados no valor 12); d) Temperatura: observao de estado febril no momento do exame, sendo classificada com o valor febre, para a constatao de febre e valor normal para temperatura normal; e) Imunidade: valor normal para pacientes com imunidade normal e suprimido para os portadores de doenas do sistema imune; f) Doena maligna: relatado pelo paciente, sendo o valor sim para os pacientes portadores de doena maligna e nao caso contrrio; g) Fumante: relatado pelo paciente, sendo nao para no fumantes e sim para fumantes; h) Tratamento com drogas: pacientes com tratamento por drogas txicas foram classificados com o valor txico, pacientes tratados por drogas pouco txicas receberam o valor pouco_toxico, tratados com drogas no txicas valor nao_toxico, e pacientes que no receberam nenhum tratamento por drogas classificados com o valor nao; i) Exposio poeira: pacientes que relataram exposio constante poeira receberam valor sim, caso contrrio nao; j) Exposio a antgenos orgnicos: tambm relatada pelo paciente, exposio para qualquer tipo de antgeno orgnico recebeu o valor sim, e valor nao caso contrrio.
Os parmetros radiolgicos foram quantificados pelo profissional especializado com base na observao das imagens radiolgicas catalogadas tambm no pronturio do paciente. Essa quantificao foi realizada com valores inteiros no intervalo de 0 a 5 para todos os campos, 34 exceto o tamanho cardaco (intervalo de 1 a 5), sendo dado o valor 0 para a ausncia de leso, e valores maiores para o nvel (ou tamanho) da presena de leso. 3.3 DADOS COLETADOS Um total de 112 (cento e doze) casos das patologias investigadas, distribudos como: 22 casos de paracoccidioidomicose; 14 casos de histoplasmose; 17 casos de fibrose pulmonar idioptica; 20 casos de tuberculose miliar; 11 casos de sarcoidose; 12 casos de esclerodermia; 5 casos de silicose; 5 casos de histiocitose X; e 6 casos de linfangite carcinomatosa. 3.4 BASE DE DADOS PARA TREINAMENTO E TESTES Atravs dos dados coletados, criou-se uma base computacional, para a aplicao dos algoritmos. Cada um dos 112 registros dessa base (total de casos coletados) compe-se de uma cadeia de 27 valores para o protocolo de entrada, sendo eles 18 valores numricos e 9 entre nominais e booleanos, representando os 26 campos do protocolo de entrada, mais 1 valor para representar a sada esperada.
Figura 3.2 Exemplo extrado da base de dados. Fonte: Adaptado de AMBRSIO, 2002. 3.5 RESULTADOS OBTIDOS POR CADA ALGORITMO
A seguir sero ilustrados grficos mostrando o desempenho e tabelas com seus respectivos resultados em porcentagem de acerto e tempo de execuo para cada algoritmo com 35 validao Cross-Validation e Leave-One-Out, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) e o pior desempenho foi o Zero Rule. 3.5.1 RESULTADOS OBTIDOS - CROSS-VALIDATION Na Tabela 3, obteve-se o resultado em porcentagem de acerto para cada algoritmo com validao Cross-Validation, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) com 69,70% de acerto, 42,70% de erro absoluto relativo e 12,05 segundos em tempo de execuo e o que obteve o pior desempenho com execuo rpida foi o Zero Rule, com 19,60% de acerto, 100% de erro absoluto relativo e - segundos em tempo de execuo, assim como o algoritmo One Rule 28,60% de acerto, 82,50% de erro absoluto relativo e 0,03 segundos em tempo de execuo, tambm no obteve um bom desempenho de acerto, sendo o penltimo em termos de valor. Destaca-se os algoritmos Rede Neural (RBF) 46,40% de acerto, 61,90% de erro absoluto relativo e 37,8 segundos em tempo de execuo, Rede Bayesiana 57,10% de acerto, 56,99% de erro absoluto relativo e 0,13 segundos em tempo de execuo e o C 4.5 (J.48) 52,70% de acerto, 56,77% de erro absoluto relativo e 0,25 segundos em tempo de execuo, que obtiveram um bom desempenho. Os valores de desempenho esto representados no grfico da figura 3.3, onde cada algoritmo possui a sua respectiva cor fixada na legenda de cada grfico. Na tabela 3 esto os valores em % de acerto, tabela 4 valores de erro absoluto relativo e os valores de
tempo de execuo representados na tabela 5.
Tabela 3 (%) de Acerto com Cross-Validation.
Cross-Validation
Algoritmos (%) Acerto One Rule 28,60% Zero Rule 19,60% Rede Neural (MLP) 69,70% Rede Neural (RBF) 46,40% Rede Bayesiana 57,10% C 4.5 (J.48) 52,70%
36 28,60% 57,10% 19,60% 69,70% 46,40% 52,70% 0,00% 10,00% 20,00%
30,00% 40,00% 50,00% 60,00% 70,00% 80,00% Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.3 Grfico em (%) de Acerto com Cross-Validation.
Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation.
Cross-Validation
Algoritmos (%) Erro Absoluto Relativo One Rule 82,50% Zero Rule 100% Rede Neural (MLP) 42,70%
Rede Neural (RBF) 61,90% Rede Bayesiana 56,99% C 4.5 (J.48) 56,77%
82,50% 100% 42,70% 61,90% 56,99% 56,77% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% 90,00% 100,00% 1 Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF)
Rede Bayesiana C 4.5 (J.48)
Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation. 37
Tabela 5 (s) Tempo de Execuo com Cross-Validation.
Cross-Validation
Algoritmos (s) Tempo de Execuo One Rule 0,03 Zero Rule Rede Neural (MLP) 12,05 Rede Neural (RBF) 37,8 Rede Bayesiana 0,13 C 4.5 (J.48) 0,25
0,03 12,05 37,8 0,13 0,25 0 5 10 15 20
25 30 35 40 Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.
3.5.2 RESULTADOS OBTIDOS - LEAVE-ONE-OUT Na Tabela 4, obteve-se o resultado em porcentagem de acerto para cada algoritmo com validao Leave-One-Out, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) com 70,50% de acerto, 42,64% de erro absoluto relativo e 12,89 segundos em tempo de execuo e o que obteve o pior desempenho com execuo rpida foi o Zero Rule, com 19,60% de acerto, 100% de erro absoluto relativo e - segundos em tempo de execuo, assim como o algoritmo One Rule 24,10% de acerto, 87,10% de erro absoluto relativo e - segundos em tempo de execuo, tambm no obteve um bom desempenho de acerto, sendo o penltimo em
termos de valor. Destaca-se os algoritmos Rede Neural (RBF) 48,20% de acerto, 60,10% de erro absoluto relativo e 36,33 segundos em tempo de execuo, Rede Bayesiana 57,10% de acerto, 38 55,13% de erro absoluto relativo e - segundos em tempo de execuo e o C 4.5 (J.48) 50,90% de acerto, 57,33% de erro absoluto relativo e 0,05 segundos em tempo de execuo, que obtiveram um bom desempenho. Os valores de desempenho esto representados no grfico da figura 3.5, onde cada algoritmo possui a sua respectiva cor fixada na legenda de cada grfico. Na tabela 6 esto os valores em % de acerto, tabela 7 valores de erro absoluto relativo e os valores de tempo de execuo representados na tabela 8.
Tabela 6 (%) de Acerto com Leave-One-Out.
Leave-One-Out
Algoritmos (%) Acerto One Rule 24,10% Zero Rule 19,60% Rede Neural (MLP) 70,50% Rede Neural (RBF) 48,20% Rede Bayesiana 57,10% C 4.5 (J.48) 50,90%
24,10% 19,60%
70,50% 48,20% 57,10% 50,90% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% 80,00% Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out.
39
Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out.
Leave-One-Out
Algoritmos (%) Erro Absoluto Relativo One Rule 87,10% Zero Rule 100% Rede Neural (MLP) 42,64% Rede Neural (RBF) 60,10% Rede Bayesiana 55,13% C 4.5 (J.48) 57,33%
87,10% 100% 42,64% 60,10% 55,13% 57,33% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00%
60,00% 70,00% 80,00% 90,00% 100,00% 1 Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out.
Tabela 8 (s) Tempo de Execuo com Leave-One-Out.
Leave-One-Out
Algoritmos (s) Tempo de Execuo One Rule Zero Rule Rede Neural (MLP) 12,89 Rede Neural (RBF) 36,33
Rede Bayesiana C 4.5 (J.48) 0,05
40 12,89 36,33 0,05 0 5 10 15 20 25 30 35 40 Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out.
Foram realizados dois testes para cada algoritmo, aplicado por duas validaes, por Cross-Validation e Leave-One-Out, com o objetivo de verificar qual algoritmo vai obter o melhor desempenho com relao porcentagem de erro e acerto, levando em conta o tempo de execuo de cada um. Dentre todos o que obteve o pior desempenho foi o algoritmo ZEROR, resultado j esperado, pois, o algoritmo aplica a base de dados uma nica regra, onde, prediz o valor mais freqente nos dados, sendo assim, resultando em uma porcentagem baixe de acerto. O algoritmo que obteve o maior desempenho foi a rede neural (MLP), com maior porcentagem de acerto. 3.5.3 REDES NEURAIS (MLP) - CROSS-VALIDATION O teste aplicado ao algoritmo de redes neurais com validao de Cross-Validation, com testes realizados com o nmero total de 112 registros obteve o resultado de 78 acertos com porcentagem de 69.6429 % e 34 erros com porcentagem de 30.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
41
Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation.
3.5.4 REDES NEURAIS (MLP) - LEAVE-ONE-OUT O teste realizado ao algoritmo de redes neurais com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o resultado de 79 acertos com
porcentagem de 70.5357 % e 33 erros com porcentagem de 29.4643 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out.
3.5.5 REDES NEURAIS (RBF) - CROSS-VALIDATION O teste realizado ao algoritmo de redes neurais RBF com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 52 acertos com porcentagem de 46.4286 % e 60 erros com porcentagem de 53.5714 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada: 42
Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation.
3.5.6 REDES NEURAIS (RBF) - LEAVE-ONE-OUT O teste realizado ao algoritmo de redes neurais RBF com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o resultado de 54 acertos com porcentagem de 48.2143 % e 58 erros com porcentagem de 51.7857 % de erro. A seguir a matriz
resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out.
3.5.7 C4.5 - CROSS - VALIDATION O teste realizado ao algoritmo J.48 com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 59 acertos com porcentagem de 52.6786% e 53 erros com porcentagem de 47.3214 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada: 43
Figura 3.13 Matriz Confuso C4.5 Cross-Validation.
3.5.8 C4.5 - LEAVE-ONE-OUT O teste realizado ao algoritmo J.48 com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o resultado de 57 acertos com porcentagem de 50.8929% e 55 erros com porcentagem de 49.1071 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.14 Matriz Confuso C4.5 Leave-One-Out.
3.5.9 ZEROR - CROSS-VALIDATION O teste realizado ao algoritmo ZEROR com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 22 acertos com porcentagem de 19.6429 % e 90 erros com porcentagem de 80.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada: 44
Figura 3.15 Matriz Confuso ZEROR Cross-Validation.
3.5.10 ZEROR - LEAVE-ONE-OUT O teste realizado ao algoritmo ZEROR com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o mesmo resultado pela validao de Cross-Validation de 22 acertos com porcentagem de 19.6429 % e 90 erros com porcentagem de 80.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.16 Matriz Confuso ZEROR Leave-One-Out.
3.5.11 ONER - CROSS-VALIDATION O teste realizado ao algoritmo ONER com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 32 acertos com porcentagem de 28.5714 % e 80 erros com porcentagem de 71.4286 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada: 45
Figura 3.17 Matriz Confuso ONER Cross-Validation.
3.5.12 ONER - ONE-LEAVE-OUT O teste realizado ao algoritmo ONER com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o resultado de 27 acertos com porcentagem de 24.1071 %e 85 erros com porcentagem de 75.8929 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.18 Matriz Confuso ONE Leave-One-Out.
3.5.13 REDE BAYESIANA - CROSS-VALIDATION O teste realizado pela rede bayesiana com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 64 acertos com porcentagem de 57.1429 % e 48 erros com porcentagem de 42.8571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
46
Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation.
3.5.14 REDE BAYESIANA - LEAVE-ONE-OUT O teste realizado pela rede bayesiana com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o mesmo resultado pela validao de CrossValidation 64 acertos com porcentagem de 57.1429 % e 48 erros com porcentagem de 42.8571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out.
47 CONCLUSES Observou-se que o processo de extrao de conhecimento e a utilizao dos algoritmos de aprendizado de mquina para classificao de padres, possuem certa diferenciao entre eles,
como resultados aplicado ao desempenho de ambos, variando de algoritmo para algoritmo, levando em conta o paradigma pertencente ao mesmo. Foram realizados estudos tericos sobre cada algoritmo, a fim de se obter um conhecimento sobre cada um com relao ao desempenho, ou seja, a capacidade de classificar uma sada esperada de forma eficaz. Os testes foram iniciados a partir de uma base dados, no qual, foi aplicada ao software WEKA, onde se realizou dois testes para cada algoritmo, com duas validaes Cross-Validation e Leave-One-Out, para a obteno de resultados. O software WEKA por ser uma licena GPL facilitou bastante durante o processo dos testes, contribuiu com a possibilidade de se realizar vrios testes em pouco espao de tempo, e tambm por dar suporte a diversos algoritmos de aprendizagem de mquina. Observando os resultados obtidos pela pesquisa, pode-se concluir que o algoritmo de melhor desempenho como classificador de padres, especificamente para a base de dados trabalhada, foi o de rede neural multicamadas, que teve a maior porcentagem de acerto, bem como o menor erro absoluto relativo. Aps a concluso do algoritmo de maior desempenho, como classificador de padres, observou-se que o mesmo obteve tal desempenho sobre os demais especificamente em uma base dados apenas, porm, os demais algoritmos utilizados no trabalho podem obter melhor desempenho, por exemplo, em duas ou mais base de dados, e tambm em base de dados adaptada para a estrutura prpria de tal algoritmo. Espera-se, com esse trabalho, por meio dos estudos de desempenho realizados com os algoritmos e seus resultados, proporcionar uma fonte para futuras pesquisas na rea. Como proposta de trabalhos futuros, espera-se desenvolver os testes comparativos
utilizando-se bases de dados distintas, a fim de comparar o desempenho dos algoritmos em situaes diversas. 48 REFERNCIAS BIBLIOGRFICAS AMBRSIO, P. E. Redes neurais artificiais no apoio ao diagnstico de leses intersticiais pulmonares. Dissertao (Mestrado). Ribeiro Preto: Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo, 2002.
BARANAUSKAS, J. A. Extrao Automtica de Conhecimento por Mltiplos Indutores. So Carlos: Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, 2001. BARRETO, J. M. Introduo Redes Neurais Artificiais. Florianpolis: Laboratrio de Conexionismo e Cincias Cognitivas UFSC - Departamento de Informtica e de Estatstica, 2002. Disponvel em: <http://twiki.im.ufba.br/bin/viewfile/MAT054/TodoMaterial?rev=1.1;filename=REDESNEURAI S.PDF >. Acesso em: 14 ago. 2007. CARVALHO, L. A.V. Datamining: A Mineirao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. So Paulo: Editora rica Ltda, 2001. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMITH, P. The KDD process for extracting useful knowledge from volumes of Data. Communications of the ACM, New York, 1996.
JUSTINO, G. Induo de rvores de Deciso Difusas. Disponvel em: <http://www.cesblu.br/revista/ver_artigo.php?id=21>. Acesso em: 30 ago. 2007. LPEZ, J. M. M; HERRERO, J. G. Tcnicas de Anlisis de Datos: Aplicaciones Prcticas Utilizando Microsoft Excel Y Weka. Disponivel em: <http://galahad.plg.inf.uc3m.es/~docweb/ad/transparencias/apuntesAnalisisDatos.pdf >. Acesso
em: 25 set. 2007. MITCHELL, T. M. Machine Learning. S.l.: McGraw-Hill. 1997. MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Mquina. Captulo 4. In: REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicaes. Barueri: Manole, 2002. PICHILIANI, M. DataMining na Prtica: rvores de Deciso. Disponvel em: <http://www.imasters.com.br/artigo/5130/sql_server/data_mining_na_pratica_arvores_de_d ecisa o/> Acesso em: 16 ago. 2007. TATIBANA, C. Y. e KAETSU, D. Y. Disponvel em: <http://www.din.uem.br/ia/neurais/#neural>. Acesso em: 12 jul. 2007. WITTEN, I. H., AND FRANK E. Data Mining: Practical Machine Learning Toolsand Techniques with Java Implementations. San Francisco, 1999.
Um Estudo de Caso da Aplicao de Minerao de Dados em uma Instituio de Ensino Superior Douglas Preto, Sidnei Renato Silveira douglaspreto@gmail.com,sidnei@uniritter.edu.br Faculdade de Informtica, Curso de Bacharelado em Sistemas de Informao Centro Universitrio Ritter dos Reis Resumo. Com o grande acmulo de dados gerados pela tecnologia, passa-se despercebido como estes dados podem ser utilizados de maneira a tornar isso em um bem para a empresa. Busca-se atravs deste trabalho, auxiliar as Instituies de Ensino Superior na abertura de turmas, mostrando como utilizar os dados de suas bases de forma positiva. Isso se dar atravs da minerao dos dados contidos em seu prprio banco de dados, tentando traar um perfil para a realizao de matrculas. Abstract. Due to the large amount of data generated by technology, it is not
perceived how this data may use it in order to become an asset for the company. Through this work we aim to help Institutions of Higher Education when opening new classes, showing how to use the data from its bases in a positive way. That will be done through data contained in its own base, trying to outline a profile to be used for the accomplishment of registrations. 1. Introduo Muitas Instituies de Ensino pecam por aberturas demasiadas de cursos e/ou turmas. Esse comportamento acaba acarretando diversos transtornos, tanto para o aluno, quanto para a Instituio. Se o aluno efetua sua matrcula e a turma no atinge o nmero mnimo de matrculas necessrias, a mesma cancelada, ocasionando prejuzo para a Instituio que contava com o valor daquela turma e que teve gastos com a divulgao. Entretanto, no somente a Instituio que sai prejudicada. O aluno que buscava realizar aquele curso, frequentar aquela turma, naquele semestre, no o far, quem sabe atrasando at um projeto futuro, o qual j estava programando h algum tempo, ou deixando de realizar outro projeto, na espera que este se realize. As turmas, por vrias vezes, so canceladas at com um nmero expressivo de alunos, mas no o suficiente, pois no se tem uma expectativa da quantidade de alunos que iro se matricular s vsperas ou no dia do incio do curso. A maioria das Instituies no possui um levantamento ou um nmero como base para este tipo de ocorrncia. Neste sentido, este artigo apresenta o estudo e a aplicao de tcnicas de Minerao de Dados que possam apoiar a deciso dos gestores quanto oferta de turmas e/ou cursos. Para a validao desta proposta, foram utilizados os dados de uma Instituio de Ensino Superior (IES) da Regio Metropolitana de Porto Alegre que, como muitas Instituies de Ensino,
oferece cursos e/ou turmas que, por algum tipo de deficincia, seja ela por ter sido aberta na hora errada ou por falta de divulgao, no sairo do papel. Neste contexto, este artigo est dividido nas segu intes sees: a seo 2 apresenta um breve referencial terico sobre as reas envolvidas; a seo 3 apresenta algumas ferramentas que podem ser aplicadas na minerao de dados. Na seo 4 detalha-se o estudo de caso realizado. Finalizando o artigo, apresentam-se as consideraes finais e as referncias 2
bibliogrficas. 2. Referencial Terico A minerao de dados pode ser considerada como uma parte do processo de Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Databases). Segundo (Goebel e Gruenwald, 1999), o termo KDD usado para representar o processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto minerao de dados pode ser definida como a extrao de padres ou modelos de dados observados. Conforme Fayyad (Fayyad et. al., 1996) o KDD - Knowledge Discovery in Databases - um processo, de vrias etapas, no trivial, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados. Como existe vasta literatura sobre o assunto e pela semelhana desta definio de KDD com a definio de minerao de dados, estes dois termos se confundem e muitas vezes so utilizados de forma indistinta. Esta viso foi assumida por Resende (2005) em sua obra para referenciar o processo de extrair conhecimento a partir de grandes bases de dados. De fato, de acordo com Han e Kamber (2001), o termo minerao de dados ou data
mining deveria ter um nome mais apropriado, indicando conhecimento atravs da minerao de dados. No entanto, por ser este um termo longo no to utilizado. Mas, ainda segundo Han e Kamber (2001), a descoberta de conhecimento em bases de dados um processo mais amplo que a minerao de dados. Envolve vrias etapas onde a minerao de dados parte deste processo. A Figura 1 mostra as etapas do processo de Descoberta de Conhecimento em Banco de Dados (KDD), onde a minerao de dados uma delas.
Figura 1 Etapas do Processo de Descoberta de Conhecimento (FAYYAD et. al., 1996).
No trabalho aqui apresentado, pretende-se abordar todas as etapas apresentadas na figura 1. Este processo ser detalhado na seo 4 deste artigo. 2.1 Conceitos de Minerao de Dados O computador que antes servia apenas para automatizar tarefas rotineiras passou a ocupar um lugar muito mais expressivo no dia-a-dia das pessoas e das empresas. Com o grande avano 3
da tecnologia houve tambm um grande aumento no nmero de informaes que so armazenadas. Segundo Figueira (1998), o avano da tecnologia tornou relativamente fcil o acmulo de dados e ao mesmo tempo a informao valorizada como nunca antes na histria, o que faz com que estes dados sejam vasculhados sempre em busca de tendncias e padres. Esta busca um dos objetivos da minerao de dados. Groth (1998) cita trs razes para a minerao de dados ter se tornado to popular, consequentemente acessvel ao usurio final: 1 O valor do computador tem cado de maneira que todos podem ter um bom equipamento para utilizao dos softwares de minerao; 2 As metodologias utilizadas esto tornando-se cada dia mais poderosas e fceis de utilizar; 3 Os softwares existentes no mercado esto oferecendo a minerao de dados de maneira clara e objetiva, auxiliando assim os administradores a escolher qual rumo seguir. Atravs do aumento dessas tecnologias podem ser realizadas tarefas de buscas avanadas, alm de relacionamento e interpretao dos dados. A minerao de dados permite que se definam regras de negcio para auxiliar nas tomadas de decises. Busca-se com isso criar um planejamento das atividades que podem ser desenvolvidas e pensadas a mdio e longo prazo, tentando fazer assim uma previso de tendncias futuras baseada no passado (Polito, 1997). Conforme Polito (1997), minerao de dados a tcnica que permite buscar informaes que estejam, aparentemente, escondidas e ajudam a agilizar e/ou fortalecer as tomadas de decises. Ele ainda afirma que as empresas que empregam minerao de dados (data mining), esto muito a frente das outras, pois so capazes de: (1) Criar parmetros para
entender o comportamento dos consumidores; (2) Identificar afinidades entre as escolhas de produtos e servios; (3) Prever hbitos de compras; (4) Analisar comportamentos habituais para se evitar fraudes. Para Berry e Linoff, minerao de dados a explorao e a anlise, por meio automtico ou semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras significativos (1997, p.5). Os resultados obtidos com a minerao de dados podem ser usados no gerenciamento de informao, processamento de pedidos de informao, tomada de deciso, controle de processo e muitas outras aplicaes. A minerao de dados pode ser aplicada de duas formas: como um processo de verificao e como um processo de descoberta (Groth, 1998). No processo de verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta prov-la aplicando tcnicas como anlises estatstica e multidimensional sobre um banco de dados contendo informaes passadas. No processo de descoberta no feita nenhuma suposio antecipada. Essa minerao de dados, to poderosa e que pode auxiliar no processo evolutivo das empresas pode ser realizada atravs de vrias tcnicas existentes hoje no mercado. Algumas destas tcnicas so descritas na prxima seo. 2.2 Tcnicas de Minerao Entre as tcnicas de minerao de dados existentes, destacam-se as tcnicas de classificao, regresso, segmentao, associao, rvore de deciso, comportamento natural, sries temporais, redes neurais e minerao de texto. 4
2.2.1 Classificao
A tcnica de classificao permite identificar, entre um conjunto pr-definido de classes, aquela a qual pertence um elemento, a partir de seus atributos. As regras de classificao so extradas a partir de uma base de treinamento. A tarefa de classificao consiste em construir um modelo de algum tipo que possa ser aplicado a dados no classificados visando categoriz-los em classes. Um objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998). So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente est mais propcio a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento mdico. 2.2.2 Regresso A regresso usada para definir um valor para alguma varivel contnua desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison, 1998). Esta tcnica trabalha com resultados contnuos, enquanto que a classificao lida com resultados discretos. Ela pode ser usada para executar uma tarefa de classificao, convencionando-se que diferentes faixas (intervalos) de valores contnuos correspondem a diferentes classes. Como exemplos de tarefas de estimativa tm-se (Fayyad et. al., 1996; Harrison, 1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia; estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos; prever a demanda de um consumidor para um novo produto, entre outros. 2.2.3 Segmentao A segmentao um processo de partio de uma populao heterognea em vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no h classes
predefinidas, os registros so agrupados de acordo com a semelhana, o que a diferencia da tarefa de classificao. Entre os exemplos de segmentao pode-se agrupar os clientes por regio do pas ou agrupar clientes com comportamento de compra similar (Goebel e Gruenwald, 1999) 2.2.4 Associao A tcnica de associao consiste em determinar quais itens tendem a ocorrer (no caso de compras, serem adquiridos juntos) em uma mesma transao. Um exemplo clssico determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado, no contexto da anlise de market basket . (Harrison, 1998). Esta tcnica analisa as compras associadas, ou seja, um cliente que comprou um produto x e tambm comprou um produto y. Pode-se verificar se esta associao se confirma em uma grande parte da base de dados, verificando sua validade. As cadeias de varejo usam associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos prximos entre si (Harrison, 1998). 5
2.2.5 rvore de Deciso Uma rvore de deciso uma rvore onde cada n no terminal representa um teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das vantagens principais das rvores de
deciso o fato de que o modelo bem explicvel, uma vez que tem a forma de regras explcitas (Harrison, 1998). O algoritmo rvores de deciso calcula as probabilidades de um resultado com base nos valores de um conjunto de treinamento. Por exemplo, uma pessoa na faixa etria de 20 a 30 anos, que ganha mais de R$ 60.000,00 reais/ano e possui uma casa mais provvel que necessite de um servio de jardinagem do que algum na faixa etria de 15 a 19 anos que no possui uma casa. Com base na idade, renda e posse de casa, o algoritmo de rvores de Deciso pode calcular as chances de que a pessoa necessita de um servio de jardinagem com base em valores histricos (Microsoft, 2009a). 2.2.6 Comportamento Natural O algoritmo de Comportamento Natural usado para mostrar as diferenas de uma varivel especfica para vrios elementos de dados. Por exemplo, renda familiar diferente para cada cliente no banco de dados, e pode ser usado como um item para prever uma compra futura. Este modelo destaca-se por mostrar as diferenas entre determinados grupos de clientes (Microsoft, 2009a). 2.2.7 Sries Temporais O algoritmo de Sries Temporais utilizado para a anlise e previso do tempo baseada em dados. As vendas normalmente so os itens mais analisados. Este algoritmo procura padres em vrias sries de dados de modo a encontrar tendncias para que as empresas determinem como diferentes elementos afetam a srie analisada (as vendas) (Microsoft, 2009a). 2.2.8 Redes Neurais As Redes Neurais procuram descobrir as relaes em dados que outros algoritmos no conseguem obter. Enquanto o algoritmo de Redes Neurais tende a ser mais lento do que os
outros algoritmos, ele encontra relaes que podem ser no intuitivas, ou seja, alm de demonstrar itens que so previstos atravs de dados anteriores, tende-se a exibir resultados para itens em que no se observou nenhuma tendncia (Microsoft, 2009a). 2.2.9 Minerao de Texto O algoritmo de Minerao de Texto analisa dados de texto no estruturados. Isto permite s empresas analisar dados como um "comentrio" descrito na seo de uma pesquisa de satisfao do cliente (Microsoft, 2009a). As tcnicas escolhidas para a aplicao da minerao de dados neste trabalho so descritas na seo 4.2.
3. Estado da Arte Nesta seo so apresentadas algumas das ferramentas de minerao de dados disponveis no mercado, gratuitas ou no. Foram estudadas as ferramentas Weka, Tanagra e Microsoft SQL Server. 3.1 Weka O cdigo-fonte da ferramenta Weka aberto, sendo liberado pela empresa de software de Business Intelligence Pentaho. Inicialmente esta ferramenta foi desenvolvida pela Universidade de Waikato, na Nova Zelndia. Weka uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamados a partir do seu prprio cdigo Java. Esto contidas nela tambm ferramentas para o pr-processamento de dados, classificao, regresso, clustering, regras de associao e visualizao.
uma ferramenta gratuita que pode ser executada em diversas plataformas, entre elas, Windows, MAC Os X e Linux. O nico requisito que o computador possua a mquina virtual Java instalada e seu download pode ser realizado atravs do site da prpria ferramenta (Weka, 2009). Todas as tcnicas aplicadas na ferramenta Weka partem da premissa de que os dados esto disponveis como um arquivo simples ou uma relao, onde cada ponto de dados descrito por um nmero fixo de atributos (normalmente numrica ou nominal, mas alguns outros tipos de atributo tambm so suportados). A ferramenta fornece acesso a bases de dados SQL (Structured Query Language) utilizando Java Database Connectivity e pode processar o resultado retornado por uma consulta de banco de dados. 3.2 Tanagra A ferramenta Tanagra um software de uso livre para explorao de dados, aprendizado de mquina e minerao de dados, desenvolvido na linguagem Delphi por Ricco Rakotomalala da Universidade de Lumire Lyon 2, na Frana, tendo sido desenvolvida para fins acadmicos e/ou de pesquisa. Possui uma excelente interface grfica, de uso intuitivo e fcil aprendizado. A ferramenta tem funes para trabalhar com clustering, estatstica no-paramtrica, regresso, regras de associao, entre outras. Desta forma, esta ferramenta abrange a maior de todas as categorias de mtodos de minerao, indo alm dos mtodos de aprendizado supervisionado, integrao de mtodos de agrupamento, anlise fatorial, de modo a ser capaz de faz-los cooperar entre si (Rakotomalala, 2009). O principal objetivo do projeto proporcionar que pesquisadores e estudantes tenham uma ferramenta de fcil utilizao para minerao de dados, em conformidade com as normas atuais de desenvolvimento de software e permitindo a anlise de dados reais ou fictcios. O segundo objetivo propor aos utilizadores uma arquitetura que lhes permita facilmente
adicionar seus prprios mtodos de minerao de dados, para comparar seus desempenhos (Rakotomalala, 2009). 3.3 Microsoft SQL Server O Sistema Gerenciador de Bancos de Dados Microsoft SQL Server possui a possibilidade de criar uma plataforma de business intelligence acessvel e extensvel. Atravs desta plataforma busca-se a explorao dos dados, permitindo a descoberta de padres de dados corporativos. Esta uma ferramenta proprietria, existindo uma verso freeware denominada SQL Express, que no inclui as ferramentas de minerao de dados (Microsoft, 2009b). 7
O Microsoft SQL Server Data Mining faz parte da famlia de tecnologias de business intelligence que podem ser usadas juntas para aprimorar e desenvolver uma nova gerao de aplicaes inteligentes. Estas tecnologias incluem (Microsoft, 2009b): SQL Server 2005 Integration Services: possibilita a criao de um fluxo de processamento de dados na organizao, atravs de uma robusta aplicao de integrao de dados; SQL Server 2005 Analysis Services: esta ferramenta proporciona uma viso integrada dos dados, apoiando a confeco de relatrios, anlise OLAP (Online Analytical Processing), indicadores-chave de desempenho (KPI) e minerao de dados; SQL Server Reporting Services: capacidade de criar, gerir e disponibilizar relatrios tradicionais (em papel) ou relatrios interativos, baseados na web. Utilizando-se o assistente e Designer do Data Mining embutido, pode-se construir modelos sofisticados de minerao. Integrado diretamente ao Microsoft Visual Studio, o conjunto de ferramentas do SQL Server Data Mining permite explorar e manipular dados,
bem como criar e editar seus modelos. O SQL Server Data Mining oferece mais do que uma dzia de visualizaes interativas para ajudar a compreender os padres que o data mining pode descobrir (Microsoft, 2009b). O SQL Server Data Mining totalmente extensvel atravs dos procedimentos armazenados no Microsoft .NET e dos algoritmos e visualizadores plug-in que se encaixam de forma contnua para tirarem vantagem da integrao e de todas as habilidades da plataforma (Microsoft, 2009b). 3.4 Escolha da Ferramenta A ferramenta escolhida para utilizao neste trabalho foi a Tanagra, por se tratar de uma ferramenta aberta e gratuita e de utilizao mais intuitiva em relao ao SQL Server da Microsoft ou a Weka. Apesar da escolha da ferramenta Tanagra, os dados foram transferidos para o SQL Server para realizao de um pr-processamento a fim de retirar dados nulos e/ou invlidos que poderiam comprometer o resultado final. Esta fase de pr-processamento uma das etapas que despende mais tempo na execuo da minerao de dados. Buscou-se assim garantir a integridade dos dados, com uma soluo no muito onerosa para a Instituio, como o caso do Oracle, j que a IES onde a minerao de dados foi empregada j possua licena para utilizao do SQL Server. 4. Estudo de Caso Esta seo apresenta o estudo de caso realizado, visando aplicao de tcnicas de minerao de dados na base de dados da IES selecionada. O estudo de caso um dos vrios modos de realizar uma pesquisa slida. Outras modalidades incluem experincias vividas, histrias e a anlise de informao de arquivo (como em estudos econmicos). Cada estratgia tem vantagens e desvantagens que dependem de trs condies: (1) o tipo de foco da pesquisa; (2) o controle que o investigador tem sobre eventos comportamentais atuais e (3) o enfoque no contemporneo ao invs de fenmenos histricos (YIN, 2001).
Em geral, estudos de casos se constituem na estratgia preferida quando o "como" e/ou o "por que" so as perguntas centrais, tendo o investigador um pequeno controle sobre os eventos, e quando o enfoque est em um fenmeno contemporneo dentro de algum contexto 8
de vida real. Estudos de casos podem ser classificados de vrias maneiras, entre elas: explicativos, cognitivos, expositivos (YIN, 2001). Neste trabalho utilizou-se o mtodo de estudo de caso expositivo, onde dados foram interpretados e apresentados Instituio, para que auxiliem nas tomadas das decises. 4.1 Detalhamento do Estudo de Caso Proposto Tendo-se estabelecido os conceitos referentes ao estudo de caso, deu-se incio ao trabalho com o banco de dados da IES. O banco de dados utiliza o SGBD (Sistema Gerenciador de Bancos de Dados) Firebird, sendo utilizado pela Instituio h 6 anos, ou seja, as primeiras informaes foram inseridas atravs da migrao de um sistema executado no sistema operacional MS-DOS (Microsoft - Disk Operating System) para um sistema desenvolvido dentro da prpria Instituio, em 2003. Nesta ocasio o tamanho do banco de dados atingido em funo das informaes constantes foi de alguns Megabytes (em torno de 100 Megabytes). Atualmente, a base de dados encontra-se com 1.57 Gigabytes. O estudo de caso foi dividido nas seguintes etapas: (1) Estudo do banco de dados; (2) Descrio das tabelas e dos campos constantes nas tabelas (detalhamento atravs do modelo ER); (3) Migrao do banco de dados Firebird para SQL Server; (4) Definio das tcnicas de minerao a serem adotadas; (5) Pr-processamento dos dados; (6) Aplicao das tcnicas de minerao, atravs da ferramenta Tanagra; (7) Disponibilizao dos resultados aos gerentes da Instituio e (8) Validao dos resultados obtidos.
Para aplicar as tcnicas de minerao de dados, que a proposta do trabalho, o banco de dados foi migrado do SGBD Firebird para o SQL Server. Aps serem realizadas pesquisas de ferramentas para esta migrao, constatou-se que no existe, atualmente, uma ferramenta gratuita (free) que faa a converso satisfatoriamente. Foram realizados testes com as seguintes ferramentas: conexo ODBC (Open DataBase Connectivity ou Conectividade Aberta de Banco de Dados), Microsoft Access (Trial - licena por tempo determinado e com limitaes), Full Convert Enterprise (trial), Navicat Lite, Eva/3 Universal Database Converter (trial). Para que a aplicao das tcnicas de minerao de dados fosse possvel, de forma que os dados a serem trabalhados fossem confiveis, a ferramenta escolhida foi a Full Convert Enterprise v. 5.1, pois se adaptou melhor importao e para tal foi adquirida pelo valor de U$ 259,00 (duzentos e cinquenta e nove dlares), aproximadamente R$ 478,00 (quatrocentos e setenta e oito reais). Com relao base de dados da IES, existem 155 tabelas, sendo selecionadas 4 para o referido estudo de caso. As mesmas foram escolhidas por conterem os dados necessrios para a minerao proposta neste trabalho, ou seja, descoberta de padres que ocorrem sobre as matrculas dos alunos nas turmas e/ou cursos oferecidos. As tabelas utilizadas no trabalho de minerao foram as seguintes (de acordo com a etapa 1 da KDD (Fayyad et. al., 1996)): Tabela Cliente: onde ficam registrados todos os dados pessoais e informaes que se fazem necessrias em relao ao aluno; Tabela FichaInscrio: os dados mantidos nesta tabela referem-se s informaes que se fazem necessrias no momento da matrcula do cliente (aluno), gravando dados como: nmero do recibo, valor do recibo, data da ficha de inscrio, valor pago, entre outros; 9
Tabela FichaTurma: armazena os dados referentes ao cliente e tabela FichaInscricao e informaes pertinentes em relao inscrio, se a mesmo ainda est ativa ou se foi cancelada por exemplo; Tabela Turma: contendo dados referentes turma, esta tabela dispe das seguintes informaes: data de incio e trmino, projeto, professor coordenador, sala onde sero ministradas as aulas, entre outras informaes. 4.2 Tcnicas de minerao escolhidas A partir do estudo da base de dados da IES, foram selecionadas para aplicao neste projeto as tcnicas de segmentao e rvores de deciso. A seguir so descritas as funcionalidades de cada tcnica em relao ao banco de dados utilizado: Segmentao Esta tcnica permite a descoberta de classes/grupos. Por exemplo, agrupar os alunos de acordo com as cidades onde residem, turnos de realizao dos cursos, sexo, etc.; rvores de Deciso Atravs de rvores de deciso, so geradas regras que podem ser teis na tomada de deciso, tais como verificar os bairros onde os alunos residem, para focar as aes de divulgao dos cursos, por exemplo. Essas tcnicas de minerao foram escolhidas porque so as que mais se adaptam s informaes que se pretende obter do banco de dados. O processo de pr-processamento (etapa 2 da KDD, (Fayyad et. al., 1996)) deu-se atravs da construo de um script no Microsoft SQL Server (Figura 2), atravs do qual foram retiradas informaes de dados nulos e inconsistentes. Aps a realizao do pr-processamento os dados foram convertidos para o formato XLS (formato do Microsoft Excel) para serem utilizados na ferramenta Tanagra (etapa 3 da KDD). Com o arquivo no formato adequado, realizou-se a importao dos dados e os seguintes algoritmos foram aplicados (etapa 4 da KDD): Statistics Univariate Discrete Stat; SPV - Learning C-RT (rvores de deciso); Statistics Group Characterization
(segmentao).
10
Figura 2 Script utilizado no Microsoft SQL Server para o pr-processamento dos dados Os gestores da Instituio visualizaram os resultados obtidos atravs de uma pgina HTML (Hyper Text Markup Language) que a prpria ferramenta gera, conforme mostra a Figura 3 (etapa 5 da KDD).
Figura 3 Interface dos resultados Tanagra (HTML) SELECT FICHAINSCRICAO.CLIEICOD, FICHAINSCRICAO.DATAFICHA, CLIENTE.CLIEA60NOME, CLIENTE.CLIEA30BAI, CLIENTE.CLIEA60CIDADE, CLIENTE.CLIEA2UF, CLIENTE.CLIECSEXO, TURMA.TURMICOD, TURMA.CURSICOD, TURMA.DATAINICIO_TURMA, TURMA.DATATERMINOTURMA, TURMA.DESCR_TURMA, TURMA.TURMITURNODESC, CURSO.CURSA60DESCR FROM
FICHAINSCRICAO INNER JOIN CLIENTE ON CLIENTE.CLIEICOD = FICHAINSCRICAO.CLIEICOD INNER JOIN FICHATURMA ON FICHATURMA.COD_FICHA = FICHAINSCRICAO.COD_FICHA INNER JOIN TURMA ON TURMA.TURMICOD = FICHATURMA.TURMICOD INNER JOIN CURSO ON CURSO.CURSICOD = TURMA.CURSICOD WHERE FICHAINSCRICAO.DATAFICHA IS NOT NULL AND CLIENTE.CLIEA30BAI IS NOT NULL AND CLIENTE.CLIEA60CIDADE IS NOT NULL AND CLIENTE.CLIECSEXO IS NOT NULL AND TURMA.TURMITURNODESC IS NOT NULL ORDER BY FICHAINSCRICAO.DATAFICHA 11
Com base nos resultados da aplicao destes algoritmos, realizada com a ferramenta Tanagra, os gestores da IES receberam os dados extrados atravs da minerao. Em posse destes dados eles possuem subsdios para auxiliar nas decises referentes abertura de turmas e/ou cursos tornando, assim, a Instituio mais slida e confivel para todos, principalmente para os alunos. De acordo com o resultado da aplicao do algoritmo de minerao SPV Learning C-RT, pde-se observar qual o turno que os moradores de determinados bairros preferem para realizar os cursos. Assim a Instituio poder realizar uma divulgao focada no interesse de seus possveis alunos, com base na preferncia conhecida da regio. Observaram-se outros resultados relevantes para a tomada de decises dos gestores, tais como: - Alunos por cidade: Alvorada, So Leopoldo, Canoas, Viamo e Guaba destacam-se
por possurem um nmero expressivo de alunos. Assim a Instituio poder intensificar a divulgao de seus cursos, havendo uma maior probabilidade de retorno e diminuindo o risco de gastos desnecessrios. Esta busca tambm pode ser realizada com o parmetro de bairro no lugar de cidade; - Alunos que realizaram outros cursos: Verificou-se que alguns alunos retornaram Instituio para realizao de outros cursos. A Tabela 1 apresenta estes resultados, a partir da aplicao da minerao SPV Learning C-RT por meio da ferramenta Tanagra; 12
Tabela 1 Alunos que realizaram outros cursos
Especializao Processo Civil Especializao Direito Processual Civil Especializao Direito Previdencirio MBA em Direito Empresarial OAB Mdulo Penal
Oficial de Justia Soma Especializao Processo Penal 1 1 - - - 3 5 Especializao Processo Civil 8 - - 3 - 4 15 Especializao Direito Processual Civil - 34 - - - - 34 Especializao Direito Previdencirio - 1 20 1 1 1 24 Especializao Direito do Trabalho - - 1 - 2 4 7 Especializao Processo do Trabalho - - - - 1 2 3 MBA em Direito Empresarial - - - 34 - - 34 OAB - Mdulo Civil 1 3 3 2 6 15
OAB - Mdulo Trabalho, Tributrio, Comercial e tica - 2 2 4 4 2 14
OAB - Intensivo - 1 3 4 OAB - Mdulo Penal, Processo Penal 1 1 3 5 6 1 17
4 12
Oficial de Justia 2 21 24 30 4 134 215 Soma 12 62 56 84 20 161 395
- Alunos por sexo: verifica-se aqui que mais de 66% dos alunos da Instituio pertencem ao sexo feminino. Sendo assim, devem-se intensificar as campanhas promocionais direcionadas a este grupo ou ainda, criar uma campanha promocional para buscar a ateno tambm do sexo masculino. Estes resultados so apresentados na Figura 4; Sexo Quantidade %
F 1245 66,90 %
M 616 33,10 %
Figura 4 Alunos Por Sexo 13
- Alunos por turno: na criao de turmas observam-se os turnos de maior interesse, noite com 51,16% e manh com 36,59%. Com estes dados podem ser criadas polticas de descontos ou outros tipos de atrativos, buscando aumentar a captao de alunos para o turno da tarde. Estes resultados so apresentados na Figura 5;
Turnos
Quantidade de alunos %
MANHA 681 36,59 %
NOITE 952 51,16 %
TARDE 228 12,25 %
Figura 5- Alunos por Turno Todos os resultados foram exportados em formato HTML (HyperText Markup Language) para a sua utilizao pelos gestores da Instituio. 5. Validao De posse dos resultados da minerao realizada, exportados em formato HTML, realizou-se uma reunio realizada na sede da IES selecionada para o estudo de caso. Foram apresentados os resultados da minerao de dados realizada e os mesmos aprovados e confirmados pelos gestores, uma vez que auxiliaro nos processos de divulgao e criao de novos cursos. 6. Consideraes Finais Acredita-se que os objetivos propostos para o presente trabalho foram alcanados, tendo-se em vista que todas as etapas previstas foram realizadas: (1) estudo do banco de dados; (2) descrio das tabelas e dos campos constantes nas tabelas (detalhamento atravs do modelo ER); (3) Migrao do banco de dados Firebird para SQL Server; e (4) Definio das tcnicas de minerao a serem adotadas; (5) Pr-processamento dos dados; (6) Aplicao das tcnicas de minerao, atravs da ferramenta Tanagra; (7) Disponibilizao dos resultados aos
gerentes da Instituio e (8) Validao dos resultados obtidos. Algumas dificuldades foram encontradas, principalmente no que diz respeito migrao dos dados da base atual, que est em Firebird para o SQL Server. Para a migrao dos dados entre os diferentes sistemas tornou-se necessria a aquisio de um software para que se pudesse dar continuidade ao trabalho de forma precisa. Devido s dificuldades encontradas para a criao dos cubos e dimenses dentro do Analysis Services e ao curto espao de tempo para a realizao dos mesmos, a ideia inicial de utilizar o SQL Server para realizar a minerao de dados no logrou xito. Para que o trabalho mantivesse uma continuidade optou-se pela utilizao da ferramenta Tanagra. Apesar da praticidade na utilizao, a interface de resultados da ferramenta escolhida carece de melhorias para a disponibilizao de seus relatrios, pois no apresenta os resultados de forma simples e intuitiva, dificultando assim o entendimento dos mesmos pelos gestores da Instituio. Desta forma, tm-se como objetivo futuro a melhoria da interface de apresentao dos resultados.
14
Referncias Bibliogrficas BERRY, M. J. A., LINOFF, G. (1997). Data mining techniques. USA: John Wiley. FAYYAD, U. M.; SHAPIRO, G. P.; SMYTH, P. (1996) Knowledge Discovery and Data Mining:Towards a Unifying Framework. Proceeding of theSecond International Conference on KnowledgeDiscovery and Data Mining (KDD-96), Portland, Oregon, august. FIGUEIRA, Rafael. (1998) Minerao de Dados e Bancos de Dados Orientados a Objetos. Rio de Janeiro: UFRJ, Dissertao, Mestrado, Cincia da Computao. GOEBEL, M.; GRUENWALD L. (1999) A survey of data mining and knowledge discovery software tools. In: ACM SIGKDD Explorations Newsletter. 1. ed. vol. 1.
GROTH, Robert. (1998) Data Mining: a Hands on Approach for Business Professionals. Prentice-Hall. HAN, Jiawei, KAMBER, Micheline (2001) Data Mining : Concepts and Techniques. San Diego. Academic Press. HARRISON, Thomas H. (1998) Intranet Data Warehouse: ferramentas e tcnicas para a utilizao do data warehouse na intranet. So Paulo: Berkeley Brasil. MICROSOFT. (2009a). Introduction to SQL Server Data Mining. Disponvel em: <http://technet.microsoft.com/pt-br/library/ms345131(en-us,SQL.90).aspx>. Acesso em 15 de outubro de 2009. MICROSOFT. (2009b) Microsoft SQL Server 2008. Disponvel em: <http://www.microsoft.com/sqlserver/2008/en/us/default.aspx>. Acesso em 15 de outubro de 2009. POLITO, M. (1997). Data Mining. Trabalho apresentado na disciplina de Banco de Dados do Curso de Anlise de Sistemas da UERJ Rio de Janeiro. RAKOTOMALALA, R. (2009). Tanagra. Disponvel em: <http://chirouble.univlyon2.fr/~ricco/tanagra/en/tanagra.html>. Acesso em 5 de setembro de 2009. RESENDE, Solange Oliveira (2005). Sistemas Inteligentes. So Paulo: Manole WEKA. (2009). Weka: Data Mining Software in Java. Disponvel em: <http://www.cs.waikato.ac.nz/ml/weka>. Acesso em 15 de setembro de 2009. YIN, Robert K. (2001). Estudo de Caso: Planejamento e Mtodos. Bookman.

Algoritmos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Algoritmos

Uploaded by

Copyright:

Available Formats

Algoritmos

Autor: Alisson Patrick Maximino

Centro Universitrio Baro de Mau Curso de Bacharelado em Cincia da Computao

Alisson Patrick Maximino

Ribeiro Preto 2007 Alisson Patrick Maximino

Orientador: Prof. Dr. Paulo Eduardo Ambrsio

sero realizadas comparaes de desempenho sobre resultados obtidos pelos algoritmos.

Keywords: Learning Machine, Algorithms, Data Mining, Database, Results.

folds (MONARD, 2002).

Comum N Comum Ns Folhas Classificao Ns Folhas Classificao

Regra de Deciso Regra de Deciso Regra de Deciso

Figura 2.3 Processo KDD. FONTE: FAYYAD et al., 1996.

Figura 2.4 Tela inicial do WEKA.

identificao dos atributos e instncias da base por completo.

Figura 2.5 Tela do Pr-Processo.

Figura 2.6 Tela de Classificao.

2.8.4 ARQUIVO ARRF

29 Tabela 1 Estrutura do arquivo ARRF.

Representa o conjunto de dados a ser analisado. @attribute

Tabela 2 Relao das patologias investigadas.

tempo de execuo representados na tabela 5.

Tabela 3 (%) de Acerto com Cross-Validation.

36 28,60% 57,10% 19,60% 69,70% 46,40% 52,70% 0,00% 10,00% 20,00%

Figura 3.3 Grfico em (%) de Acerto com Cross-Validation.

Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation.

Rede Bayesiana C 4.5 (J.48)

Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation. 37

Tabela 5 (s) Tempo de Execuo com Cross-Validation.

0,03 12,05 37,8 0,13 0,25 0 5 10 15 20

Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.

Tabela 6 (%) de Acerto com Leave-One-Out.

Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out.

Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out.

Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out.

Tabela 8 (s) Tempo de Execuo com Leave-One-Out.

Rede Bayesiana C 4.5 (J.48) 0,05

Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out.

Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation.

Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out.

Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation.

Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out.

Figura 3.13 Matriz Confuso C4.5 Cross-Validation.

Figura 3.14 Matriz Confuso C4.5 Leave-One-Out.

Figura 3.15 Matriz Confuso ZEROR Cross-Validation.

Figura 3.16 Matriz Confuso ZEROR Leave-One-Out.

Figura 3.17 Matriz Confuso ONER Cross-Validation.

Figura 3.18 Matriz Confuso ONE Leave-One-Out.

Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation.

Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out.

Figura 1 Etapas do Processo de Descoberta de Conhecimento (FAYYAD et. al., 1996).

Tabela 1 Alunos que realizaram outros cursos

OAB - Mdulo Trabalho, Tributrio, Comercial e tica - 2 2 4 4 2 14

OAB - Intensivo - 1 3 4 OAB - Mdulo Penal, Processo Penal 1 1 3 5 6 1 17

Oficial de Justia 2 21 24 30 4 134 215 Soma 12 62 56 84 20 161 395

Figura 4 Alunos Por Sexo 13

MANHA 681 36,59 %

NOITE 952 51,16 %

TARDE 228 12,25 %

You might also like