FACULDADE EXPONENCIAL – FIE CURSO DE SISTEMAS DE INFORMÇÃO

DATAMINING

GLAUBER DE BORTOLI JOSÉ CLAUDIO PIGNAT FILHO ANDRÉ GEIER MENDES Extração de Informações de DB’s

CHAPECÓ – SC, OUTUBRO DE 2005

O que é um DataMining? DataMining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. O Datamining vai muito além da simples consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e Banco de Dados. Apesar dessa tecnologia ter uma longa evolução de sua história, o termo como conhecemos hoje só foi introduzido recentemente, nos anos 90.

Características de um Datamining A figura abaixo exemplifica como o Datamining está definido:

O Datamining descende fundamentalmente de 3 linhagens. A estatística: A mais antiga delas. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e intervalos de confiança, todos usados para estudar dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas

análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e técnicas de DM, a análise estatística clássica desempenha um papel fundamental. Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA. Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. As notáveis exceções utilizações de IA certamente são alguns conceitos adotados por alguns produtos de ponta, como módulos de otimização de consultas para SGBDs. Machine Learning: E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. A machine learning tenta fazer com que os programas de computador “aprendam” com os dados que eles estudam, tal que esses programas tomem decisões diferentes baseadas nas características dos dados estudados, usando a estatística para os conceitos fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das técnicas da Machine Learning para as aplicações de negócios.

Aplicações do Datamining Técnicas de Datamining têm sido aplicadas com sucesso para a solução de problemas em diversas áreas, como descrito a seguir: Vendas: - Identificar padrões de comportamento dos consumidores; - Encontrar características dos consumidores de acordo com a região demográfica; - Prever quais consumidores serão atingidos nas campanhas de marketing. Finanças: - Detectar padrões de fraudes no uso dos cartões de crédito;

- Identificar os consumidores que estão tendendo a mudar a companhia do cartão de crédito; - Identificar regras de estocagem a partir dos dados do mercado; - Encontrar correlações escondidas nas bases de dados. Seguros e Planos de Saúde: - Determinar quais procedimentos médicos são requisitados ao mesmo tempo; - Prever quais consumidores comprarão novas apólices; - Identificar comportamentos fraudulentos; Transporte: - Determinar a distribuição dos horários entre os vários caminhos; - Analisar padrões de sobrecarga; Medicina: - Caracterizar o comportamento dos pacientes para prever novas consultas; - Identificar terapias de sucessos para diferentes doenças.

Fases de implementação de um Datamining Pode ser dito com relativa confiança que é fácil começar um projeto de Datamining, a dificuldade está em finalizá-lo de acordo com as expectativas. As promessas geradas, no início de um projeto, pela utilização de novas tecnologias que podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao avaliar as perspectivas de um novo projeto. Dificuldades com extração dos dados, preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas para a execução do projeto. As atividades de obtenção e limpeza dos dados

normalmente consomem mais da metade do tempo dedicado ao projeto. Para a execução de projetos de Datamining e a correta alocação de recursos para os mesmos, foi desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes fases na implantação de um projeto. Segundo a metodologia desenvolvida, a implementação de um sistema de Datamining pode ser dividida em seis fases interdependentes para que o mesmo atinja seus objetivos finais. São elas: Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para uma aplicação de Datamining e um plano inicial de ataque ao problema. Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram. Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para uso pelos algoritmos de Datamining. Modelagem: Seleção do(s) algoritmo(s) a serem utilizados e efetivo processamento do modelo. Alguns algoritmos necessitam dos dados em formatos específicos, o que acaba causando vários retornos à fase de preparação dos dados. Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar os modelos com a visão do negócio, se certificando que não existem falhas ou contradições com relação às regras do negócio. Publicação: A criação e validação do modelo permite avançarmos mais um passo, no sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.

Exemplo de Produtos Comerciais (segundo a visão da empresa desenvolvedora) DSS EBIS®: Preparado para atender ambientes tecnológicos e informacionais complexos, integrando fontes de dados heterogêneas como: bancos relacionais, arquivos

de texto, planilhas eletrônicas e entradas manuais. Aplicativos próprios e integrados para extração, transformação e carga de dados (ETL), registro de dados (Data Enters), preparação e entrega de informações para análises, em ambientes dinâmicos, com acesso via intranet ou internet. Nas aplicações para usuários finais são disponibilizados poderosos recursos analíticos, garantindo autonomia para que analistas de negócio explorem as informações corporativas com segurança e facilidade, sem a dependência da equipe de TI. Cypress Data Mining: O Cypress Data Mining filtra, classifica e resume dados de relatórios "num instante" segundo as necessidades de cada usuário, salva as informações como uma conveniente planilha Excel ou arquivo de texto e então o encaminha automaticamente para a impressora, caixa de entrada de e-mail, fax, diretório ou outro local adequado da empresa. Uma vez que os relatórios tenham sido processados, os arquivos resultados em Excel ou texto podem ser totalmente integrados com outros softwares, incluindo arquivamento e entrega na internet. A integração com o Cypress DocuVault possibilita aos usuários ver somente as informações que foram autorizados a acessar - isso é algo que as soluções de Datamining de usuário final não conseguem fornecer de forma consistente. A capacidade de arquivamento de longo prazo do Cypress proporciona uma solução rápida livre de programação para informações históricas de exploração que podem não estar mais em seus bancos de dados. O Módulo Cypress Datamning é baseado em servidor e destinado a ambiente de produção ao invés de um software para usuário final. O treinamento extensivo dos usuários finais é, portanto eliminado e as informações podem ser disponibilizadas mais rapidamente a um número maior de usuários. Automatizar as tarefas de datamining normalmente executadas pelos usuários finais significa que eles podem dedicar mais tempo em suas tarefas básicas e menos tempo aprendendo e operando software sofisticado de Datamining baseado em cliente. Keyword AxB: A proposta da família de ferramentas Keyword AxB é trazer a informação diretamente para quem precisa dela no seu dia a dia com velocidade, segurança, confiabilidade e com muita simplicidade, sendo útil onde quer que haja necessidade de consolidar e analisar bases de dados de qualquer tamanho. O Keyword AxB é uma ferramenta muito flexível e pode ser empregado nas mais diversas necessidades de análise.

BIBLIOGRAFIA Bruno Eduardo Cerquinho, e Henrique Figueiredo de Souza (UNICAP – 2002), disponível em: http://www.dei.unicap.br/~almir/seminarios/2002.1/ns01/datawarehouse/datamining.ht m, acesso em: 20/10/2005.

Crisp DM, disponível em: http://www.crisp-dm.org/, acesso em: 20/10/2005.

Fabio Vessoni, disponível em: http://www.mv2.com.br/datamining.doc, acesso em: 20/10/2005.

Sign up to vote on this title
UsefulNot useful