Professional Documents
Culture Documents
Resumo
Abstract
This work presents a study of the main techniques of Data Mining, and application of
one of the techniques on a database of the health area.
1. Introdução
A cada ano que passa, as empresas acumulam muitas informações em seus bancos de
dados, contendo verdadeiros tesouros de informações, sendo que, podem ser usada para
melhorar o processo da empresa, detectar tendências e características que estão disfarçadas.
Mineração de Dados é uma técnica que permite explorar uma grande base de dados e
descobrir relações, padrões e tendências, nestas informações que estão aparentemente
escondidas.
“Mineração de Dados é a procura por relações e padrões globais que existem” em grandes
bancos de dados, mas estão escondidos na vasta quantia de dados, como uma relação entre
os dados de um paciente e seu diagnóstico médico.
Análises estatísticas, visualizações, árvores de decisões, redes neurais para explorar grandes
bases de dados, além de métodos matemáticos, algoritmos e heurísticas, são técnicas
utilizadas em Mineração de Dados.
1.1 Motivação
Atualmente as empresas têm mostrado-se eficientes em capturar, organizar e armazenar
grande quantidade de dados, estão informatizando cada vez mais seus dados, e essas
informações estão ficando armazenadas em bases de dados com um aumento gigantesco.
Devido à rápida taxa de inovação nas tecnologias, o mercado está exigindo que os
profissionais estejam preparados e atualizados para enfrentar desafios, por esse motivo,
Mineração de Dados está sendo cada vez mais usado como ferramenta de gerenciamento de
informação, para revelar estrutura de conhecimento e apoio as decisões. Mineração de
Dados irá possibilitar a descoberta de informações em bases de dados que aparentemente
não existem ou estão ocultas.
1.2. Objetivos
Realizar um estudo das técnicas de Mineração de Dados para obter o conhecimento da área
e aplicar a técnica de construção de árvore de decisão implementada na ferramenta SIPINA
em dados da saúde. Para isso, será necessário fazer um pré-processamento dos dados para
adaptá-los a ferramenta, visto que existe muita impureza nos dados. Após a aplicação da
ferramenta já existente, serão avaliados os resultados com o objetivo de encontrar fraudes
em internações realizadas pelo Sistema Único de Saúde no Estado do Rio Grande do Sul.
O processo de DCBD foi proposto em 1989 para referir-se às etapas que produzem
conhecimentos a partir dos dados e, principalmente, à etapa de mineração de dados, que é a
fase que transforma dados em informações [FAY96].
2.1.4 Pós-processamento
f) Avaliação dos padrões: nesta etapa são identificados os padrões realmente interessantes,
que representem conhecimento baseado em algumas medidas de interesses.
Nos dias de hoje, Mineração de Dados não se refere apenas como uma etapa do processo de
DCBD, o qual envolve a aplicação de métodos para a extração de padrões dos dados.
Devido ao interesse da área comercial de tecnologia da informação Mineração de Dados,
está sendo visto como uma forma mais abrangente, um sinônimo de DCBD.
e) Análise de Outlier: outliers são objetos de um banco de dados que não acompanham o
comportamento ou modelo de dados. Existem muitos métodos de Mineração de Dados que
descartam os outliers como ruídos ou exceções, mas em aplicação de detecção de fraudes,
podem ser bastante interessantes.
3. Mineração de Dados
Mineração de Dados é uma metodologia que está sendo usada com objetivo de melhorar a
qualidade e eficiência nas tomadas de decisões, pois com esta metodologia é possível
complementar ou substituir outras ferramentas de apoio a decisões como, por exemplo:
análises estatísticas e relatórios.
3.1.1 Clusterização
Esta técnica pode ser aplicada em atividades de marketing com a finalidade de identificar
segmentos de mercado, para encontrar estrutura significantes nos dados e na descoberta de
fraudes ou dados incorretos.
3.1.2 Classificação
3.1.3 Associação
Uma associação pode ser analisada da seguinte maneira: dado um conjunto
de registros e uma coleção de itens, cada um deles identificados com alguns
números de itens e de uma coleção, a função de associação é retornar afinidades
que existem na coleção de itens deste conjunto de registros. As afinidades podem
ser expressas através de regras, como por exemplo, 80% dos registros que contém
os itens A e B, também contém os C e D. Em um banco de dados podem ser
encontradas várias regras de associação.
As redes neurais foram criadas com base no estudo do cérebro humano. Assim sendo, sua
principal característica é dada pela capacidade de aprender com base na exposição de
exemplos. Sendo que a construção de uma rede neural se constitui na configuração de sua
arquitetura interna, ou seja, uma rede interligada de neurônios, e no treinamento desta rede
com base em exemplos, até que a rede consiga aprender como resolver o problema,
melhorando desta forma seu desempenho.
Algoritmos genéticos são aqueles que simulam o processo de seleção natural proposto por
Charles Darwin em 1859. De acordo com a teoria de Darwin, pode-se dizer que os
organismos são equivalentes às estruturas de dados, enquanto os cromossomos são
equivalentes às cadeias de bits, surgindo mais de um conjunto de considerações
inteiramente diferentes que podem ser usados numa mesma solução do problema. É muito
difícil existir uma solução matematicamente ótima para um problema, porem existem
soluções muito próximas da ótima, ou aceitáveis. Algoritmos genéticos são mais facilmente
aplicados em problemas com muitas variáveis e restrições.
4. Estudo de Caso
5. Conclusão
Após concluir este trabalho, foi possível constatar as possibilidades de ganhos que a
Mineração de Dados pode proporcionar em decisões que são consideradas estratégicas. Mas
para a utilização de Mineração de Dados é necessário ter o entendimento completo do
domínio da aplicação, caso contrário o processo torna-se difícil.
A Mineração de Dados está sendo utilizada pelas organizações de uma forma crescente,
devido ao acúmulo de informações armazenadas nas bases de dados, pois com a utilização
de Mineração de Dados tem-se a possibilidade de obter conhecimento útil e interessante, o
qual poderá ser utilizado como base concreta, auxiliando na tomada de decisão.
A Mineração de Dados apresenta-se como uma técnica eficiente, ágil, confiável e capaz de
capturar informações, as quais são consideradas importantes, pois encontram-se escondidas
em grandes volumes de dados.
Para o futuro, pretende-se testar outras bases de dados, como por exemplo: a realização de
estudos referentes à mortalidade infantil, buscando conhecer as principais causas e idades
em que ocorrem, tornando possível encontrar novos meios de prevenção.
Referências
[EST97] M. Ester, H.-P. Kriegel, and J. Sander. Spatial data mining: A database
approach. Proc. 5th Symp. on Spatial Databases, Berlin, Germany,
1997.
[WIT99] Witten, Ian H.; Frank, Elibe. Data mining: pratical machine learning tools
and techniques with Java implementations. San Francisco: Morgan
Kaufmann Publishers, 1999.