You are on page 1of 17

24/04/13

Data Mining: conceitos e casos de uso na área da saúde

Pesquisar

Entenda o site

Tecnologias

Revistas LO GIN:

Cursos

Pocket vídeos SENHA:

Fórum

Serviços

Publicar

Compre Créditos

Loja Virtual

A ssine

Bem vindo a DevMedia!

Esque ci m inha se nha

C adastre -se

post favorito

comentários

Data Mining: conceitos e casos de uso na área da saúde
Veja neste artigo Mineração de Dados e aplicações na área da saúde.
Go s t ei (14) (0)

Olá pessoal. Estamos de volta e nesta coluna vou conversar com vocês sobre duas coisas que eu acho muito interessante, Mineração de Dados e aplicações na área da saúde. Minha área é bioinformática, mas aqui vou mostrar alguns cases no uso clínico, muito interessante, vale a pena à leitura.

Bem para começar, data mining é a exploração e a análise, por meio automático ou semi-automático, de grandes quantidades de dados, a fim de descobrir padrões e regras significativas (Berry et al., 2000). Estes padrões e regras significativas são descritos muitas vezes como conhecimento invisível. São assim chamados por estarem envoltos em um grande volume de dados e que se não fossem usadas técnicas inteligentes para procurar esta informação, ou conhecimento, ele não seria descoberto facilmente pela observação humana. O conhecimento gerado pelo data mining pode ser usado para o gerenciamento de informação, processamento de pedidos de informação, tomada de decisão, controle de processos, entre outros. Para realizar essa coleta, o processo de Data Mining agrega em suas etapas conhecimento de áreas como a Inteligência Artificial e Estatística. Os métodos de Inteligência Artificial dão ao processo de mineração o status de processo inteligente. Técnicas como redes neurais, árvores de decisão, regras de associação, raciocínio baseado em casos e algoritmos genéticos são as mais usadas na construção deste processo. A estatística doa da sua parte diversas técnicas para agrupamento e análise de dados, uma das técnicas mais utilizadas em data mining é a regressão, termo e cálculos, herdados da estatística tradicional.

1 - Técnicas

Como descrito na introdução deste trabalho, existem diversas técnicas utilizadas dentro do processo de data mining. Para deixar mais claro como o processo trabalha com estas técnicas, vamos descrevê-las um pouco melhor.

Estas técnicas são utilizadas em diversas atividades (Gobel, et al.,1999) como:
www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 1/17

24/04/13 Data Mining: conceitos e casos de uso na área da saúde - Previsão: Dado um determinado item e um respectivo modelo. . Quando a amostra de uma população está sendo estudada com o objetivo de se fazer alguma inferência www. O suporte da regra chocolate => pílulas de emagrecimento é o número de ocorrências deste conjunto de itens na mesma transação. é a identificação dos relacionamentos existentes entre os atributos destes itens. determina-se um conjunto de classes. AprioriTid. Uma árvore de decisão designa uma classe numérica (ou saída) para uma entrada padrão filtrando-se a amostra através dos testes na árvore. Agrupamento: Dado um conjunto de itens. O percentual de 90% é chamado de confiança da regra.1 – Regras de Associação As técnicas de regras de associação estabelecem uma correlação estatística entre certos itens de dados em um conjunto de dados (Gobel et.com. onde X1. Xn são itens que prevêem a ocorrência de Y com um grau de confiança C e com um suporte mínimo de S e ^ denota um operador de conjunção (AND).. produzir um modelo que possa prever valores de atributos para novos itens. A regra de associação pode ser representada por: X1^.. entre outros..devmedia. Associação: Dado um conjunto de itens.^Xn => Y[C. é determinar a qual destas classes um novo item pertence. automaticamente. Um exemplo desta regra pode ser que 90% dos consumidores de chocolate. Classificação: Dado um conjunto de classes pré-definidas. nos quais os itens são agrupados de acordo com suas características.S].. 1. al.. Alguns algoritmos que utilizam esta técnica são: Apriori. 1..2 – Árvores de Decisão As árvores de decisão são representações gráficas onde os nós representam amostras e as folhas representam categorias. Regressão: Dado um conjunto de itens. é a análise da dependência entre os valores de atributos e. é a capacidade de deduzir um valor para um atributo específico do item. também consomem pílulas de emagrecimento.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 2/17 . Cada teste possui reciprocamente resultados exclusivos e exaustivos. 1999).

contendo as informações relevantes para o domínio de sua aplicação. Em essência. 2. Na figura 1 temos um exemplo de uma árvore de decisão para um jogo de tênis. Kolodner (Kolodner.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 3/17 . Raciocínio baseado em memória é uma tecnologia emergente para a representação e processamento de conhecimento. que seriam: 1. os casos devem manter a informação necessitada pelos usuários.com.24/04/13 Data Mining: conceitos e casos de uso na área da saúde indutiva. O estado posterior do domínio quando a solução é aplicada. ID3. entre outros. A descrição do caso. as árvores de decisão são os modelos mais utilizados. O caso em si.0.3 – Raciocínio Baseado em Memória O raciocínio baseado em memória combina as vantagens da recuperação da informação e do raciocínio baseado em regras. 1993) descreve casos como contendo três partes principais. torna o raciocínio baseado em memória particularmente apropriado para sistemas de suporte. 1. O fato dos programadores utilizarem a experiência de problemas anteriores para resolverem muitos dos problemas novos. CHAID. www. a qual permite sua identificação e armazenamento.devmedia. porém não estamos limitados a implementação destas funções. Figura 1 Alguns algoritmos conhecidos de árvore de decisão são: CART. 3. C5. Usa experiência passada. Uma questão importante em raciocínio baseado em memória é a representação do caso (conhecimento) no computador. acumulando casos e tentando descobrir por analogia soluções para outros problemas. Em muitos exemplos vemos árvores de decisão construídas usando sua idéia apenas com resultados booleanos.

CLARANS. CLIQUE e K-MEANS. Podemos iniciar a população de cromossomos com quatro escolhidos aleatoriamente.com. o cromossomo x2 será reproduzido duas vezes. pois nenhum sorteio aleatório caiu dentro da faixa de 6% entre 64% e 69% e o cromossomo x4 será reproduzido apenas uma vez. x4 = 19 Calculando a função de adaptação (no nosso exemplo o próprio f(x) = x2) para cada termo teremos: f(x1) = 169. A adaptação geral é a soma de todas as adaptações de cada cromossomo. f(x3) = 64. 1170. Precisamos sortear quatro números aleatórios entre zero e cem e verificamos em que ponto da reta entre zero e cem esses números encontram-se e então fazemos a cópia dos cromossomos.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 4/17 . x2 com 49%. 1. Vamos maximizar f(x) = x2 no intervalo de zero a trinta e um. De tal forma o cromossomo x1 será copiado uma única vez. Um exemplo de maximização da função f(x) = x2 pode ser útil para entendermos todo o processo. Em percentuais temos x1 participando com 14%. x1 = 13. f(x2) = 576.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Os principais algoritmos representantes dessa técnica são: BIRCH. x2 = 24. f(x4) = 361 Podemos ver que a melhor solução nesta geração é x2.devmedia. Os algoritmos genéticos incorporam uma solução potencial para um problema específico numa estrutura semelhante a de um cromossomo e aplicam operadores de seleção e cross-over a essas estruturas de forma a preservar informações críticas relativas à solução do problema. x3 com 6% e x4 com 31%.4 – Algoritmos Genéticos Os algoritmos genéticos surgiram de uma metáfora com Teoria da Evolução das Espécies de Charles Darwin. www. O modelo matemático dos algoritmos genéticos ajuda a compreender melhor como ele trabalha. o cromossomo x3 não será reproduzido. ou seja. x3 = 8.

Essa nova geração representa a combinação das soluções bem-sucedidas da geração anterior que se casaram e se reproduziram. Um neurônio artificial é uma unidade de processamento lógica que tenta simular o comportamento e funções de um neurônio biológico. www.5 – Redes Neurais As redes neurais são uma classe especial de sistemas modelados seguindo analogia com o funcionamento do cérebro humano e são formadas de neurônios artificiais conectados de maneira similar aos neurônios do cérebro humano (Goebel et. que simulam as sinapses. x3 = 24 e x4 = 19.devmedia. x2 = 24. 1999). al.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 5/17 . por isto não há nenhum representante seu nesta nova geração. Podemos notar que x2 é igual a x3 nesta nova geração e que x3 da geração anterior por ser pouco adaptado não se reproduziu. 1. Nessa estrutura os dendritos do modelo biológico são substituídos pelas entradas de informação na unidade de processamento e as ligações entre o corpo celular são realizadas através de pesos..24/04/13 Data Mining: conceitos e casos de uso na área da saúde Gráfico 1 – Algoritmo Genético A nova geração após a reprodução será: x1 = 13.com. mas ele pode ser interrompido se o valor for considerado suficiente ou até atingir o valor máximo da função f(x) no intervalo de zero a trinta e um. As informações captadas na entrada são processadas pela função de soma (?) e o limite de disparo do neurônio biológico é substituído pela função de transferência. É possível continuar o processo de evolução.

Boa parte dos modelos de redes neurais usados possui alguma regra de treinamento onde os pesos são ajustados de acordo com os padrões apresentados. w2.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 6/17 ... Os sinais do nosso exemplo serão de valores booleanos (0 e 1) e os pesos com valores reais. É feita a soma ponderada dos sinais que produz um nível de atividade. Cada sinal é multiplicado por um número. para o trabalho de um neurônio pode ser resumida da seguinte forma: 1. ou peso. se a >= t ou y = 0. Normalmente as redes neurais são apresentadas em forma de camadas. . Suponhamos que existam p sinais de entrada x1.. wi e o limitador t . o nível de atividade a é dado por: a = w1x1 + w2x2 + . Se o nível de atividade exceder um certo limite a unidade produz uma determinada resposta de saída. 3.devmedia. 2. chamada de www. No nosso caso. em 1943.. Vamos exemplificar melhor. xn e pesos w1. que indica a sua influência na saída da unidade.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Figura 2 – Modelo de Neurônio Artificial A proposta de McCullok e Pitts.com. wixn A saída y é dada por: y = 1. onde a primeira camada. Sinais são apresentações de entrada. se a < t ... De maneira simplória podemos dizer que as redes neurais aprendem através de exemplos.. 4. x2...

é demonstrado o poder das ferramentas de data mining e quanto as mesmas podem contribuir para melhorar a qualidade dos serviços de saúde. Rede de Hopfield. baseado no conceito de pathways (“Guide Lines ”) para elaboração automática de modelos para detecção de casos abusivos ou fraudulentos nos sistemas de saúde (pena no Brasil não haver interesse nisso). Algumas das principais topologias que encontramos hoje em dia são: Perceptron. basicamente. Redes ART. de acordo com Gobel (Gobel et al. A forma como essas camadas trabalham e como elas são interligadas definem a topologia de uma rede. entre diversos outros.com.24/04/13 Data Mining: conceitos e casos de uso na área da saúde entrada. Rede de Kohonem. Com os exemplos apresentados. a segunda camada é conhecida como camada intermediária ou camada oculta. denominada saída é onde o resultado é apresentado.1 – Exemplo 01: A process-mining framework for the detection of healthcare fraud and abuse. apresentamos exemplos simples e inseridos dentro da área de saúde. No item destinado à descrição da técnica utilizada. metodologia. 1999). recebe as primeiras informações que deverão ser processadas. Para facilitar a compreensão dos exemplos foi definida uma estrutura de apresentação constituída por contexto. A motivação do trabalho vem da constatação do grande percentual de comportamentos abusivos e fraudulentos www. Contexto: Neste trabalho (Yang. técnica utilizada. pois a intenção é apenas mostrar a aplicabilidade de uma ferramenta de data mining. sem a intenção de fazer uma lista exaustiva de casos. Por último a camada final.devmedia. O conteúdo referente a cada item mantém. ela pode ser formada por mais de uma camada de neurônios e nela são feitos os processamentos da rede. será indicada. Redes MLP. 2006). resultados e conclusão. 2. com exatidão. é proposto um processo de data mining. a atividade do processo de data mining. desenvolvido por pesquisadores da Universidade Changhua de Taiwan. Nenhum dos itens definidos expressa qualquer análise ou opinião pessoal dos autores deste artigo.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 7/17 .. Não são analisados os detalhes computacionais apresentados no artigo original. a idéia expressa no artigo original. nem efetuar uma análise detalhada sobre cada exemplo apresentado. 2 – Exemplos de Aplicações na área da Saúde Consolidando os conceitos apresentados anteriormente.

a partir de dados de casos clínicos. conforme a figura 3.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 8/17 .com. provedor de serviços para o NHI. Inicialmente.24/04/13 Data Mining: conceitos e casos de uso na área da saúde ocorridos nos sistemas de seguro saúde. Baseado nos registros restantes. Metodologia: Os dados utilizados para a avaliação do modelo foram a base do BNHI (Bureau of National Health Insurance) de Taiwan. Foram coletados dados de um hospital regional. consequentemente. Técnicas Data Mining utilizadas: O framework proposto envolve as técnicas de Regressão e Classificação. especificamente sobre PID (Pelvic inflammatory disease) que é a patologia mais comum neste departamento. Neste processo foram eliminados 77 registros. A partir desta entrada. O objetivo principal é aplicar técnicas de data mining e. os registros das atividades podem ser submetidos para um mecanismo de indução que os classificarão como normais ou fraudulentos. Há modelos que representam casos fraudulentos e modelos que correspondem a casos normais. A preparação dos dados ocorreu através dos seguintes passos: - Os dados iniciais foram filtrados para eliminar os registros com itens de dados sem valores ou com valores incoerentes. comportamentos fraudulentos de atividades normais. os padrões são extraídos e. www. as atividades médicas envolvidas do processo foram identificadas. no conjunto de dados selecionado. Neste processo. Finalmente. A identificação foi realizada por dois ginecologistas que examinaram todos os registros e identificaram 906 casos fraudulentos. construir modelos a partir dos quais seja possível distinguir. foram identificadas 127 atividades médicas relacionadas ao processo de diagnóstico e tratamento de PID. foram selecionados dados de 2543 pacientes referentes ao período de 07/2001 a 06/2002 e a partir daí preparados dois conjuntos de dados: um contendo os casos normais e outro os fraudulentos. Inicialmente foi definido um fluxo geral que compreende todo o processo de data mining proposto. os modelo são definidos. Nesta etapa. Com os modelos de detecção elaborados. foram utilizados os dados referentes ao departamento de ginecologia. A próxima etapa foi a identificação “manual” dos casos fraudulentos. os mesmos ginecologistas selecionaram 906 casos considerados normais para elaborar a base de teste contendo 1812 registros. automaticamente. um normal e um fraudulento. dois conjuntos de exemplos clínicos servem como entrada. Para este estudo.devmedia.

com. foi baseada nas medidas de “Sensibilidade” e “Especificidade”.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 9/17 .devmedia.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Figura 03 – Data mining framework A técnica de data mining utilizada para a representação dos modelos é baseada em grafos que determinam as atividades envolvidas em um caso clínico e a respectiva seqüência temporal. Figura 04 – Grafo para caso clínico O algoritmo utilizado para indução (classificação de uma ocorrência como normal ou fraudulenta) foi o CBA (Classification Based on Associations ). respectivamente. onde sensibilidade corresponde ao percentual de casos fraudulentos detectados. A figura 5 mostra a variação destes resultados. com base no total de casos fraudulentos existentes e especificidade equivale ao percentual de casos normais identificados diante do total de casos normais. de acordo com ajustes efetuados no algoritmo de classificação. Resultados: A avaliação dos resultados referentes a indução. Os melhores resultados obtidos foram 64% e 67% para sensibilidade e especificidade. www.

Este artigo (Chae. Inicialmente foram incluídos 100% dos beneficiários com hipertensão (9. Os registros continham dados biométricos. taxa de glicose. como pressão.devmedia. coletados durante o exame físico realizado bienalmente. Os registros foram selecionados aleatoriamente de uma população de 127.2 – Exemplo 02: Data Mining approach to policy analysis in a healh insurance domain. peso. o mesmo número de registros para beneficiários sem hipertensão. Metodologia: Para o desenvolvimento e conseqüente validação da aplicação de data mining.24/04/13 Data Mining: conceitos e casos de uso na área da saúde 10-07-2007pic07.jpg Figura 05 – Sensibilidade e Especificidade. altura. Conclusão Os autores concluíram que o framework desenvolvido auxiliou na descoberta das características que possuem alto poder discriminatório para representação de casos clínicos e o mostrou-se eficiente na identificação de alguns casos abusivos e fraudulentos que não seriam facilmente identificados manualmente. posteriormente. ambas da Coréia do Sul. foram selecionados.com. foram selecionados um subconjunto de dados do KMIC.206 registros. 2001) é bem rico no emprego de técnicas de data mining. colesterol. totalizando 18. O objetivo do trabalho é a aplicação de técnicas de data mining na base de dados KMIC (Korea Medical Insurance Corporation) visando a descoberta de informações não triviais para auxílio no monitoramento do programa de controle de hipertensão. Contexto: Desenvolvido por pesquisadores do Departamento de Ciência da Computação da Pohang University e Yonsei University. de forma aleatória.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 10/17 . 2. A hipertensão foi definida pelos valores da pressão www.103) e. etc. pois são aplicados métodos para regressão. previsão e definição de regras de associação.886 beneficiários.

4 anos. e.4 % ex-fumantes. define o percentual de probabilidade de o indivíduo adquirir hipertensão.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 11/17 .24/04/13 sistólica > 140 mmHg e diastólica > 90 mmHg.4% eram fumantes e também 0. no algoritmo CHAID tem a sensibilidade de 76. como “fumar”. na tentativa de descobrir relações entre estes itens. foi a equação “maximum-likelihood ratio”. a idade média dos homens era de 52. A maioria da população considerada estava dentro do peso adequado. seu histórico. CHAID e C5. dados sobre o estilo de vida e resultados dos exames físicos. A técnica de previsão que.devmedia.7% eram fumantes e 16. taxa de glicose e colesterol. Previsão: Esta técnica foi implementada através de uma árvore de decisão que considera as variáveis definidas pela técnica de regressão como fatores de risco e determina qual é a tendência de um determinado paciente para a hipertensão. Resultados: O resultado da técnica de regressão mostra que variáveis biomédicas são excelentes indicadores da hipertensão. enquanto o status da hipertensão assume o papel da variável dependente. www. Atividades do Data Mining Utilizadas: Regressão: A técnica de regressão foi utilizada para identificar os fatores de risco para hipertensão. “beber”. Um dos artefatos técnicos utilizados no algoritmo para determinar a importância das variáveis consideradas.0. Regras de associação: A técnica de associação foi usada para identificar a ocorrência de relações entre o resultado positivo de hipertensão e as variáveis de risco. Data Mining: conceitos e casos de uso na área da saúde Neste conjunto de dados. através de características do paciente. Entre os homens. 47.1 anos e das mulheres 51. dentre estas variáveis destacam-se o índice de massa corpórea.5% ex-fumantes. apenas 0. proteína urinária. etc.com.3%. Estes dados correspondem às variáveis independentes. Entre as mulheres. Para a árvore de decisão foram utilizados dois algoritmos. para efeito de comparação. através da árvore de decisão. O CHAID apresentou melhor resultado.

1998). www. mesmo assumindo as limitações do conjunto de dados utilizados no experimento. Conclusão: Os autores concluíram que as técnicas de data mining foram eficientes na descoberta de padrões sobre programas de gerenciamento de hipertensão. O objetivo do trabalho é apresentar um processo de análise de dados capaz de identificar. rapidamente. Os sistemas de vigilância são essenciais para a detecção de novas ameaças de infecções na saúde pública e nos ambientes hospitalares. onde suporte é a probabilidade de i1 e I2 ocorrerem juntos.com. embora não muito recente. Contexto: Desenvolvido por pesquisadores da Alabama University em parceria com o Centro para Controle e Prevenção de Doenças dos Estados Unidos (CDC). apresenta uma perspectiva diferente e interessante sobre a aplicação da técnica data mining para a identificação de regras de associações.jpg Figura 06 – Exemplo de associações descobertas 2. séries históricas de dados e detectar grupos de doenças não comuns.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 12/17 . A eficácia de um sistema desta natureza é determinada pela sua habilidade de analisar. A figura 6 apresenta uma visão parcial da tabela de regras de associações encontradas com os respectivos índices de suporte e confiança. novos e interessantes padrões nos dados referentes a infecção hospitalar e vigilância sanitária.24/04/13 Data Mining: conceitos e casos de uso na área da saúde A técnica para descobrimento de regras de associação definiu um grande número de associações entre os fatores de riscos. e confiança é a proporção de ocorrência de i2 considerando todas as ocorrências de i1.3 – Caso 03: Association Rules and Data Mining in Hospital Infection Control and Public Health Surveillance Este terceiro artigo (Stephen.devmedia. automaticamente. 10-07-2007pic08.

para os experimentos A. pelos atributos: data de ocorrência. Este fato é extremamente importante para atividades de prevenção e. Metodologia: A principal característica do processo de data mining aqui proposto. é muito simples e constituído basicamente pelas seguintes etapas: Os dados que serão analisados são divididos em partes. nestas condições a associação A Þ B é uma associação de baixa confiança. Para cada regra de associação identificada neste conjunto de dados (que corresponde a um determinado período de tempo). o experimento foi realizado por três vezes. considerando diferentes divisões dos dados. Visando resolver este problema.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 13/17 . três e seis meses. se. as associações com uma alta freqüência e com um baixo nível de confiança são as mais utilizadas. a proposta aqui é inversa. Porém. não são detectadas. ao longo do tempo. mudanças nas características da incidência que não estão sendo monitoradas. respectivamente. e ciprofloxacin. localização do paciente no hospital. Cada registro corresponde a um caso de infecção por Aeruginos a e é constituído. www. o grau de confiança desta associação aumentar. os autores propõem a utilização de técnicas de Data Mining que não restrinjam a análise apenas aos indicadores definidos pelo usuário.devmedia. Se. O processo geral da solução data mining proposta. ticarcillin / clavulanate.24/04/13 Data Mining: conceitos e casos de uso na área da saúde O principal problema abordado pelos autores é que a maioria de sistemas e técnicas para análise dos dados assume que o usuário já tem uma situação pré-definida (ex. Para análise das regras de associação foi considerada uma freqüência 10 em todos os experimentos. CEP do paciente e resultado do teste (R = Resistente. A razão é simples: Se um fenômeno B ocorre toda vez que um fenômeno A ocorre e o fenômeno A ocorre com muita freqüência. provavelmente trata-se de uma situação trivial ou muito bem conhecida. Para validação da aplicação de data mining foram utilizados dados do UAB Hospital (University of Alabama Birmingham). e. Se o grau de confiança de uma regra sofreu um aumento significativo de um período para o outro. seguindo uma divisão temporal. mas que sejam capazes de identificar novos padrões e associações que consigam detectar mudanças na forma de incidência de uma epidemia ou endemia ou qualquer programa de controle sanitário. Em cada divisão foi considerado um período de tempo diferente. tobramycin. raramente são detectados por ferramentas de análises tradicionais. em cada parte são aplicadas técnicas de data mining para descobrir todas as associações com alta freqüência. por outro lado. B e C. Para detecção de novas regras de associação. imipenem. ceftazidime. isto pode indicar uma alteração na característica de incidência do problema. infecções por Salmonella em uma determinada região) cuja incidência é monitorada no tempo. Enquanto nos sistemas tradicionais de vigilância prioriza-se uma alta freqüência e um alto grau de confiança nas regras de associações existentes. amikacin. O escopo de análise foi reduzido aos casos de infecções provocadas por Pseudomonas Aeruginosa durante o ano de 1996. gentamicin. um fenômeno B ocorre em apenas algumas situações que A ocorre. é a mudança de paradigma. o seu grau de confiança é comparado com o grau de confiança apresentado por esta mesma regra. Isto significa que.com. S = suscetível) para piperacillin. no conjunto de dados que corresponde ao período anterior. esta regra é sinalizada como um evento que merece atenção. I = Intermediário. basicamente. Foram considerados períodos de um.

24/04/13 Técnicas Data Mining utilizadas: Data Mining: conceitos e casos de uso na área da saúde Associação: A solução proposta no trabalho. Figura 07 – Eventos descobertos e ações sugeridas Conclusão: Os autores definiram um novo processo de data mining para identificação e monitoramento de novos padrões e associações nos dados. Resultados: O processo de data mining descobriu e monitorou mais de 2. bibliográficas e de texto completo. extremamente necessária. o campo de aplicação para as técnicas e ferramentas de data mining é bastante amplo. para diferentes problemas. www. seja na extração de conhecimento de bases de dados factuais. Bom.000 associações no experimento A. como as mantidas em extranets pela industria farmacêutica. e os sistemas de informação em saúde em particular. Os sistemas de saúde de maneira geral. como mostra a figura 7. Os experimentos realizados validaram a eficiência do processo para a identificação de eventos interessantes. inclusive. a maioria dos eventos descobertos no experimento A não foram detectados no experimento B e. consiste na aplicação de técnicas de associação visando a identificação de novas correlações nos dados.devmedia. A mineração de dados na própria web ainda é relativamente pouco realizada e. Na área da saúde. não foram encontrados no C. a aplicabilidade deste tipo de ferramenta é ideal e. seja na recuperação de informação eventualmente utilizada em descobertas baseadas em literatura. onde qualquer atividade é altamente dependente de informação. surpreendentemente. No entanto. o qual se mostra eficiente e adequado para sistemas de vigilância sanitária. Em diversos segmentos.000 no experimento B e mais de 20.000 no C. mais de 12. ações preventivas foram sugeridas. também. em alguns casos. vêm se mostrando eficientes. alguns eventos interessantes foram detectados e para eles.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 14/17 . têm-se beneficiado das técnicas e instrumentos de mineração de dados já há anos. tem ocorrido com menor freqüência. basicamente. mesmo sem conhecimento prévio. gerar ações preventivas.com. podendo. Foi utilizado o algoritmo simples chi-square para a definição de regras de associação. Uma análise dos eventos descobertos mostrou que. as soluções construídas a partir do conceito de mineração de dados.

contribuir decisivamente nas ações preventivas destinadas à saúde pública. SIGKDD Explorations 1999 Jun. que são importantes e relativamente comuns a praticamente todos os países do mundo. Warren T. Won Kyoung. Cho. de maneira substancial. Brossette. Mastering Data Mining. 62 (2001) 103-111. A survey of data mining and knowledge discovery software tools. Sun Ha. que identifica e monitora padrões de comportamento de problemas. Stephen A.kdnuggets. O segundo exemplo mostra como uma ferramenta Data Mining capaz de prever a ocorrência de patologias ou simplesmente mostrar a tendência de ocorrência baseada nas características da população. de maneira brilhante. pode aumentar a qualidade preventiva da saúde pública e auxiliar. Seumg Hee. 1993. 1: 20-33. Uma solução. Referências Berry. Florida: Morgan Kaufmann. Foram apresentados. Lee. Stephen E. neste trabalho.com/polls/2005/data_types. Ken B. Moser.A. É apresentada uma solução. L.htm]. baseada em técnicas de data mining é apresentada através de um mecanismo de detecção de fraudes e abusos. Linoff.devmedia. os programas de saúde implantados por governos ou instituições. É isso ai pessoal. Gruenwald. J. Sprague. Gordon S. Associations Rules and Data www. O terceiro exemplo reforça.com. New York: John Wiley & Sons.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 15/17 . e detecta mudanças nas características destes problemas. Data Mining approach to policy analysis in health insurance domain. destinada à vigilância sanitária. permitindo que ações sejam tomadas antes mesmo de um surto da situação. Jones. Michael Hardin. International Journal of Medical Informatics. [http://www. de fato. até a próxima coluna. Dong Ha. No primeiro exemplo é apresentado um dos problemas mais sérios da saúde. Ji. J. Case-Based Reasoning. a solução proposta representará uma expressiva economia em benefício do sistema de saúde. como epidemias e endemias. Os casos apresentados mostram que é possível utilizar soluções construídas a partir de técnicas de data mining para resolver problemas existentes na gestão dos serviços de saúde e conseqüentemente beneficiar a população que recebe estes serviços. J. Young Moon. Chae. 2000. Kolodner. Waites. Espero que tenham aproveitado. que em muitos casos provocam verdadeiros colapsos no sistema. Se bem sucedida.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Porém é prática comum em vários domínios. Alan P. Ho. M. alguns conceitos básicos e exemplos sobre esta tecnologia que propõem soluções a problemas inerentes aos sistemas de saúde. a idéia de como este tipo de solução pode. Goebel.

.br Vander Emiro Muniz Vander Emiro Muniz(vmuniz@triscal. na área de concentração de Bioinformática.. Yang. 4 (1998) 3713-181. Wang San-Yih.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 16/17 . mestrando em informática em saúde.br) é graduado em Ciência da Computação pelo Centro Universitário Adventista de São Paulo (UNASP). Atualmente sou consultor de Busines.com.com. 0 COMENTÁRIO Ne nhum com e ntário foi postado . Vander Emiro Muniz vmuniz@triscal.br www. pela Universidade Federal de São Paulo (UNIFESP). Wan-Shiou.com.com.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Mining in Hospital Infection Control and Public Health Surveillance. Expert Systems with Applications 31 (2006) 56–68. Journal of the American Medical Informatics Association.devmedia. 5 N.triscal. A process-mining framework for the detection of healthcare fraud and abuse. V.se ja o prim e iro a com e ntar! cursos relacionados últimos do autor Administração do Firebird/InterBase C urso de Administração do Microsoft SQL Server Ferramentas Administrativas do MySQL PL/SQL Oracle Administração do Firebird/InterBase [Ver todos] +SQL Publicidade www.

Todos os Dire itos R e se rvados a web-03 www.devmedia.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 17/17 .com.24/04/13 Data Mining: conceitos e casos de uso na área da saúde Serviços Inclua um comentário Adicionar aos Favoritos Marcar como lido/assistido Incluir anotação pessoal Versão para impressão (ajuda) DevMedia | Anuncie | Fale conosco Hospedagem web por Porta 80 Web Hosting 2013 .