You are on page 1of 63

PONTIFCIA UNIVERSIDADE CATLICA DO PARAN CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA PS-GRADUAO EM BANCO DE DADOS

ADRIANO OLIVEIRA CABRAL FERNANDO JESUS ROCHA

DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO

CURITIBA 2012

ADRIANO OLIVEIRA CABRAL FERNANDO JESUS ROCHA

DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO

Trabalho de Concluso de Curso apresentado ao Programa de PsGraduao em Banco de Dados da Pontifcia Universidade Catlica do Paran, como requisito parcial obteno do ttulo de especialista em Banco de Dados. Orientador: Professor Rosano Dallagassa MSc. Marcelo

CURITIBA 2012

ADRIANO OLIVEIRA CABRAL FERNANDO JESUS ROCHA

DESCOBERTA DE PADRES PARA A IDENTIFICAO DE BENEFICIRIOS COM INDICATIVOS A INFARTO AGUDO DO MIOCRDIO

Trabalho de Concluso de Curso apresentado ao Programa de Ps-Graduao em Banco de Dados da Pontifcia Universidade Catlica do Paran, como requisito parcial obteno do ttulo de especialista em Banco de Dados.

COMISSO EXAMINADORA

_____________________________________ Prof. MSc. Marcelo Rosano Dallagassa Pontifcia Universidade Catlica do Paran

_____________________________________ Prof. Dra. Raquel Kolitski Stasiu Pontifcia Universidade Catlica do Paran

_____________________________________ Prof. MSc. Mrcio Fuckner Pontifcia Universidade Catlica do Paran

Curitiba, ____ de ________ de 2012.

Eu, Adriano, dedico este trabalho aos meus queridos pais, sem vosso apoio eu jamais chegaria at aqui. Eu, Fernando, dedico este trabalho minha esposa Adriana e aos meus pais, que sempre acreditaram e mim.

AGRADECIMENTOS

Ao Professor MSc. Marcelo Rosano Dallagassa, nosso sincero e grandioso agradecimento pela extraordinria orientao. Professora Dra. Raquel Kolitski e ao Professor MSc. Marcio Fucker, nosso muito obrigado pelas crticas construtivas.

"Se, a princpio, a ideia no absurda, ento no h esperana para ela. Albert Einstein

RESUMO

De acordo com a Sociedade Brasileira de Cardiologia, o Infarto Agudo do Miocrdio a principal causa isolada de mortes no Brasil, sendo responsvel por mais de 60 mil mortes por ano. Doenas cardiovasculares, como o IAM, so classificadas como doenas crnicas no transmissveis e podem ser prevenidas, evitando os altos custos do tratamento. O objetivo deste trabalho foi utilizar uma metodologia para identificar no Plano Celos Sade da Fundao Celesc de Seguridade Social CELOS, os beneficirios com forte indicativo a sofrerem Infarto Agudo do Miocrdio, encaminhar esses pacientes para programas de promoo sade e consequentemente prover qualidade de vida e diminuir os custos assistenciais do plano. A identificao dos beneficirios foi feita utilizando uma metodologia proposta por Dallagassa (2009), baseada no processo de descoberta de conhecimento em base de dados, proposto por Fayyad et al (1996), para a classificao dos beneficirios em com indicativo ou sem indicativo ao IAM, baseando-se nas informaes sobre os procedimentos mdicos realizados pertinentes doena. A metodologia utilizada seguiu os seguintes passos: Seleo das variveis relevantes para o estudo, contando com a ajuda de mdico especialista em cardiologia, para a criao do quadro de variveis, buscando os dados dos sistemas operacionais da Celos e criando uma base de dados para teste, exclusivo para o desenvolvimento deste trabalho. O prximo passo, foi a realizao do pr-processamento, onde foram criados os registros base para o algoritmo de minerao. Para o trabalho, criamos dois grupos de estudo: o Grupo 1: Infartados, com 271 beneficirios que tiveram IAM e o grupo 2: No Infartados, com 11.637 beneficirios. Em seguida, foi realizada a minerao de dados, utilizando o algoritmo de rvore de deciso C4.5, que fez a classificao para a descoberta de novas regras. Em seguida, os dados foram analisados e validados por especialista da rea mdica em cardiologia. Palavras-chave: Banco de dados, KDD, Data Mining, Infarto Agudo do Miocrdio.

ABSTRACT

According to the Brazilian Society of Cardiology, Acute Myocardial Infarction is the leading cause of death in Brazil, accounting for more than 60 000 deaths per year. Cardiovascular diseases are classified as non-transmissible and chronic diseases, and can be prevented, avoiding the high treatment costs. The goal of this study was to use a methodology to identify among the beneficiaries of health plan Fundao Celos Celesc Seguridade Social - CELOS, those who have a strong indication to suffer acute myocardial infarction, take them for health promotion programs and thus provide life quality and reduce the health plan costs. The beneficiaries identification was perfomed using a methodology proposed by Dallagassa (2009), based on the knowledge discovery in databases process, proposed by Fayyad et al (1996), for the classification of the beneficiaries between "with indicative" or "without indicative " to Acute Myocardial Infarction, based on information about the relevant medical procedures for this disease. The methodology involved the following steps: Selection of the relevant variables to the study helped by an cardiology specialist, fetching data from CELOS' systems and creating a database exclusively for testing the development of this work. The next step was to perform preprocessing, where the records were created to be used by the mining algorithm. For this work, we created two groups: Group 1: "Infarcted", with 271 beneficiaries who had Acute Myocardial Infarction and group 2: "Not infarcted", with 11,637 beneficiaries. Next, we performed data mining, using the decision tree algorithm C4.5, which discovered new rules. Then the data were analyzed and validated by a cardiology expert. Key-words: Databases, KDD, Data Mining, Acute Myocardial Infarction.

LISTA DE FIGURAS

Figura 1 Viso geral dos passos que compem o KDD ......................................... 25 Figura 2 Exemplo de rvore de deciso para determinar a espcie, ou classe, da flor ris com base nos atributos comprimento da ptala, comprimento da stala, largura da ptala, largura da stala. .......................................................................... 27 Figura 3 Metodologia proposta por Dallagassa (2009). .......................................... 32 Figura 4 Etapas do estudo. .................................................................................... 34 Figura 5 rvore de deciso gerada pelo algortmo. ................................................ 43

LISTA DE TABELAS

Tabela 1 Receita de contraprestaes e despesa assistencial das operadoras mdico-hospitalares. ................................................................................................. 19 Tabela 2 Comprometimento da receita de planos de sade em 2010 ................... 19 Tabela 3 Taxa de utilizao do plano de sade hospitalar da Fundao CELESC de Seguridade Social. ............................................................................................... 21 Tabela 4 Receita de contraprestaes e despesa assistencial da CELOS em 2010 .................................................................................................................................. 21 Tabela 5 Custos para o tratamento do infarto agudo do miocrdio entre o ano 2001 e 2010 no plano CELOS. .......................................................................................... 22 Tabela 6: Resumo dos resultados obtidos por KOBUS (2006) ................................. 30 Tabela 7 Somatrio dos exames e internaes para os grupos de Infartados e noinfartados................................................................................................................... 40 Tabela 8 Estrutura do registro utilizado para a criao do objeto de dados para minerao.................................................................................................................. 41 Tabela 9 Matriz de confuso. ................................................................................. 42 Tabela 10 Conjunto de regras encontradas na rvore de deciso. ........................ 45

LISTA DE GRFICOS

Grfico 1 - Beneficirios de planos privados de sade por cobertura assistencial do plano (Brasil - 2000-2010) ......................................................................................... 18 Grfico 2 - Distribuio da populao, entre infartados e no infartados. ................. 38 Grfico 3 - Distribuio da populao, entre infartados e no infartados. ................. 39 Grfico 4: Distribuio da populao de infartados e no infartados, de acordo com a idade. ........................................................................................................................ 39

LISTA DE ABREVIATURAS E SIGLAS

IAM KDD

Infarto Agudo do Miocrdio Knowledge Discovery in Databases Descoberta de Conhecimento em Bases de dados

OMS SBC WEKA

Organizao Mundial de Sade Sociedade Brasileira de Cardiologia Waikato Environment for Knowledge Analysis

SUMRIO

1 INTRODUO ...................................................................................................... 14 1.1 OBJETIVOS ........................................................................................................ 15 1.1.1 Objetivo Geral ............................................................................................... 15 1.1.2 Objetivos Especficos................................................................................... 15 1.2 QUESTES NORTEADORAS ........................................................................... 15 1.3 ESTRUTURA DO TRABALHO ........................................................................... 15 2 FUNDAMENTAO TERICA ............................................................................ 17 2.1 SADE SUPLEMENTAR .................................................................................... 17 2.1.1 Crise da Sade Suplementar ....................................................................... 18 2.1.2 O Cenrio da Fundao CELESC de Seguridade Social CELOS ........... 20 2.1.3 Infarto Agudo do Miocrdio ......................................................................... 22 2.1.4 Futuro ............................................................................................................ 23 2.2 INTELIGNCIA ARTIFICIAL ............................................................................... 24 2.2.1 Descoberta de Conhecimento em Bases de Dados................................... 24 2.2.2 Aprendizagem de Mquina e a Tarefa de Classificao ............................ 25 2.2.2.1 Aprendizagem por rvore de Deciso .......................................................... 26 2.3 TRABALHOS RELACIONADOS ......................................................................... 29 2.3.1 Aplicao da Descoberta de Conhecimento em Bases de Dados para Identificao de Usurios com Doenas Cardiovaculares Elegveis para Programas de Gerenciamento de Caso ................................................................ 29 2.3.2 Concepo de uma Metodologia Para Identificao de Beneficirios com Indicativos de Diabetes Mellitus Tipo 2 ................................................................. 31 3 METODOLOGIA ................................................................................................... 32 3.1 ETAPAS DO ESTUDO........................................................................................ 32 3.1.1 Identificao das variveis anlise inicial ............................................... 34 3.1.2 Pr-processamento ...................................................................................... 35 3.1.3 Minerao de Dados ..................................................................................... 35 3.1.4 Avaliao e Interpretao dos Resultados ................................................. 36 3.1.5 Validao das Regras ................................................................................... 36 3.1.6 Aspectos ticos ............................................................................................ 37

4 APRESENTAO E DISCUSSO DOS RESULTADOS .................................... 37 4.1 ANLISE DAS VARIVEIS................................................................................. 37 4.2 PR-PROCESSAMENTO................................................................................... 40 4.3 MINERAO DE DADOS................................................................................... 42 4.4 VALIDAO DAS REGRAS ............................................................................... 48 4.5 AVALIAO DOS ESPECIALISTAS .................................................................. 48 5 CONSIDERAES FINAIS .................................................................................. 54 5.1 TRABALHOS FUTUROS .................................................................................... 55 REFERNCIAS ......................................................................................................... 56

14

1 INTRODUO

Data Mining, considerada a principal etapa do KDD (sigla em ingls para Knowledge Discovery in Databases), um ramo da cincia da computao que visa descoberta de padres e relacionamentos interessantes e teis em grandes volumes de dados. Data Mining utiliza ferramentas das reas da estatstica e inteligncia artificial (tais como redes neurais e aprendizado de mquina) juntamente com a gesto de bancos de dados. Suas principais reas de aplicao so: negcios (seguros, bancrios, comrcio), pesquisas cientficas (astronomia, medicina) e segurana nacional (deteco de criminosos e terroristas) (Aurlio et al, 1999). Essa tcnica foi explorada por Dallagassa (2009) para a concepo de uma metodologia para a identificao de beneficirios de planos de sade com indicativos de Diabetes Mellitus tipo 2. Essa metologia ser utilizada para a anlise dos dados do plano de sade da empresa CELOS Fundao Celesc de Seguridade Social, a fim de identificar os beneficirios com alta probabilidade de terem um infarto agudo do miocrdio. A motivao para essa pesquisa prover uma melhor qualidade de vida para esses beneficirios, procurando investir em programas de preveno,

consequentemente, diminuindo os custos do plano com internaes devido a infarto agudo do miocrdio, que hoje uma das internaes com maior custo agregado. Ou seja, quanto antes os problemas forem identificados, mais cedo os beneficirios podem ser tratados e com um custo menor. Esta anlise se basear em dados histricos dos beneficirios, identificando aqueles que j tiveram um infarto agudo do miocrdio. E como resultado esperado, sero encontrados padres, que sero aplicado aos demais beneficirios do plano, na tentativa de identificar os demais beneficirios com indicativo de terem infarto agudo do miocrdio.

15

1.1 OBJETIVOS

1.1.1 Objetivo Geral

Utilizar uma metodologia para identificar no Plano Celos Sade da Fundao Celesc de Seguridade Social CELOS, regras que possibilitem classificar beneficirios com propenso a sofrerem Infarto Agudo do Miocrdio.

1.1.2 Objetivos Especficos

a) Identificar as variveis relevantes para o processo de descoberta de conhecimento referentes a infarto agudo do miocrdio; b) Aplicar uma metodologia para a seleo de regras para a identificao de beneficirios com indicativos a uma doena crnica no transmissvel; c) Validar as regras descobertas com especialistas em cardiologia.

1.2 QUESTES NORTEADORAS

possvel encontrar padres que identifiquem beneficirios de planos de sade com propenso ao Infarto Agudo do Miocrdio? Qual a tcnica que permitir encontrar esses padres?

1.3 ESTRUTURA DO TRABALHO

No captulo 2 apresentado a fundamentao terica para o trabalho, abordando aspectos da sade suplementar, a crise atual e as perspectivas futuras

16

para o setor. Tambm so abordados os tpicos necessrios sobre Infarto Agudo do Miocrdio e tcnicas de Inteligncia Artificial e bases de dados para o entendimento da metodologia utilizada. No captulo 3 apresentada a metodologia utilizada para o desenvolvimento deste trabalho. No captulo 4 so apresentados os resultados encontrados com a aplicao da metodologia e dos experimentos realizados. No captulo 5 so apresentas as consideraes finais acerca dos objetivos e resultados encontrados no trabalho e tambm os trabalhos futuros.

17

2 FUNDAMENTAO TERICA

Por se tratar de uma pesquisa no ramo da informtica aplicada sade, conceitos de ambas as reas so necessrios. No que concerne a sade, necessrio entender o atual cenrio da sade suplementar no Brasil, o que e qual sua misso. Tambm relacionado sade, sero apresentados tpicos relacionados ao Infarto Agudo do Miocrdio, o que , as causas, preveno e os impactos dessa doena na sade suplementar no Brasil. No que concerne informtica, sero apresentados os conceitos de Business Inteligence, Data Mining e KDD (Knowledge Discovery in Databases), explicando tambm a importncia desses conceitos para se alcanar os objetivos desse trabalho.

2.1 SADE SUPLEMENTAR

A Lei 9.656/1998 define Plano Privado de Assistncia Sade como sendo pessoa jurdica constituda sob a modalidade de sociedade civil ou comercial, cooperativa, ou entidade de autogesto, que opere produto, servio ou contrato de prestao continuada de servios ou cobertura de custos assistenciais a preo pr ou ps estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistncia sade, pela faculdade de acesso e atendimento por profissionais ou servios de sade, livremente escolhidos, integrantes ou no de rede credenciada, contratada ou referenciada, visando a assistncia mdica, hospitalar e odontolgica, a ser paga integral ou parcialmente s expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor (BRASIL, ANS, 2010).

18

2.1.1 Crise da Sade Suplementar

No Brasil, mais de 45,7 milhes de pessoas so beneficirios de planos de assistncia mdica, correspondendo a cerca de 24,1% da populao, sendo 18,7% beneficirios de planos de sade privados e 5,4% beneficirios de planos de sade pblicos (BRASIL, ANS, 2010). Observando o crescimento da adeso aos planos privados de sade, apresentado no grfico 1, observamos um aumento de mais de 12 milhes de beneficirios entre dezembro do ano 2000 at maro de 2010, e tambm que a taxa de adeso tem aumentado em cerca de 2 milhes de beneficirios por ano.
50,0 45,0 40,87 42,86

43,20

beneficirios (em milhes)

40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 30,71 31,13 31,11 31,77 33,67

35,11

36,93

38,78

dez/00 dez/01 dez/02 dez/03 dez/04 dez/05 dez/06 dez/07 dez/08 dez/09 mar/10 Grfico 1 - Beneficirios de planos privados de sade por cobertura assistencial do plano (Brasil 2000-2010). Fonte: BRASIL, ANS, 2010 (adaptao do autor).

O lucro apresentado na tabela 1 considera apenas o lucro assistencial, portanto no esto sendo consideradas as despesas administrativas que uma empresa possui. Em 2009, as despesas administrativas das operadoras mdicohospitalares de planos privados de sade foram maiores do que 10,2 bilhes de reais. (BRASIL, ANS, 2010).

19

Tabela 1 Receita de contraprestaes e despesa assistencial das operadoras mdico-hospitalares (Brasil 2003-2010). Fonte: BRASIL, ANS, 2010 (adaptao do autor).

Ano

Receita (R$)

Despesa assistencial (R$)

Lucro assistencial (R$) 5.231.030.639 5.865.517.144 6.767.599.669 8.345.136.989 9.877.560.993 11.625.642.418 10.856.047.366 3.380.761.399

2003 2004 2005 2006 2007 2008 2009 2010 (1 trimestre)

28.015.808.675 31.622.102.461 36.396.870.458 41.157.766.429 50.776.024.165 59.164.291.002 63.970.270.882 15.667.394.023

22.784.778.036 25.756.585.317 29.629.270.789 32.812.629.440 40.898.463.172 47.538.648.584 53.114.223.516 12.286.632.624

Estudos apresentados pela Federao Nacional de Sade Suplementar revelam que as operadoras de plano de sade comprometem, em mdia, 98,2% da receita de mensalidades com despesas totais, sendo que as despesas assistenciais representam 79,8% desse total, conforme apresentado na tabela 2. (BRASIL, IESS, 2011).

Tabela 2 Comprometimento da receita de planos de sade em 2010. Fonte: BRASIL, IESS, 2011 (adaptao do autor).

2010 Receita de Mensalidades Despesas Assistenciais Internaes Exames Consultas Terapias Outras despesas Mdicas Hospitalares, Ambulatoriais e Odontolgicas Despesas Administrativas Despesa com Pessoal Tributos e outras Despesas Administrativas Despesas de Comercializao Resultado Operacional

% 100,0 79,8 39,7 22,2 19,7 4,4 14,0 14,9 38,2 61,8 3,5 1,8

20

A dificuldade financeira das operadoras de plano de sade deve-se a um regime em que as receitas so fixas pr-determinadas, enquanto que os gastos assistenciais so variveis e tendem a aumentar medida que o ocorre o envelhecimento populacional, a incorporao de novas tecnologias na execuo dos procedimentos e o aumento na utilizao dos servios. (MIRANDA, 2003). Diante desse cenrio, observa-se a necessidade de um modelo de gesto voltada preveno e promoo sade, visando melhorar a qualidade de vida dos beneficirios e ao mesmo tempo diminuir os custos assistncias.

2.1.2 O Cenrio da Fundao CELESC de Seguridade Social CELOS

A Fundao Celesc de Seguridade Social (CELOS) uma operadora de plano privado de assistncia sade de autogesto localizada em Santa Catarina e que beneficia funcionrios, e seus assistidos, e os vinculados das empresas Centrais Eltricas de Santa Catarina S.A. CELESC e da prpria CELOS, fornecendo prestao continuada de servios ambulatoriais, hospitalares com obstetrcia e odontolgicos (CELOS, 2011). O plano de sade odontolgico no objeto de estudo desse trabalho, portanto, seus dados no contriburam para a justificativa do mesmo. Conforme apresentado na tabela 3, o plano de sade hospitalar da CELOS possua, em 2010, 19547 beneficirios. Neste mesmo ano, 17847 beneficirios utilizaram o plano pelo menos uma vez, alcanando uma taxa de utilizao de 91,30%.O comportamento humano norteado por objetivos, ou seja, motivado por algum desejo em atingir determinada meta.

21

Tabela 3 Taxa de utilizao do plano de sade hospitalar da Fundao CELESC de Seguridade Social.

Ano 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001

Beneficirios 19547 19950 20378 20718 21219 20708 21169 21307 21714 22083

Beneficirios ativos 17847 18182 18323 18449 18554 18328 18422 18626 19223 19564

Taxa de utilizao 91,30% 91,14% 89,92% 89,05% 87,44% 88,51% 87,02% 87,42% 88,53% 88,59%

A tabela 4 mostra que, em 2010, as despesas assistenciais do plano CELOS corresponderam a 88,84% da receita bruta. Nesse clculo no esto contabilizadas despesas administrativas e outras despesas gerais.

Tabela 4 Receita de contraprestaes e despesa assistencial da CELOS em 2010. Fonte: CELOS, 2010 (adaptao do autor).

Ano

Receita (R$)

Despesa assistencial (R$)

Lucro assistencial (R$) 4.853.392,38

2010

43.502.964,81

38.649.572,43

A tabela 5 apresenta os custos do plano CELOS para o tratamento do infarto agudo do miocrdio entre o ano de 2001 e o ano de 2010. Observa-se que, mesmo com a reduo da ocorrncia de IAM, os custos para o tratamento aumentaram.

22

Tabela 5 Custos para o tratamento do infarto agudo do miocrdio entre o ano 2001 e 2010 no plano CELOS.

Ano 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 21 14 23 17 26 17 22 17 14 16

Quantidade

Custo Total (R$) 372.520,95 267.957,10 557.858,55 474.220,62 959.191,52 550.129,75 1.006.560,30 639.193,34 631.592,28 602.537,25

Custo Mdio (R$) 17.739,09 19.139,79 24.254,72 27.895,33 36.891,98 32.360,57 45.752,74 37.599,61 45.113,73 37.658,58

2.1.3 Infarto Agudo do Miocrdio

De acordo com Halhuber et al (1981, p. 4),


Durante o infarto ocorre uma sbita e localizada diminuio da irrigao do msculo cardaco. Em consequncia h uma carncia acentuada de oxignio nas clulas do msculo cardaco, a ponto de no poderem mais sobreviver. Este desbalanceamento entre a necessidade de oxignio dos musculo cardaco e o suprimento atravs do fluxo sanguneo para as respectivas clulas causado, em 95% dos casos, por alteraes na parede das artrias coronrias. (Halhuber et al, 1981, p. 4).

A causa para a carncia de oxignio das clulas do msculo cardaco , segundo Kamel e Kamel (1996, p.12):
[...] Deve-se quase que exclusivamente, mais de 95% dos casos, deposio de colesterol e de outras gorduras no sangue (triglicerdios e fosfolipdios) nas artrias, constituindo o processo patolgico da arteriosclerose. O enfarte pode ser compreendido de uma maneira simplista como sendo, exclusivamente, de origem arteriosclertica (formao de placas gordurosas, ateromas) nas artrias coronarianas.

Outros fatores, tais como: ausncia de exerccios fsicos, m alimentao stress dirio e tenses emocionais, aliados deposio do colesterol e outras

23

gorduras no sangue, tambm contribuem para acentuar o risco de ocorrer o infarto agudo do miocrdio (Kamel e Kamel, 1996, p.12; Olszewer, 1992, p. 42). Segundo dados Sociedade Brasileira de Cardiologia (2004), o infarto agudo do miocrdio responsvel por 60.080 bitos no Brasil, sendo assim considerada a principal causa isolada de morte no pas. No se sabe exatamente qual o nmero de infartos anualmente, estima-se entre 300 mil e 400 mil, levando taxa de um bito para cada 5 a 7 infartos. A ocorrncia do infarto agudo do miocrdio em um paciente pode ser evitada se medidas profilticas forem tomadas. As operadoras de plano de sade, visando a melhoria da qualidade de vida de seus beneficirios, devem identificar aqueles com indicativos a desenvolverem a doena e encaminh-los para programas de preveno sade. esperado que essas medidas tambm contribuam para a diminuio dos custos assistenciais.

2.1.4 Futuro

Segundo Miranda (2003), o modelo atual de assistncia sade, ou seja, baseado em um paradigma assistencialista focado na doena, est equivocado, pois, de acordo com dados da OMS, apenas 10% dos fatores que fazem com que um individuo ultrapasse os 65 anos de idade esto ligado assistncia mdica, estilo de vida representa 53%, meio ambiente 20% e herana gentica 17%. Esses dados evidenciam a necessidade de um novo paradigma preventivo em substituio do atual modelo reativo. Para Kobus (2006), o novo modelo de gesto deve propiciar prestao de servios de qualidade, focando na preveno de doenas e promoo sade, e sustentabilidade financeira. De acordo com Dallagassa (2009), as informaes clnicas dos beneficirios, que permitiriam a identificao daqueles com riscos a desenvolverem determinadas doenas, muitas vezes no esto contidas nas bases de dados das operadoras de sade, dificultando a identificao dos mesmos para ingresso em programas de promoo sade. Nesse contexto, o uso de tcnicas da Tecnologia da Informao e da Cincia da Computao, como Inteligncia Artificial, se tornam primordiais em um no modelo

24

de gesto orientado preveno e promoo sade contribuindo para o processo de tomada de deciso.

2.2 INTELIGNCIA ARTIFICIAL

Segundo Turban (1995), Inteligncia Artificial uma subdiviso da cincia da computao, voltada criao de software e hardware que objetiva a produo de conhecimentos, tal como os produzidos pelos seres humanos. Portanto, Inteligncia artificial pode ser entendida como agentes

computacionais automatizados para realizar atividades humanas nas quais processos de tomada de deciso e aprendizagem so necessrios. De acordo Dallagassa (2009), a utilizao de tcnicas de inteligncia artificial, como o KDD (Knowledge Discovery in Databases), em banco de dados e sistemas especialistas se fazem necessrios para a anlise das informaes das bases de dados das operadoras de plano de sade, no s pelo grande volume dados, mas tambm pela complexidade de se interpretar e produzir conhecimento.

2.2.1 Descoberta de Conhecimento em Bases de Dados

Fayyad et al (1996) definiu o processo de Descoberta de Conhecimento em Bases de Dados como: ... o processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis em dados. Ser um processo implica em executar um conjunto de etapas, que no KDD compreende: analise inicial, seleo, limpeza e pr-processamento, transformao, minerao, interpretao dos padres encontrados e utilizao do conhecimento (Fayyad et al, 1996): 1. Anlise inicial: um processo de conhecimento do domnio de trabalho e definio das metas a serem alcanadas pelo processo de KDD; 2. Seleo dos dados: definio de qual ser o domnio dos dados para uso no processo;

25

3. Limpeza e pr-processamento dos dados: envolve a remoo dos outliers (dados atpicos), registros repetidos e definio de estratgias para lidar com dados faltantes; 4. Transformao dos dados: visa encontrar caratersticas importantes para representar os dados de acordo com o objetivo do processo e reduzir o nmero de variveis; 5. Minerao dos dados: considerada a principal etapa do KDD, refere-se aplicao de algoritmos especficos para a extrao de padres em bases de dados, transformando dados em informao; 6. Interpretao dos padres encontrados; 7. Utilizao do conhecimento gerado.

Figura 1 Viso geral dos passos que compem o KDD. Fonte: Fayyad et al, 1996.

2.2.2 Aprendizagem de Mquina e a Tarefa de Classificao

Aprendizagem de mquina pode ser definida como o estudo de mtodos para o aprendizado de programas de computadores, e suas tarefas so dividas em

26

supervisionados e no supervisionadas. A aprendizagem supervisionada faz uso de um conjunto de dados de treinamento em que cada objeto possui uma classe rotuladora. A partir desse modelo, o algoritmo deve ser capaz de inferir a classe de novos objetos. (Dietterich, 2003). Portanto, aprendizagem de mquina supervisionada por classificao consiste em treinar o algoritmo a partir de objetos previamente classificados para que, ento, o algoritmo seja capaz de inferir a classe de novos objetos. Por exemplo, suponha um conjunto de pacientes que sofreram infarto agudo do miocrdio e outro conjunto que no sofreu. Os dados sobre consultas, exames realizados, etc. definem o objeto de treinamento, ter sofrido infarto agudo do miocrdio ou no, define a classe. O algoritmo ento treinado com esses dois conjuntos e deve aprender como classificar novos objetos, alm dos utilizados no treinamento. H uma vasta quantidade de algoritmos para aprendizagem supervisionada por classificao, entre elas: redes neurais, redes Bayesianas e rvores de deciso. Dietterich (2003) classifica esse ltimo como ... um dos mais versteis, eficiente e popular algoritmo de aprendizagem de mquina. Este algoritmo foi o escolhido para a realizao desse trabalho.

2.2.2.1 Aprendizagem por rvore de Deciso

Em computao, uma rvore uma estrutura de dados composta por uma raz, ramos e ao fim dos ramos, folhas. De acordo com Dietterich (2003), uma rvore de deciso uma estrutura que segue o mesmo conceito descrito acima, em que cada n da rvore (ramo ou raz) responsvel por testar o valor de um atributo do objeto. Caso o resultado seja verdadeiro, a rvore escolhe o ramo da esquerda para seguir, se for falso, segue o da direita. Esse processo se repete at que se alcanado uma folha da rvore. As folhas no fazem tomadas de deciso, elas apenas atribuem o rtulo, ou classe, ao objeto. A prxima figura apresenta um exemplo de rvore de deciso que determina a espcie, ou classe (ris-setosa, ris-virgnica, ris-versicolor), da flor ris baseada

27

nos atributos largura da ptala, largura da stala, comprimento da ptala e comprimento da stala. Neste exemplo, todos os atributos da flor compem o objeto de estudo.

Figura 2 Exemplo de rvore de deciso para determinar a espcie, ou classe, da flor ris com base nos atributos comprimento da ptala, comprimento da stala, largura da ptala, largura da stala.

Essa rvore foi gerada com base em 150 registros de teste previamente classificados para utilizao no processo de aprendizagem supervisionada. O algoritmo gerado toma as seguintes decises: 1. Se a largura da ptala for menor ou igual a 0.6 cm, a flor ris ser classificada como ris-setosa. 2. Caso a largura da ptala for maior que 0,6 cm e menor ou igual a 1.7 cm, ento ser necessrio testar o comprimento da stala. Seno, a flor ris ser classificada como ris-virgnica.

28

3. Caso o comprimento da stala seja menor ou igual a 4.9 cm, ento a flor ris ser classificada como ris-versicolor. 4. Caso o comprimento da stala for maior que 4.9 cm e a largura da ptala for menor ou igual a 1.5 cm, ento a flor ris ser classificada como risvirgnica. Seno, ser classificada como ris-versicolor. Como grandes vantagens dos algoritmos de aprendizagem por rvore de deciso esto a facilidade com que humanos podem interpretar o resultado gerado e, tambm, a fcil implementao do algoritmo nos sistemas que efetivamente faro uso. Para o teste do algoritmo gerado nesse trabalho, foi escolhido o mtodo validao cruzada por k-fold. Segundo Refaeilzadeh et al (2009), Validao cruzada um mtodo estatstico para avaliao e comparao de algoritmos de aprendizagem atravs da diviso dos dados em dois segmentos: aprendizagem e validao. O mtodo k-fold baseia-se na diviso do conjunto de dados em k grupos mutuamente exclusivos, em seguida realizada k iteraes em que o equivalente a k 1 grupos faro parte do segmento de aprendizagem e o grupo restante ser o grupo de teste. A cada iterao, o grupo de teste deve ser diferente (Refaeilzadeh et al, 2009). Para a anlise dos resultados gerados, so utilizadas as seguintes mtricas: acurcia, a quantidade de objetos de estudo classificados corretamente, e taxa de erro, quantidade de registros classificados incorretamente (Dallagassa, 2009). Portanto, quanto maior a acurcia e, consequentemente, menor a taxa de erro, maior a eficincia do algoritmo. O algoritmo utilizado para a gerao da rvore de deciso desse trabalho o J48, que uma implementao em linguagem Java do algoritmo C4.5 proposto por Quinlan (1993). O C4.5 constri a rvore de deciso de a partir de um conjunto dos dados de teste previamente classificados. O processo se baseia na induo e posterior refinamento da rvore de deciso, onde as regras com melhor aproveitamento aps o refinamento so utilizadas (Vianna, 2007).

29

2.3 TRABALHOS RELACIONADOS

H atualmente na literatura uma srie de trabalhos que fazem uso de tcnicas de KDD para a descoberta de padres em bases de dados, inclusive voltados a temas ligado a sade. Entretanto, especificamente voltados para a identificao de padres para a descoberta de beneficirios com indicativos a Infarto Agudo do Miocrdio no foram encontrados.

2.3.1 Aplicao da Descoberta de Conhecimento em Bases de Dados para Identificao de Usurios com Doenas Cardiovaculares Elegveis para Programas de Gerenciamento de Caso

Kobus (2006) utilizou tcnicas de KDD para a identificao de beneficirios com indicativos a doenas cardiovasculares, incluindo o Infarto Agudo do Miocrdio, elegveis para programas de gerenciamento de caso. Kobus (2006) apresenta resumidamente o resultado de sua pesquisa conforme o quadro a seguir.

30

Tabela 6: Resumo dos resultados obtidos por Kobus (2006). Fonte: Kobus (2006).

Usurios a serem indicados Variveis administrativas para programas de gerenciamento de casos cardiovasculares Com mais de 40 anos, que apresentarem em seu histrico procedimentos indicativos a diabetes (Microalbuminria, Hemoglobina Glicosada, Mapeamento de retina) e que forem do sexo masculino. Idade, cdigos de procedimentos dos usurios, custo e complexidade dos eventos.

Eventos alertas

Cateterismo cardaco, angioplastia de vaso nico, implante de stent, cintilografia do miocrdio, VR cateterismo cardaco, VR revascularizao do miocrdio, consultas de emergncia, hemoglobina glicosada, mapeamento de retina e microalbuminria.

importante ressaltar que cada base de dados nica em termos estruturais, tipos de informaes relevantes para cada negcio, compromisso com a qualidade dos dados armazenados, etc. Fatores como estes implicam em descobertas diferentes em cada estudo e, consequentemente, em se tratando de KDD, regras diferentes. Entretanto, conforme ser apresentado a seguir nos resultados encontrados, veremos que os eventos alertas descobertos por Kobus (2006), muito se assemelham aos deste trabalho.

31

2.3.2 Concepo de uma Metodologia Para Identificao de Beneficirios com Indicativos de Diabetes Mellitus Tipo 2

Dallagassa (2009), utilizou tcnicas de KDD, tambm aplicados a base de dados de uma operadora de plano de sade, com o objetivo de propor uma metodologia para a identificao de beneficirios com indicativo de Diabetes Mellitus Tipo 2. A metodologia proposta por Dallagassa (2009) se mostrou eficaz para a descoberta de padres para a identificao de beneficirios com indicativos a outras doenas crnicas no transmissveis, com o Infarto Agudo do Miocrdio, fato este que colocado prova pela utilizao dessa mesma metodologia nesse trabalho.

32

3 METODOLOGIA

Este trabalho ir utilizar a metodologia proposta por Dallagassa (2009) para identificar na base de dados da CELOS beneficirios do plano de sade administrado pela empresa, com alta probabilidade de sofrerem infarto agudo do miocrdio. A seguir, a proposta metolgica proposta por Dallagassa (2009):

Figura 3 Metodologia proposta por Dallagassa (2009). Fonte: Dallagassa (2009).

3.1 ETAPAS DO ESTUDO

33

A Celos no dispe de um ambiente Data Warehouse, ento, foi necessrio criar uma base de dados oracle para estudo que iria receber os dados da base de produo. O primeiro passo do trabalho foi realizar o levantamento de todas as tabelas necessrias distribudas entre os sistemas em produo da CELOS, para compor a base de dados de estudo. Este levantamento foi realizado em conjunto com os analistas de sistemas da CELOS, que ao final do levantamento, disponibilizaram o arquivo de exportao dos dados levantados, que posteriormente foram importados pela base de dados de estudo. Em seguida, foi feito a seleo das variveis importantes para o estudo, disponibilizados por especialista na rea mdica em cardiologia. Os dois grandes grupos de estudo foram criados no passo seguinte: Grupo 1: Beneficirios que se submeteram ao procedimento de revascularizao do miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de revascularizao do miocrdio; Pr-processamento, onde foi criado o arquivo com a estrutura baseada nas variveis selecionadas. Minerao dos dados onde foi utilizado o algoritmo de rvore de deciso C4.5 para realizar a tarefa de classificao para a descoberta das regras. E por fim, a anlise e validao dos resultados obtidos.

34

Figura 4 Etapas do estudo.

3.1.1 Identificao das variveis anlise inicial

Para realizar o estudo, selecionamos dados de dois grupos distintos da base de dados, tendo adotado a data de 31/12/2010 como data limite: Grupo 1: Beneficirios que se submeteram ao procedimento de Revascularizao do Miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de Revascularizao do Miocrdio. Para a criao destes dois grupos, foi verificada a ocorrncia do procedimento Revascularizao do Miocrdio, dentre as internaes pelas quais os beneficirios se submeteram. Para os beneficirios onde houve ocorrncia do procedimento de Revascularizao do Miocrdio, o mesmo foi classificado no Grupo 1, e para os que no tiveram ocorrncia deste procedimento, foram classificados no Grupo 2. A identificao das variveis relevantes para o estudo foi cedida por mdico especialista em cardiologia, sendo: 1. Ressonncia Magntica

35

2. Cateterismo 3. Cintilografia 4. Angioplastia 5. Marcapasso 6. Sexo 7. Idade

3.1.2 Pr-processamento

Para o Grupo 2, as variveis quantitativas (1 a 5) foram acumuladas para cada beneficirio, no perodo de 5 anos, at a data limite, ou seja, de 01/01/2006 a 31/12/2010. E as variveis 6 e 7 foram obtidas na data limite. Os beneficirios do Grupo 2, que no possuam 5 anos de permanncia no plano de sade, foram excludas do estudo, assim como os beneficirios que no estavam dentro dos limites de idade, sendo 29 a idade mnima e 83 a idade mxima. Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 est dentro desta faixa de idade. Para o Grupo 1, foram excludos somente os beneficirios que no possuam nenhum histrico anterior os procedimento de Revascularizao do Miocrdio. Ao final deste levantamento, obtivemos 271 beneficirios no Grupo 1 e 11.637 no Grupo 2, com seus dados sumarizados por beneficirio, omitindo-se a identificao do beneficirio. Para a fase de treinamento e validao, foi criado o atributo rtulo Infartado. Para o Grupo 1, este atributo possui o valor Sim e para o Grupo 2, este atributo possui o valor No.

3.1.3 Minerao de Dados

Pela facilidade de interpretao, o algoritmo escolhido para a minerao dos dados, foi a rvore de deciso, com aprendizagem supervisionada, que realiza

36

inferncia nos dados permitindo que sejam feitos previses ou descoberto tendncias. O software utilizado para a realizao dos estudos, foi a ferramenta de software livre WEKA (Waikato Environment for Knowledge Analysis, disponvel em http://www.cs.waikato.ac.nz/ml/weka/), com o algoritmo de classificao J4.8, sendo uma verso do algoritmo C4.5 proposto por Quinlan (1993). Para a execuo dos testes, foi utilizado o mtodo de validao cruzada com 10 repeties.

3.1.4 Avaliao e Interpretao dos Resultados

Para a avaliao e interpretao dos resultados, analisado a rvore de deciso, com as regras geradas, bem como a matriz de confuso, onde observa-se a acurcia e taxa de erro da populao dos dados e de cada regra. As categorias adotadas para a classificao foram: A Com indicativo a ter infarto agudo do miocrdio; B Sem indicativo a ter infarto agudo do miocrdio.

3.1.5 Validao das Regras

Para a validao das regras, utilizamos um formulrio (Apndice A), com discriminao das 16 regras encontradas na rvore de deciso e disponibilizamos para 2 mdicos especialistas em cardiologia. Neste formulrio, os especialistas analisaram as regras e fizeram suas inferncias, validando as mesmas.

37

3.1.6 Aspectos ticos

Para a elaborao deste trabalho, foram omitidos todas as informaes que pudessem identificar os beneficirios. O arquivo de exportao cedido pela CELOS no continham os dados pessoais que pudessem identificar os beneficirios, mantendo assim a privacidade dos mesmos.

4 APRESENTAO E DISCUSSO DOS RESULTADOS

Este captulo apresentar os resultados obtidos em cada etapa deste trabalho. Com uma breve apresentao dos dados de acordo com as variveis selecionadas para o estudo. Em seguida, detalha-se os resultados obtidos com a rvore de deciso gerada pelo WEKA. E por fim, as concluses apontadas pelos especialistas com os resultados obtidos com modelo de previso.

4.1 ANLISE DAS VARIVEIS

As variveis utilizadas para estudo so o sexo, idade e quantidade de exames e internaes pela qual os beneficirios foram submetidos. A sumarizao dos exames e internaes segue-se as seguintes regras: Perodo: o Infartados: Data final como sendo a data do infarto, limitado a 31/12/2010 e a data inicial sendo a data de inscrio no plano de sade; o No infartados: de 01/01/2006 a 31/12/2010. Excluso da populao: o Infartados: beneficirios que no possuam nenhum histrico das variveis de estudo antes do infarto;

38

o No-Infartados: Limitao da idade, entre 29 e 83. O limite de 29 foi escolhido, em funo da idade do infartado, que foi de 34 anos, e como estamos analisando 5 anos de histrico, subtramos 5 anos da idade mnima. O limite de 83, a idade do infartado de maior idade da populao; Beneficirios que no possuam 5 anos completos dentro do plano de sade; Realizado esse processo, chega-se ao nmero de 271 infartados e 11637 no infartados, conforme grfico abaixo.

Infartado No_infartado

Grfico 2 - Distribuio da populao, entre infartados e no infartados.

A primeira anlise realizada com relao ao atributo rtulo, diz respeito ao sexo dos participantes. Foi verificado que o grande grupo de risco do sexo masculino, pois identificou-se os seguintes nmeros: Sexo masculino: o Infartado: 216 o No infartado: 5601 Sexo feminino: o Infartado: 55 o No infartado: 6036

39

A seguir, a distribuio da populao, referenciando os atributos sexo com a situao de infartados, distribudo graficamente, onde os pontos vermelhos so do sexo feminino e os azuis so do sexo masculino, na parte superior do grfico so os beneficirios infartados e na parte inferior so os beneficirios no infartados.

Grfico 3 - Distribuio da populao, entre infartados e no infartados.

Em seguida, analisou-se o atributo rtulo infartado, fazendo relao com a idade dos participantes. Onde verificou-se que a grande concentrao dos infartados (em vermelho) esto entre 53 e 77 anos, conforme distribuio no grfico a seguir.

Grfico 4: Distribuio da populao de infartados e no infartados, de acordo com a idade.

40

As demais variveis, tratam do somatrio de exames e internaes para os dois grupos de estudo, onde temos o resultado a seguir.
Tabela 7 Somatrio dos exames e internaes para os grupos de Infartados e no-infartados.

Infartado ECG TESTE_ESFORCO CONSULTA_EMERGENCIA ECOCARDIO CATETERISMO CINTILOGRAFIA ANGIOPLASTIA MARCAPASSO MAPA ANGIOTOMOGRAFIA RESSONANCIA_MAGNETICA

Sim 1287 302 275 267 221 68 57 35 24 4 3

No 54524 17396 39276 7830 704 1258 486 30 1297 168 10

Como estamos trabalhando com toda a populao de beneficirios, o simples somatrio no evidencia as regras, esta anlise foi realizada por meio da rvore de deciso.

4.2 PR-PROCESSAMENTO

Com a base de dados disponibilizada pela Celos e devido enorme quantidade de registros na base de dados, foram criadas duas tabela, uma de infartados e outra para os no-infartados, de forma a facilitar as consultas futuras. Ainda nestas tabelas, criamos, em forma de coluna, todas as variveis do estudo. Em seguida, as colunas foram populadas, fazendo o somatrio das variveis. O somatrio foi realizado por beneficirio, de acordo com a estrutura a seguir.

41

Tabela 8 Estrutura do registro utilizado para a criao do objeto de dados para minerao.

Nome ECG

Domnio Contnuo

Descrio Quantidade de eletrocardiogramas realizados pelo beneficirio no perodo de 5 anos.

TESTE_ESFORCO

Contnuo

Quantidade de testes de esforo realizados pelo beneficirio no perodo de 5 anos.

CONSULTA_EMERGENCIA

Contnuo

Quantidade de consultas de emergncia realizados pelo beneficirio no perodo de 5 anos.

ECOCARDIO

Contnuo

Quantidade de ecocrdios realizados pelo beneficirio no perodo de 5 anos.

CATETERISMO

Contnuo

Quantidade de cateterismos realizados pelo beneficirio no perodo de 5 anos.

CINTILOGRAFIA

Contnuo

Quantidade de cintilografias realizados pelo beneficirio no perodo de 5 anos.

ANGIOPLASTIA

Contnuo

Quantidade de angioplastias realizados pelo beneficirio no perodo de 5 anos.

MARCAPASSO

Contnuo

Quantidade de marcapassos realizados pelo beneficirio no perodo de 5 anos.

MAPA

Contnuo

Quantidade de mapas realizados pelo beneficirio no perodo de 5 anos.

ANGIOTOMOGRAFIA

Contnuo

Quantidade de angiotomografias realizados pelo beneficirio no perodo de 5 anos.

42

RESSONANCIA_MAGNETICA

Contnuo

Quantidade de ressonncias magnticas realizados pelo beneficirio no perodo de 5 anos.

SEXO

Nominal

Sexo do Beneficirio. (F) Feminino e (M) Masculino

IDADE

Contnuo

Atributo nmerido identificando a idade do beneficirio.

INFARTADO

RTULO (Categrico)

Atributo classe, podendo ser: (N) No infartado e (S) Infartado

4.3 MINERAO DE DADOS

Seguindo a metodologia sugerida por Dallagassa (2009), a ferramenta utilizada para o processo de minerao foi o WEKA, software livre, produzido pela Universidade de Waikato Nova Zelndia, utilizando-se o mtodo de classificao C4.5 (Quinlan, 1993), aplicando o mtodo de referncia cruzada, na repetio 10. Importado o objeto de minerao na ferramenta, analisou-se a matriz de confuso gerada pela ferramenta, recurso que nos permite verificar a acurcia e a taxa de erro do modelo. No primeiro teste realizado, verificou-se que o atributo Cateterismo indicava o atributo alvo, invalidando os resultados, desta forma, este atributo foi retirado do modelo. Aps a retirada do atributo, executou-se novamente o algoritmo C4.5, e obtivemos 97.88% como taxa de acurcia, sendo 11656 registros classificados corretamente, da populao de 11908 registros.
Tabela 9 Matriz de confuso.

Previsto No-Infartado 11625 240 Infartado 12 31

Real

No-Infartado Infartado

43

A rvore de deciso gerada pelo algoritmo, gerou uma estrutura com 16 regras encontradas. A seguir, a rvore gerada pelo algoritmo:

Figura 5 rvore de deciso gerada pelo algortmo.

A seguir, esto descritas as regras encontradas com indicativo a infarto agudo do miocrdio: 1. Beneficirios que no possuem marcapasso e no fizeram nenhuma consulta em emergncia e fizeram um exame de cintilografia e fizeram at dois exames de teste de esforo e fizeram um ou mais exames de ecocrdio e fizeram at 7 exames de ECG e so do sexo masculino;

44

2. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram at um exame de cintilografia e so do sexo masculino e fizeram at 2 exames de teste de esforo e no fizeram nenhum ecg e so menores de 60 anos; 3. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram at um exame de cintilografia e so do sexo masculino e fizeram at 2 exames de teste de esforo e fizeram 1 ou mais exames de ecocardiografia e fizeram mais de 7 exames de ECG e so maiores de 68 anos de idade; 4. Beneficiarios que no possuem marcapasso e que no fizeram nenhuma consulta em emergncia e que fizeram mais de um exame de cintilografia e que so do sexo masculino e fizeram mais de 2 exames de teste de esforo e fizeram mais de 1 ecocardio e fizeram mais de 1 mapa; 5. Beneficiarios que possuem marcapasso e que fizeram at 15 exames de ECG e que so do sexo feminino e que no fizeram nenhum exame de cintilografia; 6. Beneficiarios que possuem marcapasso e que fizeram at 15 exames de ECG e que so do sexo masculino.

A seguir, o conjunto de regras total encontrados na rvore de deciso.

45

Tabela 10 Conjunto de regras encontradas na rvore de deciso.

Regras

Infartado Sim No X

(MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA <= 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = F) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO <= 0) e ( IDADE <= 60) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO <= 0) e ( IDADE >60) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e X X

46

(ECG <=7) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e (ECG > 7) e (IDADE <= 68) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA <= 1) e (ECOCARDIO > 0) e (ECG > 7) e (IDADE > 68) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO <= 2) e (CINTILOGRAFIA > 1) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO <= 1) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e X X X X X

47

(CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO > 1) e (MAPA <= 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA <= 0) e (CINTILOGRAFIA > 0) e (SEXO = M) e (TESTE_ESFORCO > 2) e (ECOCARDIO > 1) e (MAPA > 0) (MARCAPASSO <= 0) e (CONSULTA_EMERGENCIA > 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = F) e (CINTILOGRAFIA <= 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = F) e (CINTILOGRAFIA > 0) (MARCAPASSO > 0) e (ECG <= 15) e (SEXO = M) (MARCAPASSO > 0) e (ECG > 15) X X X X X X

48

4.4 VALIDAO DAS REGRAS

Para a validao das regras, foi criado um formulrio para preenchimento por especialista da rea mdica em cardiologia, com as regras que indicam a tendncia a infarto agudo do miocrdio. Como o nosso trabalho verifica somente a tendncia de ter ou no ter infarto, optou-se por inserir neste formulrio somente as regras que indicam tendncia ao infarto, de modo que o no atendimento regra, indica implicitamente que o beneficirio no tem tendncia a ter um infarto.

4.5 AVALIAO DOS ESPECIALISTAS

Nesta etapa, solicitou-se a avaliao das regras encontradas, por parte de especialistas em cardiologia, por meio de um instrumento de validao (modelo disponvel no Apndice A), devidamente respondido pelos especialistas. O mdico especialista respondeu ao instrumento de validao, preenchendo a coluna Avaliao da Regra com as seguintes opes: 1 Concordo com a regra 2 Concordo parcialmente com a regra 3 Discordo da regra

No campo observao, o mdico especialista deu o seu parecer sobre a avaliao informada. A seguir, quadro com as respostas do especialista convidado para a avaliao, os comentrios retirados desta anlise esto disponveis logo aps.

49

Regra Beneficirios que no possuem marcapasso E no fizeram nenhuma consulta em emergncia E fizeram um exame de cintilografia E fizeram at dois exames de teste de esforo E fizeram um ou mais exames de ecocrdio E fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino e fizeram at 2 exames de teste de esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo

Especialista 1

50

E fizeram 1 ou mais exames de ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e fizeram mais de 1 mapa. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo masculino. 1 1 2

No quadro a seguir, os comentrios realizados pelo especialista, da forma exata como foi escrito, para cada regra avaliada:

51

Regra Beneficirios marcapasso E que no

Especialista possuem Marcapasso seria uma consequncia da revascularizao. ?? nenhuma consulta em emergncia??

no fizeram nenhuma consulta em Cintilografia ok -> revascularizao obr emergncia E fizeram um exame de cintilografia E deteco da isquemia. Ecocardio ok -> ECG -> OK qto a frequncia

fizeram at dois exames de teste de Sexo Masculino mais suscetvel aos esforo E fizeram ecocrdio E fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios marcapasso E que no possuem Teste de esforo 2 em um intervalo de 5 anos = concorda 2 teste de esforo em 5 anos = ok. um ou mais exames de eventos coronarianos.

que no fizeram nenhuma consulta em Discorda e equivoco em relao ao ECG. emergncia E que fizeram at um exame Menor de 60 anos havia tendncia de abaixo de 70, acima de 70 tratamento clinico Hoje em dia isso esta mudando. Comenta que deva-se considerar um ponto de corte um pouco mais alto de 70

cintilografia E so do sexo masculino e

fizeram at 2 exames de teste de anos. esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem

52

marcapasso E

-- concordo parcialmente. Emerg.= 0 como sendo tratamento eletivo

que no fizeram nenhuma consulta em Algumas revascularizaes acontecero emergncia E que fizeram at um exame depois de uma consulta de emergncia. Acima de 70 comentrio acima e com de foco no tratamento eletivo.

cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo E fizeram 1 ou mais exames de

ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios marcapasso E que no fizeram nenhuma consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e que no possuem Mais de 1 mapa valida a experincia .

53

fizeram mais de 1 mapa. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios que possuem marcapasso E que fizeram at 15 exames de ECG E que so do sexo masculino. Concorda na negao da cintio, porem ter que realizar um Cateterismo. Essa regra pode ser explorada Concorda na negao da cintio, porem ter que realizar um Cateterismo. Essa regra pode ser explorada

/detalhada para investigao, acrescida do procedimento cateterismo.

/detalhada para investigao, acrescida do procedimento cateterismo.

Conforme as respostas do mdico especialista, nenhuma regra encontrada pela rvore de deciso foi rejeitada. Percebe-se em alguns comentrios o questionamento sobre o nmero de consultas em emergncia. Analisando a base de dados, descobrimos realmente que o nmero muito baixo, o que pode indicar uma falha na base de dados e no no modelo encontrado.

54

5 CONSIDERAES FINAIS

Em 2010, as empresas de plano de sade comprometeram, em mdia, o equivalente a 79,8% do arrecadamento total somente com despesas assistncias, obtendo no final do balano um lucro de 1,8%. (BRASIL, IESS, 2011). A arrecadao de uma operadora de plano de sade conhecida de antemo, enquanto as despesas so variveis, e os custos so maiores quando o atendimento aos beneficirios reativo a suas doenas. Por isso, as operadoras de plano de sade precisam mudar o modelo de gerenciamento de seus beneficirios, focando em um modelo preventivo a doenas, visando melhorar a qualidade de vida dos seus beneficirios e tambm diminuir os custos assistenciais. Essa uma ao crtica para as operadoras de plano de sade para que possam sobreviver em meio grande concorrncia e aos altos custos assistncias (Miranda, 2003). O Infarto Agudo do Miocrdio a principal causa isolada de mortes no Brasil, e o seu tratamento de alto custo para as operadoras. Observou-se que no Plano CELOS, o custo mdio para o tratamento de um beneficirio que sofreu IAM nos ltimos 5 anos esteve acima de 40 mil reais. Nesse contexto, surgiu a motivao para a utilizao de tcnicas de Inteligncia Artificial voltadas descoberta de padres em Banco de Dados para a identificao de beneficirios com indicativos a Infarto Agudo do Miocrdio, para que estes sejam encaminhados a programas de preveno, proporcionando melhor qualidade de vida e, consequentemente, diminuindo os custos assistenciais dos planos de sade. A elaborao das regras, a partir da rvore de deciso gerada pelo algoritmo, permitiu que um especialista em cardiologia atestasse o conhecimento encontrado, validando as regras encontradas, sendo que, nenhuma hiptese foi recusada pelo especialista, mostrando a eficincia da metodologia proposta por Dallagassa. O resultado deste trabalho pode ser amplamente utilizado pela CELOS, para a criao de programas promoo, preveno e gerenciamento de casos de beneficirios que possuem tendncia a ter um infarto agudo do miocrdio. Este tipo de trabalho, alm de promover a qualidade de vida dos participantes do plano de sade, permite um melhor gerenciamento dos recursos financeiros do plano de sade, at mesmo, a diminuio dos custos com internaes e procedimentos.

55

5.1 TRABALHOS FUTUROS

Para trabalhos futuros, verificou-se a necessidade da construo de um aplicativo que implementasse a metodologia proposta por Dallagassa (2009). Este aplicativo deveria ter a capacidade de solicitar ao usurio a definio do atributo rtulo e das variveis que sero utilizadas no modelo. A partir desta definio, padronizar a entrada dos dados do modelo, atravs de arquivos XML ou outras solues possveis. Ainda como sugesto, poderia existir neste aplicativo uma interface de conexo com bancos de dados, onde seria possvel programar as consultas que resultariam nos dados do modelo.

56

REFERNCIAS

AURLIO, Marco; VELLASCO, Marley; LOPES, Carlos Henrique. Descoberta de Conhecimento e Minerao de Dados. Rio de Janeiro, 1999. BRASIL. Agncia Nacional de Sade Suplementar. Caderno de Informao da Sade Suplementar: Beneficirios, Operadoras e Planos. Rio de Janeiro: ANS, 2010. 12 p. BRASIL. Instituto de Estudos de Sade Suplementar. As despesas das operadoras de planos de sade representam 98% da receita de mensalidades. Disponvel em: <http://www.iess.org.br/informativosiess/15.htm>. Acesso em 15 de jul. 2011. CELOS, Regulamento do Plano CELOS Sade. Florianpolis: CELOS: 2011. DALLAGASSA, Marcelo. Concepo de uma metodologia para a identificao de beneficirios com indicativos de Diabetes Mellitus Tipo 2. Programa de PsGraduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2009. DIETTERICH, Thomas G. Machine Learning. In Nature Encyclopedia of Cognitive Science, London: Macmillan, 2003. FAYYAD, Usama; PIATESKY-SHAPIRO, Gregory; SMYTH, Padhraic. Advances in Knowledge Discovery and data mining. Boston: MIT Press, 1996. HALHUBER, Carola; HALHUBER, Max J.; HELLMUTH, Bruno. Infarto do miocrdio: deteco precoce, como super-lo, como evitar o reinfarto. Rio de Janeiro: Ao Livro Tcnico, 1981. KAMEL, Dilson; KAMEL, Jos Guilherme Nogueira. Como prevenir o enfarto do miocrdio: atravs de atividade fsica e alimentao adequada. Rio de Janeiro: Sprint, 1996. 103 p. KOBUS, Luciana S. G. Aplicao da Descoberta de Conhecimentos em Bases de Dados Para Identificao de Usurio com Doenas Cardiovasculares Elegveis Para Programas de Gerenciamento de Caso. Programa de PsGraduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2006. MIRANDA, Cludio Rocha, Gerenciamento de Custos em Planos de Assistncia Sade, 2003. Trabalho Tcnico. Rio de Janeiro: Agncia Nacional de Sade

57

Suplementar. Disponvel em: <http://www.ans.gov.br/portal/upload/biblioteca/TT_AS_20_ClaudioMiranda_Gerenci amentodeCusto.pdf> Publico em nov. 2003. Acesso em 15 de jul. 2011. OLSZEWER, Efrain. Como enfrentar a angina de peito e o infarto agudo de miocrdio. So Paulo: cone, 1992. QUINLAN, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers. Califrnia, USA: Morgan Kaufmann, 1993. REFAEILZADEH, Payam; TANG, Lei; LIU, Huan. Cross Validation. In Encyclopedia of Database Systems. Springer, 2009. SOCIEDADE BRASILEIRA DE CARDIOLOGIA (SBC). III Diretrizes Sobre Tratamento do Infarto Agudo do Miocrdio. Disponvel em: <http://publicacoes.cardiol.br/consenso/2004/DirIII_TrataIAM.pdf>. Publicado em ago. 2004. Acesso em 10 de nov. 2011. TURBAN, Efraim. Decision Support and Expert Systems: management support systems. New Jersey, USA: Prentice-Hall Inc, 1995. VIANNA, Rossana Cristina Xavier Ferreira. Identificao de Caractersticas Relacionadas Mortalidade Infantil Utilizando a Descoberta de Conhecimento em Base de Dados de Sade Pblica. Programa de Ps-Graduao em Tecnologia em Sade. Pontifcia Universidade Catlica do Paran. Curitiba, 2007. WEKA, Waikato Environment for Knowledge Analysis. Disponvel em <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em 15 de dez. 2011, University of Waikato, New Zealand, 2007.

58

APNDICE A

Instrumento para Avaliao por Especialistas

Especialidade mdica:

Breve descrio da metodologia utilizada para a criao das regras:

Para a realizao do estudo, selecionamos dados de dois grupos distintos da base de dados, tendo adotado a data de 31/12/2010 como data limite: Grupo 1: Beneficirios que se submeteram ao procedimento de Revascularizao do Miocrdio; Grupo 2: Beneficirios que no se submeteram ao procedimento de Revascularizao do Miocrdio. Para a criao destes dois grupos, foi verificada a ocorrncia do procedimento Revascularizao do Miocrdio, dentre as internaes pelas quais os beneficirios se submeteram. Para os beneficirios onde houve ocorrncia do procedimento de Revascularizao do Miocrdio, o mesmo foi classificado no Grupo 1, e para os que no tiveram ocorrncia deste procedimento, foram classificados no Grupo 2. A identificao das variveis relevantes para o estudo foi cedida por mdico especialista em cardiologia, sendo: 1. Ressonncia Magntica; 2. Cateterismo; 3. Cintilografia; 4. Angioplastia; 5. Marcapasso; 6. Sexo; 7. Idade; 8. Consulta de Emergncia. Para o Grupo 2, as variveis quantitativas (1 a 5) foram acumuladas para cada beneficirio, no perodo de 5 anos, at a data limite, ou seja, de 01/01/2006 a 31/12/2010. E as variveis 6 e 7 foram obtidas na data limite. Os beneficirios do Grupo 2, que no possuam 5 anos de permanncia no plano de sade, foram excludas do estudo, assim como os beneficirios que no

59

estavam dentro dos limites de idade, sendo 29 a idade mnima e 83 a idade mxima. Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 est dentro desta faixa de idade. Para o Grupo 1, foram excludos somente os beneficirios que no possuam nenhum histrico anterior os procedimento de Revascularizao do Miocrdio. Ao final deste levantamento, obtivemos 271 beneficirios no Grupo 1 e 11.637 no Grupo 2, com seus dados sumarizados por beneficirio, omitindo-se a identificao do beneficirio. Preenchimento: o mdico especialista deve preencher a coluna Avaliao da Regra com as seguintes opes: 1 Concordo com a regra 2 Concordo parcialmente com a regra 3 Discordo da regra

No campo observao, o mdico especialista deve dar o seu parecer sobre a avaliao informada. Regra Avaliao da Regra Beneficirios que no possuem marcapasso E no fizeram nenhuma consulta em emergncia E fizeram um exame de cintilografia E fizeram at dois exames de teste de esforo E fizeram um ou mais exames de ecocrdio E Observao

60

fizeram at 7 exames de ECG E so do sexo masculino. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma

consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino e fizeram at 2 exames de teste de esforo E no fizeram nenhum ecg e so menores de 60 anos. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma

consulta em emergncia E que fizeram at um exame de cintilografia E so do sexo masculino E fizeram at 2 exames de teste de esforo E fizeram 1 ou mais exames de

61

ecocardiografia E fizeram mais de 7 exames de ECG E so maiores de 68 anos de idade. Beneficiarios que no possuem marcapasso E que no fizeram nenhuma

consulta em emergncia E que fizeram mais de um exame de cintilografia E que so do sexo masculino e fizeram mais de 2 exames de teste de esforo E fizeram mais de 1 ecocardio e fizeram mais de 1 mapa. Beneficiarios marcapasso E que fizeram at 15 exames de ECG E que so do sexo feminino E que no fizeram nenhum exame de cintilografia. Beneficiarios marcapasso que possuem que possuem

62

E que fizeram at 15 exames de ECG E que so do sexo masculino.