Redes Bayesianas aplicadas à DPOC

Mauro Henrique Lima de Boni1 , Adson Ferreira da Rocha2 ,Iwens Gervásio Sene Junior3 Coordenação de Informática Instituto Federal de Educação, Ciência e Tecnologia do Tocantins (IFTO) – Campus Palmas Faculdade de Engenharia Elétrica Universidade de Brasília (UNB) – Campus Gama Instituto de Informática Universidade Federal de Goiás (UFG)
mauro@ifto.edu.br, adsonr@unb.br, iwens@inf.ufg.br

1

2

3

Resumo. O objetivo deste trabalho é apresentar as redes bayesianas aplicadas à Síndrome Pulmonar Obstrutiva Crônica - DPOC, bem como discutir sobre sua implementação. É construída uma rede que busca modelar o conhecimento médico baseado em evidências como fatores de risco e sintomas. A contribuição maior deste artigo é discutir aspectos da implementação da rede a partir do conhecimento do especialista. Ao final será possível concluir se uma pessoa está ou não com a doença

Abstract. The aim of this paper is to present the Bayesian networks applied to Chronic Obstructive Pulmonary Syndrome - COPD and discuss its implementation. It built a network that aims to model medical knowledge based on evidence as risk factors and symptoms. The largest contribution of this paper is an automated fashion and with the specialist knowledge to conclude whether a person is or is not suffering from COPD.

1. Introdução
Os softwares são ferramentas que contribuem em diversas áreas, pois sua concepção envolve a modelagem de atividades e conhecimentos. Esses modelos podem ser usados como mecanismos capazes de participar da disseminação das informações que é o bem mais importante da sociedade do conhecimento. Do ponto de vista de softwares que modelam o conhecimento médico eles podem fazer com que o paciente torne-se um indivíduo capaz de ter participação ativa no processo, pois de posse de informações e acesso ao conhecimento é possível melhorar a prevenção de doenças, evitando assim que ele venha a sofrer com elas. A DPOC, ou Doença Pulmonar Obstrutiva Crônica, é uma doença caracterizada por desenvolvimento progressivo de limitação ao fluxo aéreo que não é totalmente reversível [Jardim et al. 2009]. A limitação do fluxo aéreo está associada à inalação de gases e partículas nocivas. Poucos conhecem a doença e a forma mais eficaz de combate-la está na conscientização das pessoas sobre os fatores de risco, informando-as sobre a mudança de hábitos e tornando-as pessoas menos suscetíveis à doença. A Rede Bayesiana, é um mecanismo usado para modelar o conhecimento médico por meio de um grafo direcionado, onde cada nodo deste grafo tem uma relação de causa e efeito

mostrando aspectos importantes sobre sua implementação .. Na seção 4 é apresentada a modelagem da rede para aplicação proposta. mas é independente de qualquer nó não-descendente de seus pais. cada uma destas distribuições descreve o efeito de uma combinação específica dos valores dos pais π(Vi ) de Vi . É construída uma rede simples que busca modelar o conhecimento médico para. Cada nó Vi em G representa uma variável randômica que tem um conjunto finito de valores. . .(sintomas e doenças). G). . uma vez que é o seu conhecimento que deve ser modelado . Os arcos no dígrafo modelam as influências probabilísticas entre as variáveis. na seção 5. (1) A estrutura gráfica G tem a forma de um grafo direcionado acíclico. com nós V (G) = {V1 . Elas são usadas quando o conhecimento incerto deve ser modelado. Essa estrutura gráfica tem forma de um grafo direcionado acíclico. No final. Esses conjuntos de distribuições. A seção 3 apresentará a DPOC. na distribuição probabilística de Vi . . . . Podemos dizer. a partir dessa definição temos a seguinte equação: . há indicações sobre estudos futuros. A(G)) (2) Associado a estrutura gráfica de uma Rede Bayesiana está uma distribuição de probabilidade conjunta P r que é representado de forma fatorada. o que para um profissional da área de saúde é fácil de ser entendido. . bem como discutir sobre sua implementação. . concluir se uma pessoa pode estar ou não sofrendo da Síndrome Pulmonar Obstrutiva Crônica . Para cada variável Vi no grafo está determinado um conjunto de distribuições condicionais. Vn ) = P r(Vi |π(Vi )) (3) O uso de uma Rede Bayesiana implica na aplicação de dois conceitos: . O grafo gerado pode ser assim formalizado: G = (V (G). n ≥ 1 e arcos A(G) ⊆ V (G) ∗ V (G). Redes Bayesianas Uma rede Bayesiana. Vn }. Sua estrutura é a seguinte: A seção 2 faz uma introdução sobre Rede Bayesiana. . definem uma única distribuição. seus fatores de risco e seus sintomas. a ausência de um arco significa que uma variável não influencia a outra diretamente. definido pela seguinte equação : n ∏ i=1 P r(V1 . B = (P r. que um arco Vi → Vj entre dois nós Vi e Vj indica que há influência entre as variáveis Vi e Vj . para um conjunto de variáveis X = {X1 . . . baseado em evidências como fatores de risco e sintomas. . 2. Podemos fazer uma definição mais formal: a variável Vi é dependente de seus pais. grosso modo. Este trabalho tem como objetivo apresentar as redes bayesianas. Os nós contidos em G tem uma correspondência de um-para-um com as variáveis Assim.DPOC. Xn } consiste em : uma estrutura gráfica em rede G em um conjunto de distribuições de probabilidades locais associadas a cada variável P r.

a qual pode acarretar o início precoce do enfisema e que é uma condição genética autossômica codominante. Tais alterações são proporcionais ao número de cigarros diários e ao tempo de tabagismo. 2. causando destruição do tecido e formação de pequenas bolhas. o perigo de desenvolver DPOC em um grupo de fumantes de dois maços de cigarros/dia é aproximadamente 4. as probabilidades da rede deve ser calculadas. Os dois fatores de risco mais comuns são o tabagismo (responsável por 80% a 90% de todas as mortes relacionadas com a DPOC) e a deficiência de alfa1-antitripsina. algumas vezes denominada enfisema genético. Em ambas. os quais são claramente importantes na deficiência de alfa1-antitripsina. A exposição repetida ao cigarro resulta em inflamação crônica. Inferência . O diagnóstico é realizado a partir do quadro clínico.5 vezes maior que para os não-fumantes. além de tosse produtiva.7% em fumantes de mais de dois maços de cigarro/dia. ruptura dos septos alveolares. O fumo devido às substâncias irritantes que contém. a deficiência de alfa1-antitripsina.1. os alvéolos (parte final do pulmão onde ocorre a passagem de oxigênio para o sangue) se inflamam. Também podemos chamar a inferência por propagação de probabilidades. Essa nova informação faz com que uma mudança nos estados de uma variável ocorra e isso inicia o processo de propagação das probabilidades. A poluição do ar pode desempenhar um papel. Esse processo é chamado de Inferência. proliferação fibrótica e espessamento das paredes arteriolares. . Essa situação é chamada de instanciação ou também hard evidence. provoca hiperplasia e metaplasia do epitélio.Evidências são novas informações disponíveis que surgem em um dado evento. No entanto. em face de uma deficiência severa de alfa1-antitripsina. Foi observado que a incidência de DPOC se eleva de 19. é uma condição caracterizada por uma quantidade deficiente da proteína alfa1-antitripsina. Essa é a tarefa mais comum que se deseja fazer com uma Rede Bayesiana. Quando um nodo qualquer X está um estado específico ex. Os médicos utilizam esta sigla porque a maioria dos pacientes apresenta combinação das duas doenças. Na bronquite. Evidência . habitualmente após a 5º década de vida. fará com que seja criado um fluxo de informação que percorrerá toda a rede. DPOC A DPOC (Doença Pulmonar Obstrutiva Crônica) agrupa duas enfermidades diferentes: bronquite crônica e enfisema.7% em homens que nunca tinham fumado para 87. 3. No enfisema. a elastase dos neutrófilos é neutralizada de modo a não digerir a elastina pulmonar (proteína estrutural). escrevemos que X = ex. Como segunda causa bem reconhecida de enfisema. do mesmo modo que fatores hereditários. a inflamação se dá nos brônquios e causa grande produção de muco. a elastase dos neutrófilos pode não ser controlada e provocar a ruptura da elastina e acarretar a dissolução das paredes alveolares. como encontrado em [Korb and Nicholson 2004]. das alterações na radiografia de tórax e durante as provas de função pulmonar (espirometria. Dito de outra forma. acontece uma inflamação crônica. exame do sopro).Dada uma ou mais evidências. o calculo das probabilidades de um valor de uma variável. Esse fluxo não limitado pela direção dos arcos. Sob circunstâncias normais de uma quantidade adequada de alfa1-antitripsina. onde ex pertence a E e E é um conjunto finito que representa os estados de X.

Apresenta os seguintes sintomas respiratórios crônicos : tosse. Delphi) interagem com esse arquivo seja informando evidências. Assim.2. um nível maior de refinamento será obtido. Os autores propõe uma forma sistematizada para a construção de uma rede. 1. As várias API disponíveis (em C. como se segue : pessoa com idade superior a 40 anos. 2004. a idade. Os sintomas são o efeito da doença. Diz anda que. uma ligação partindo da doença irá chegar a todos os nodos que representam os sintomas. • Requisitos não funcionais: a rede modelada deveria ser acessível por diversas linguagens de programação e que se pudesse interagir com ela usando uma interface web. fez com que o software escolhido fosse o Netica [Norsys 2010]. o termo dispneia deve trocado pela expressão senta falta de ar. fumou mais de um maço de cigarro/dia por vinte anos. Nodos e valores Em primeiro lugar. Os valores assumidos são mutuamente exclusivos. a exposição à poluição. Em [Jardim et al. Korb and Nicholson 2004. é usado para guiar a identificação de variáveis. Muito embora o problema seja da área de saúde. seja obtendo o resultado de inferências. os nodos que representam os fatores de risco influenciam a doença. o que significa que a variável terá um e somente um desses valores de cada vez. o uso de uma linguagem menos técnica é recomendado pois quem irá usar a rede não é um profissional da área de saúde e sim uma pessoa que a priori não se sabe qual o seu grau de escolaridade. Java. etc.4. A partir dessas informações. Modelando a DPOC através da rede bayesiana 4. ou seja. Modelagem Os passos mostrados a seguir são uma compilação dos passos elencados por [Lucas et al. dispneia e sibilância. o fator de risco representa uma causa e a doença é o efeito. Isso envolve responder a seguinte questão: quais são os nodos relevantes e quais os valores que eles têm? Em [Lucas et al. Desta forma. 4. 2009] é descrito o estereótipo do portador de DPOC. . no caso de aplicações para área médica. muitas vezes o conhecimento sobre os processos patológicos e fisiológicos envolvidos. Charniak 1991]. a DPOC foi modelada em uma rede composta por três tipos de nodos: • Fatores de Risco – São informações relacionadas ao hábito de fumar.1. descrições do domínio e em uma extensiva análise do propósito da rede a ser construída. Requisitos • Requisitos Funcionais:São aqueles que modelam como a rede deverá comportar-se após ter recebido um conjunto de evidências e quais são as variáveis que deverão ser transformadas em nodos e quais as relações (causa e efeito ) eles mantêm. A rede modelada é salva em um arquivo texto formatado. • Requisito de domínio: diz respeito à linguagem usada para representar as informações. 2004]. portanto. sendo esse processo executado em forma espiral onde a cada iteração. Esse requisito não funcional. é necessário identificar quais são as variáveis de interesse. o autor acrescenta ainda que essa seleção geralmente baseia-se em entrevistas com especialistas.

3. As demais variáveis devem ser analisadas de uma forma um pouco diferente pois como são variáveis que possuem pais. é necessário especificar a probabilidade que o nodo filho terá. • Sintomas – Sente falta de ar. 2009]. se um nodo possuir vários pais. se existir um arco a partir do anterior até o posterior. Suas tabelas são construídas de maneira simples. a tabela de probabilidade condicional. • Sintomas – Variáveis que representam o estado geral de saúde do paciente. os valores de seus estados são obtidos por meio da aplicação de probabilidades condicionais para cada caso condicional dos . Assim. Probabilidades Condicionais . Isto é feito pela especificação de uma distribuição de probabilidade condicional para cada nodo. Quando estamos falando sobre a estrutura da rede é útil empregarmos a seguinte notação: um nodo é pai de um outro nodo. onde ele pode relatar o que ele está sentindo ou o que está acontecendo com ele Baseado nas informações que foram mostradas na seção 3 e em [Jardim et al.A estrutura ou topologia de uma rede representa relacionamentos qualitativos entre as variáveis. Poderia. observando todas as possíveis combinações dos valores dos seus nodos pais. • Doenças –DPOC. Cada combinação dessas recebe o nome de instanciação do conjunto de pais. Os nodos ”fumante”. ”idade” e ”exposição à poluição” são nodos que têm dois estados em cada um.Elas quantificam as relações entre os nodos conectados. Primeiro modelo de rede proposta • Doença – Representa a doença. ou se esses pais puderem ter um número elevado de valores. fumante a quanto tempo. por exemplo.Figura 1. os seguintes nodos foram criados: • Fatores de Risco – Fumante.CPT será muito grande. São nodos binários e que não possuem pais. Em particular. serem vários nodos. do inglês conditional probability table . exposição à poluição. idade. 2. com arcos indicando a direção do efeito. dois nodos de um grafo só podem estar conectados diretamente somente se um afeta o outro. Basta apenas informar qual a chance de uma pessoa ser fumante ou não. pois não há dependência de outros dados. no caso DPOC. tosse com catarro. Para cada instanciação distinta. conforme o caso. Estrutura .

ou verificar se ele sofre de asma ou DPOC. permite que sejam criados softwares para interagir com o usuário. O nodo DPOC tem uma CPT composta de 24 linhas.nós pais. (2005). a rede poderá ser acessada. mas pode ser expandido com novas variáveis para que seja possível. encontrar que a doença específica está acometendo o usuário. .Além da interface WEB. a rede poderia ficar disponível a uma aplicação que rodasse em um setup box de tv digital. idade. tem respetivamente 2. por exemplo. G. Conclusões e trabalhos futuros A Rede Bayesiana é sem dúvida uma ferramenta interessante. Em Junio2005 [?] Para isso um webservice poderia ser criado para receber as informações referentes às evidências que seriam formatadas e enviadas para a rede. Isso para a modelagem de conhecimento médico é um grande facilitador. O modelo aqui apresentado baseia-se em um estudo inicial sobre o assunto. A API do Netica. que por sua vez. pois permite a modelagem de conhecimento através da relação de causa-e-efeito. 5. Por meio de uma interface WEB. Referências Junior. dentre as quais Java que permite que sejam criadas aplicações para a internet. Voz sobre ip segurança de transmissões. sendo que é possível escolher entre várias linguagens de programação. pois os nodos fumante a quanto tempo. exposição a poluição. usaria o mesmo mecanismo para enviar a resposta até ao usuário. 2 e 6 estados.