You are on page 1of 16

ISSN 0103-9741 Monografias em Cincia da Computao n 38/09

Estudo sobre Algoritmos de Classificao para o Referenciamento de Gestantes de Alto-risco

Ingrid Oliveira de Nunes Drlinton Barbosa Feres Carvalho Carlos Jos Pereira de Lucena Departamento de Informtica

PONTIFCIA UNIVERSIDADE CATLICA DO RIO DE JANEIRO RUA MARQUS DE SO VICENTE, 225 - CEP 22451-900 RIO DE JANEIRO - BRASIL

Monograas em Cincia da Computao, No. 38/09 Editor: Prof. Carlos Jos Pereira de Lucena

ISSN: 0103-9741 Dezembro, 2009

Estudo sobre Algoritmos de Classicao para o Referenciamento de Gestantes de Alto-risco 1


Ingrid Oliveira de Nunes, Drlinton Barbosa Feres Carvalho, Carlos Jos Pereira de Lucena
{ionunes,dcarvalho,lucena}@inf.puc-rio.br

Resumo.

O Sistema Unicado de Assistncia Pr-natal (SUAP) um sistema em desen-

volvimento que visa dar suporte ao atendimento pr-natal. Uma de suas funcionalidades apia o processo de referenciamento de gestantes de alto-risco atravs da indicao da unidade para a qual a gestante deve ser referanciada de acordo com sua complicao e localizao. Ambiciona-se fazer uso de casos histricos e algoritmos de aprendizado de Dessa forma, visa-se neste trabalho fazer um estudo mquina para tal funcionalidade.

exploratrio de algoritmos de aprendizado de mquina e ferramentas que possam ser incorporadas no SUAP para resolver o problema. Dado que o sistema ainda no possui um conjunto de dados representativo, foram utilizados

datasets

com caractersticas similares.

Concluiu-se que a ferramenta Weka apropriada para a incorporao ao SUAP, e pode ser facilmente parametrizada para a escolha do algoritmo que seja melhor adequado ao problema em questo.

Palavras-chave:

Sistemas de Sade, Atendimento Pr-natal, Aprendizado de Mquina,

Algoritmos, Processo de Referenciamento.

Abstract.

The Prenatal Care Unied System (SUAP) is a system under development One of its functionalities is to support the

whose aim is to support the prenatal care.

referral process of high-risk pregnancy by the indication of which unit a pregnant must be referred to according to her complications and location. Our goal is to use historical cases and machine learning algorithms for such functionality. Thus, in this work we aim at making an exploratory study of machine learning algorithms and tools that may be incorporated in the SUAP to solve our problem. Given that the system does not have a representative dataset yet, we used datasets with similar characteristics. We concluded that the Weka tool is appropriate to be incorporated in the SUAP, and it can be easily parametrized to choose an algorithm that is more adequate to the target problem.

Keywords:
1

Healthcare Systems, Prenatal Care, Machine Learning, Algorithms and Re-

ferral Process.

Trabalho patrocinado pelo Ministrio de Cincia e Tecnologia da Presidncia da Repblica Federativa

do Brasil e FINEP.

Responsvel por publicaes:


Rosane Teles Lins Castilho Assessoria de Biblioteca, Documentao e Informao PUC-Rio Departamento de Informtica Rua Marqus de So Vicente, 225 - Gvea 22451-900 Rio de Janeiro RJ Brasil Tel. +55 21 3527-1516 Fax: +55 21 3527-1530 E-mail: bib-di@inf.puc-rio.br Web site: http://bib-di.inf.puc-rio.br/techreports/

ii

Contents
1 Introduo 1 2 Aprendizado no Sistema Unicado de Assistncia Pr-natal (SUAP)  Referenciamento de Gestantes de Alto-risco 1
2.1 2.2 Denio do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3

Datasets
3.1 3.2

3.1.1 3.1.2 3.2.1 3.2.2 3.3 3.3.1 3.3.2

Post-Operative Patient Data Set Atributos do dataset . . .

3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 5 6 6 6 7

Contraceptive Method Choice Data Set Atributos do dataset . . . . . .


Atributos do

Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Adult Data Set

Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

dataset

. . . . . . . . . . . . . . . . . . . . . . . . . . .

Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Metodologia
4.1 4.2 4.3 Algoritmos Congurao Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7
8 8 9

5 Resultados 6 Concluso References

9 11 11

iii

Introduo

O SUAP (Carvalho, Choren, Carvalho, Lucena, Condack & de S 2009, de Sa, Carvalho, Moraes, Stein, dos Santos, Carvalho & Lucena 2009) um sistema de software que faz parte do projeto de pesquisa AGENTESGRA nanciado pela Financiadora de Estudos e Projetos (FINEP), em desenvolvimento pelo Laboratrio de Engenharia de Software (LES) da PUC-Rio em associao com ginecologistas e obstetras do Hospital Universitrio Antnio Pedro (HUAP). Ele tem por objetivo apoiar a deciso mdica principalmente em problemas relacionados com a hipertenso na gravidez. Alm da informatizao do acompanhamento pr-natal  que hoje feito essencialmente de forma manual  o sistema oferece funcionalidades que apresentam um comportamento autnomo, pr-ativo e inteligente, e para isso faz uso das abstraes de agentes de software (Jennings 2001). Uma diferena entre a assistncia pr-natal e o atendimento de pacientes que no primeiro no existe doena a ser tratada, parte-se de uma gestante saudvel que deve ser acompanhada durante a gravidez para evitar possveis complicaes. Por exemplo, uma gestante que apresente edemas e presso alta potencialmente pode evoluir para um quadro de eclmpsia. Assim, identicada uma gravidez de risco, a gestante deve receber um tratamento adequado. O sistema de sade pblica brasileiro possui diversas unidades onde a gestante pode ser atendida. Esse atendimento ocorre inicialmente em unidades primrias, que possuem os recursos necessrios para fazer a realizao de um pr-natal de baixo risco. Caso uma situao de risco seja identicada, ela deve ser referenciada a uma unidade secundria que oferea mais condies para tratamento. As unidades diferenciamse pela localizao (por questes de distribuio das gestantes e importante tambm para as mesmas, visto que as gestantes de baixa renda no possuem recursos para deslocamento) e recursos (tanto materiais como humanos). Assim, de acordo com a situao da gestante, ela deve ser referenciada para uma unidade especca que seja mais adequada. Neste sentido, uma das funcionalidades do SUAP serve para apoiar a deciso no processo de referenciamento de gestantes. O sistema possui dados sobre as unidades de atendimento e casos histricos. Com base no (in)sucesso de casos histricos, nos quais gestantes foram referenciadas e devidamente tratadas, ele deve sugerir para qual unidade novos casos devem ser referenciados. Assim, neste artigo apresentamos uma soluo para o aprendizado de unidades de referenciamento de gestantes de alto-risco. Visto que SUAP ainda encontrase em fase de desenvolvimento e no existe um

corpus

que possa ser utilizado neste estudo,

escolheu-se um problema que seja anlogo ao que deve ser resolvido, para que a soluo possa ser posteriormente incorporada ao sistema. O restante deste artigo est organizado como segue. Na Seo 2, detalha-se o problema de referenciamento de gestantes de alto-risco. trabalho. A Seo 2.2 apresenta os objetivos deste A Seo 3 descreve os conjuntos de dados utilizados para o aprendizado de

mquina. A Seo 4 apresenta o algoritmo escolhido para a resoluo do problema, e os resultados so apresentados na Seo 5. O artigo concludo na Seo 6.

Aprendizado no SUAP  Referenciamento de Gestantes de Alto-risco

Uma gravidez de baixo risco pode ser acompanhada em unidades de sade que possuam recursos sucientes para coletar os seguintes dados: (i) peso, (ii) altura uterina, (iii) presso,

(iv) batimentos cardiofetais e (v) presena de edemas. cada consulta do atendimento pr-natal. gestao.

Esses dados so coletados em

Dessa forma, estas unidades, ditas primrias,

geralmente no desfrutam de recursos sucientes para lidar com complicaes durante a Quando no-conformidades so detectadas a partir desses dados, ou atravs de algum exame, e a gravidez classicada como de alto risco, e a gestante referenciada para unidades que possuam uma melhor infra-estrutura, em termos de equipamentos e recursos humanos. Esse referenciamento leva em considerao principalmente o local de residncia da gestante, a qual encaminhada para uma unidade secundria dentro do seu municpio. Por exemplo, a cidade de Niteri, localizada no estado do Rio de Janeiro, possui dois hospitais, entre eles o HUAP, que atende gestaes de alto risco. Entretanto, podem ocorrer situaes especiais a serem consideradas no referenciamento. Em primeiro lugar, considerando-se que existe mais de unidade secundria dentro de um mesmo municpio, desejvel se constatar qual das unidades mais apropriada para atender um certo tipo de complicao. Em segundo lugar, em alguns casos a gestante referenciada para uma unidade secundria, mas quando os mdicos desta unidade a avaliam, vericam que o caso pode ser atendido pela unidade primria e a gestante contra-referenciada. Assim, o ideal que nesses casos j se conheam as situaes que no precisam de referenciamento. Em terceiro lugar, existem certas complicaes que necessitam de recursos mais adequados. Um exemplo que na cidade do Rio de Janeiro existe um hospital que possui uma infra-estrutura para atender recm-nascidos que nascem com problemas. Dessa forma, mesmo que se tenha uma gestante de Niteri com uma complicao deste tipo, ela ser melhor atendida no Instituto Fernandes Figueira da cidade do Rio de Janeiro. Por m, existem casos em que a gestante reside nos limiares do municpio, ento talvez uma unidade secundria de um municpio vizinho seja mais vivel para ela. A Figura 1 ilustra uma viso cannica do problema de referenciamento de gestantes de alto-risco. Com base nos casos histricos do atendimento pr-natal, ambiciona-se generalizar as excees regra geral (localizao) relacionadas com as questes previamente mencionadas.

Figure 1: Viso Cannica do Problema de Referenciamento Na prxima seo, o problema de referenciamento descrito de forma mais precisa,

atravs do detalhamento de seus atributos e o tipo de problema de aprendizado de mquina.

2.1 Denio do Problema


O referenciamento de gestantes de alto-risco no SUAP um problema de classicao, no qual as classes-alvo so os hospitais de referenciamento. A idia ter essas informaes por cada estado brasileiro de forma independente. Os atributos so dados relacionados com a gestante. Eles incluem a localizao dela (bairro e cidade), alm de informaes sobre se ela hipertensa, diabtica, HIV positiva, entre outros. Essas informaes so derivadas dos dados coletados no atendimento prnatal e dos resultados dos exames.

corpus

Entretanto, visto que o SUAP ainda est em fase de desenvolvimento e no h um para realizar o aprendizado de mquina, buscou-se problemas anlogos no UCI Ma-

chine Learning Repository, a m de se produzir uma soluo que possa ser posteriormente utilizada no SUAP.

2.2 Objetivos
O objetivo deste trabalho prover uma soluo para o problema de referenciamento de gestantes de alto risco do SUAP. Visto que ainda no existe um sero escolhidos

corpus

corpus

para este problema,

que representem problemas de classicao, e que possuam tanto

variveis numricas como categricas, tal qual o problema-alvo. Assim, visa-se a elaborao de um suporte para

datasets

framework

ou a busca de alguma ferramenta que d

com estas caractersticas, para a posterior incorporao ao SUAP.

Datasets
datasets
do UCI Machine Learning Repository, ambos da rea de

Foram escolhidos trs

sade, com os pr-requisitos estabelecidos (problema de classicao, com variveis numricas e categricas) para o desenvolvimento do mdio (1473) e outro grande (48842). Estes

framework

ou testes da ferramenta sele-

cionada. Um deles pequeno (90 instncias), para a realizao dos primeiros testes, um

datasets

so descritos nas prximas sees.

3.1

Post-Operative Patient Data Set

A tarefa de classicao do conjunto de dados

Post-Operative Patient 2

(Pacientes em

Ps-operatrio) determinar para onde pacientes na rea de recuperao ps-operatria devem ser enviados a seguir. Visto que hipotermia uma preocupao signicante depois da cirurgia, os atributos correspondem s medidas da temperatura corporal. Informaes sobre o

dataset

so apresentadas na Tabela 1.

3.1.1 Atributos do

dataset
37),
mdia (

L-CORE (temperatura interna do paciente em Celsius): alta (>

36

37),

baixa (<

36).

Disponvel em

http://archive.ics.uci.edu/ml/datasets/Post-Operative+Patient

Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:
Table 1: Informaes sobre o

Atributos multi-variados 90 Categricos, Inteiros 8 Classicao Sim Sade

Post-Operative Patient Data Set.


alta (>

L-SURF (temperatura supercial do paciente em Celsius): (

36.5),

mdia

36.5 80
e

35),

baixa (<

35). 98),
boa (

L-O2 (saturao do oxignio em %): excelente ( (

90

< 98),

razovel

< 90),

fraca (<

80). 130/90),
mdia (

L-BP (ltima medida da presso sangnea): alta (>

130/90

90/70),

baixa (<

90/70).

SURF-STBL (estabilidade da temperatura supercial do paciente): estvel, meioestvel, instvel. CORE-STBL (estabilidade da temperatura central do paciente): estvel, meio-estvel, instvel. BP-STBL (estabilidade da presso sangnea do paciente): instvel. COMFORT (percepo de conforto do paciente na baixa): medido como um inteiro entre estvel, meio-estvel,

20. I
(paciente enviado a Unidade de Trata-

deciso ADM-DECS (deciso de baixa): mento Intensivo),

(paciente preparado para ir para casa),

(paciente enviado ao

andar geral do hospital).

3.1.2 Estado da Arte


O trabalho de (Budihardjo, Grzymala-Busse & Woolery 1991) foi o primeiro a resolver este Este

dataset e atingiu um resultado de 48% de acurcia com a metodologia LERS (LEM2). dataset tambm foi utilizado em outros trabalhos (Owen 1999, Kontkanen, Lahtinen,

Myllymki & Tirri 2000), mas com alteraes. Por exemplo, em (Owen 1999) a varivel de deciso foi reduzida apenas a valores binrios, atravs de excluso das instncias com a classe menos freqente, no total 2 exemplos com a classe I, e das instncias com valores incompletos, tambm 2 exemplos. Neste caso, a taxa de acerto alcanada com o mtodo proposto foi de 62.8%, mas tambm foi reportado que utilizando uma regresso logstica global conseguiu-se 69.8% de acertos. O trabalho (Kontkanen et al. 2000) tambm utiliza este

dataset

na verso completa e atinge uma acurcia de 71.1%.

3.2

Contraceptive Method Choice Data Set

O conjunto de dados

Contraceptive Method Choice 3

(Escolha do Mtodo Contraceptivo)

um subconjunto da Pesquisa Nacional da Prevalncia Contraceptiva da Indonsia de 1987. Os exemplos so mulheres casadas que no estavam grvidas ou no sabiam se estavam na poca da entrevista. O problema predizer o mtodo atual escolhido para contracepo (no uso, mtodo de longo-prazo, mtodo de curto-prazo) de uma mulher, baseado nas suas caractersticas demogrcas e scio-econmicas. Tabela 2. Informaes sobre o

dataset

so apresentadas na

Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:
Table 2: Informaes sobre o

Atributos multi-variados 1473 Categricos, Inteiros 9 Classicao No Sade

Contraceptive Method Choice Data Set.

3.2.1 Atributos do

3

dataset

Idade da esposa: numrico. Educao da esposa: categrico (1=baixa, 2, 3, 4=alta). Educao do esposo: categrico (1=baixa, 2, 3, 4=alta). Nmero de lhos j nascidos: numrico. Religio da esposa: binrio (0=No-islmica, 1=Islmica). Esposa est trabalhando? binrio (0=Sim, 1=No). Ocupao do esposo: categrico (1, 2, 3, 4). ndice do padro de vida: categrico (1=baixo, 2, 3, 4=alto). Exposio mdia: binria (0=Boa, 1=No boa). Mtodo contraceptivo utilizado (atributo classe): 1=No usa, 2=Longo prazo, 3=Curto prazo.

Disponvel em

http://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice

3.2.2 Estado da Arte


O primeiro trabalho a utilizar este

dataset

comparou uma srie de algoritmos de classi-

cao (Lim, Loh, Shih & Algorithms 1999). O melhor resultado obtido executando com validao cruzada de 10 alcanou taxa de acerto de 57%, e na mdia os algoritmos obtiveram 43%. Os melhores resultados reportados na literatura obtm acurcia de 69.79% tambm com validao cruzada de 10 (Ray & Page 2005).

3.3

Adult Data Set

O objetivo do conjunto de dados

Adult 4

(Adulto) predizer se as receitas de um indivduo

excede $50.000/ano baseados nos dados do censo. O conjunto de dados tambm conhecido como Census Income (Receitas do Censo). Informaes sobre o na Tabela 3.

dataset

so apresentadas

Caractersticas do dataset : Nmero de instncias: Caractersticas dos atributos: Nmero de atributos: Tarefas associadas: Valores incompletos? rea:

Atributos multi-variados 48842 Categricos, Inteiros 14 Classicao Sim Social

Table 3: Informaes sobre o

Adult Data Set.

3.3.1 Atributos do

Idade: contnuo.

dataset

Classe de Trabalho: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked. fnlwgt: contnuo. Educao: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assocvoc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. Educao-num: contnuo. Estado Civil: Married-civ-spouse, Divorced, Never-married, Separated, Widowed,

Married-spouse-absent, Married-AF-spouse. Ocupao: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Profspecialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-shing, Transportmoving, Priv-house-serv, Protective-serv, Armed-Forces.

Relacionamento: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.

Disponvel em

http://archive.ics.uci.edu/ml/datasets/Adult

Raa: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. Sexo: Feminino, Masculino. Capital-ganho: contnuo. Capital-perda: contnuo. Horas por semana: contnuo. Pas Nativo: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

3.3.2 Estado da Arte


O primeiro trabalho a utilizar este sicao (Kohavi 1996).

dataset

comparou uma srie de algoritmos de clas-

Os melhores resultados reportados foram com o uso de C4.5

(84.46+-0.30), Naive-Bayes (83.88+-0.30) e NBTree (85.90+-0.28). A variao nos resultados obtidos correspondem execuo dos algoritmos com a remoo de instncias com valores desconhecidos. Entretanto, em (Caruana & Niculescu-Mizil 2004), foi reportado o resultado de 90.74% com Boosted stumps (BST-STMP).

Metodologia
datasets
escolhidos, ao in-

Para exercitar os algoritmos de aprendizagem de mquina nos

vs de implementar os algoritmos desde o princpio, optou-se por fazer o uso do aplicativo Weka . Este software uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Os algoritmos podem tanto ser aplicados diretamente a um conjunto de dados (

dataset ) atravs da interface da aplicao, como ser chamados a partir de

cdigo Java. O Weka contm ferramentas para o pre-processamento de dados, classicao, regresso, clusterizao, regras de associao e visualizao. Ele tambm apropriado para o desenvolvimento de novos esquemas de aprendizado de mquina. O principal motivo para a escolha deste software o fato dele ser implementado em Java, alm dele prover boas implementaes dos algoritmos de aprendizado. Como o SUAP tambm implementado nesta linguagem de programao, o Weka pode ser integrado ao sistema. O Weka possui uma interface grca que permite carregar um conjunto de dados, mostrar estatsticas a respeito dos mesmo, escolher e congurar o algoritmo a ser utilizado, e, obviamente, executar o mtodo escolhido. Diversos formatos de arquivos para entrada de dados podem ser utilizados. O formato utilizado foi o

arff,

prprio do Weka, que

permite uma descrio dos dados atravs de anotaes no incio do arquivo, e logo a seguir os exemplos so listados um por linha com os atributos separados por vrgula.

http://www.cs.waikato.ac.nz/ml/weka/

4.1 Algoritmos
A escolha dos algoritmos utilizados como estudo de caso neste trabalho foi realizada de modo a exercitar as principais tcnicas relacionadas com a tarefa de classicao. por no terem obtido resultados signicativos. desempenho foi utilizado o modelo utilizados so descritos a seguir. A tcnica de tao por Vale dizer que foram avaliados outras mtodos disponveis no Weka, mas no so reportados Para se determinar um nvel inferior de Os outros algoritmos

0-R,

que consiste em classicar qualquer amostra com

apenas de um nico valor, ou seja, a classe mais comum (moda).

Support Vector Machines (SVM) foi Sequential Minimal Optimization (SMO) de

exercitada atravs da implemenJohn Platt (Platt 1998, Keerthi,

Shevade, Bhattacharyya & Murthy 2001) para treinamento de um classicador por vetores de suporte. Esta implementao normaliza os dados da instncia, ajusta valores ausentes e transforma atributos nominais em binrios. Problemas multi-classes, como os que so considerados neste trabalho, so resolvidos usando classicao Tibshirani 1998). Foram avaliadas diversas funes de

kernel

pairwise

(Hastie &

disponveis no sistema, com

alterao de alguns parmetros de congurao para tentar obter melhorar os resultados.

Multilayer Perceptron.

Modelos neuronais foram avaliados atravs de um classicador com retroalimentao, o A rede de neurnios foi construda automaticamente, com os valores

padro de congurao. A camada escondida composta por taxa de aprendizado de

0.3,

o momentum

(atributos + classes)/2, a 0.2 e os atributos so normalizados. Os ns na

rede so todos do tipo sigmide. Para comparar com outras estratgias de aprendizado de mquina, tambm foram utilizadas tcnicas baseadas em rvore de deciso e classicadores bayesianos. Os algoritmos escolhidos foram um classicador

nave bayes (John & Langley 1995) e uma implementao do minimal cost-complexity pruning (Breiman, Friedman, Stone & Olshen 1984) para criar
uma rvore de classicao (C&RT).

4.2 Congurao
A congurao de execuo dos algoritmos apresentada atravs dos esquemas utilizados no Weka.

0-R: weka.classifiers.rules.ZeroR. SMO1 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 1.0". SMO2 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1 -K "weka.classifiers.functions.supportVector.RBFKernel -C 250007 -G 0.01". SMO3 : weka.classifiers.functions.SMO -C 1.0 -L 0.0010 -P 1.0E-12 -N 0 -M -V -1 -W 1 -K "weka.classifiers.functions.supportVector.PolyKernel -C 250007 -E 2.0". Multilayer Perceptron: weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a.
8

Nave Bayes: weka.classifiers.bayes.NaiveBayes. C&RT: weka.classifiers.trees.SimpleCart -S 1 -M 2.0 -N 5 -C 1.0.

4.3 Avaliao
Para avaliar os experimentos deste trabalho, utilizamos a tcnica de 1993).

Cross-validation

cross-validation (Geisser

uma tcnica para medir como os resultados de uma anlise es-

tatstica vo ser generalizados para um conjunto de dados independente. Ela principalmente usada em conguraes onde o objetivo a predio, e algum deseja estimar o quo correto um modelo preditivo ir ser executado na prtica. Uma rodada do

cross-validation

envolve o particionamento de uma amostra de dados em subconjuntos complementares, executando a anlise de um subconjunto (chamado de conjunto de treinamento), e validando a anlise em outro subconjunto (chamado de conjunto de validao ou teste). Para reduzir a variabilidade, mltiplas rodadas do trabalho, utilizou-se 10-fold

cross-validation

so executadas usando difer-

entes parties, e os resultados de validao so a mdia das rodadas. Nos

cross-validation.

datasets

deste

Resultados
datasets
utilizados foram apresentados na

Nesta seo, so apresentados os resultados obtidos atravs da execuo dos algoritmos conforme metodologia descrita na Seo 4. Os Seo 3. Na Tabela 4 esto a acurcia obtida pelos algoritmos na resoluo dos que servem como estudo de caso neste trabalho. Para o mtodo lado do resultado corresponde a congurao utilizada.

SMO

datasets

reportado o melhor

desempenho de todas as conguraes avaliadas, sendo que o nmero em subescrito ao

Algoritmo
0-R SMO Multilayer Perceptron Nave Bayes C&RT Melhor da literatura

Post-operative1 Post-operative2 Contraceptive Method 71.1111% 72.093% 42.702% 71.1111%2 72.093%2 50.4413%3
58.8889% 55.814% 52.3422% 67.7778%

Adult
75.919% 84.9022%1 82.8936%

72.093%
70.9302% 69.8%

50.7807%

83.428%

71.1%

70%

55.1935%

69.76%

86.1091%

90.74%

Table 4: Acurcia dos mtodos avaliados com validao cruzada de 10. O

dataset Post-operative1 o mesmo da denio original, apresentado na Seo 3.1,


Post-operative2 uma verso

e disponvel no respositrio da UCI com 90 instncias. J o

reduzida com apenas 86 instncias, em que foram removidos dois exemplos com valores incompletos e dois exemplos da classe  I ,e por isso possui apenas duas classes para classicao. Os resultados obtidos neste

dataset

ilustram que se no houver um conjuntos

de dados adequado os mtodos no conseguem construir bons modelos de classicao.

H um grande vis nos exemplos deste dataset, sendo que a moda de uma das classes aproximadamente 70%, e parece no haver diferena signicativa nos atributos que possibilite aos algoritmos estudados construir um modelo melhor para identicar outras classes. Na verso original,

Post-operative1 ,

a classe  I  possui apenas dois exemplos. Mesmo

assim, os resultados obtidos so bem superiores aos que encontramos no primeiro trabalho para este problema (48%). Acredita-se que isso ocorreu visto que o trabalho que reportou esse resultado relativamente antigo (Budihardjo et al. 1991), e muitas das tcnicas implementadas pelo Weka, at mesmo usadas com sua forma padro, j incorporam tcnicas mais avanadas. Esta preciso, conforme observado em (Owen 1999), menor do que simplesmente dizer que todos sero hospitalizados, embora o mtodo possa ter conseguido uma separao til dos pacientes em grupos. Alm disso, atravs das tcnicas executadas, observou-se resultados bem diferentes como, por exemplo,

Perceptron

e o

SMO3

com

61.1111%

devido ao tamanho do tamanho do

dataset,

no

Post-operative1 .

58.8889% do Multilayer

Isso provavelmente ocorreu

pois sendo ele muito pequeno, os algoritmos

cam muito sensveis a alteraes. Assim, demonstra-se a necessidade de um Os resultados com o

dataset

rep-

resentativo no SUAP antes de adicionar a funcionalidade de referenciamento ao sistema. tram o comportamento dos mtodos em um

dataset Contraceptive Method, apresentado na Seo 3.2, ilusdataset de mdio porte. O desempenho do SMO

foi bastante instvel, obtendo acurcia de 48.201%1 e 42.3625%2 , o que no aconteceu no

dataset

anterior em que os resultados no variaram mais do que 2% do melhor. Os resulta-

dos obtidos caram bem abaixo do melhor encontrado na literatura, mas tambm vale dizer que em uma comparao de uma srie de algoritmos de classicao (Lim et al. 1999) a melhor taxa de acerto foi de 57%, e na mdia os algoritmos obtiveram 43%. Neste

dataset,

tambm foi possvel avaliar questes de desempenho dos mtodos em relao ao tempo de execuo. Na Tabela 5 esto os tempos de execuo aproximados para se ter uma noo da ordem de grandeza de computao requerida pelos mtodos.

Algoritmo
0-R SMO1 SMO2 SMO3 Multilayer Perceptron Nave Bayes C&RT

Contraceptive Method (s) Adult (s)


> 0.01 2.5 5.2 18.6 21.82 > 0.01 1.63 0.02 4116.31 > 129600 4717.21 0.23 173.88

Table 5: Tempo de execuo para construo de um modelo de classicao. O ltimo

dataset avaliado foi o Adult, apresentado na Seo 3.3.

Trata-se de um

dataset

de grande porte (48842 instncias), em que pode-se perceber claramente a diferena de desempenho entre os mtodos, principalmente em relao ao tempo de execuo necessrio (vide Tabela 5). O

SMO mostrou-se uma tcnica promissora, mas a congurao para tentar

melhores resultados inviabiliza sua execuo por consumir um tempo de execuo superior ao tempo estabelecido para a execuo deste trabalho. Aps um dia e meio construindo apenas um modelo, sua execuo teve quer ser interrompida. Outros problemas tambm foram observados como falta de memria durante a execuo. Entretanto, o Weka permite parametrizar a aplicao indicando o tamanho mximo de memria que o sistema pode

10

alocar. Fazendo-se uso deste recurso, o problema de memria foi contornado.

Concluso

Este trabalho visou uma explorao do uso de algoritmos de aprendizado de mquina para a sua utilizao no Sistema Unicado de Assistncia Pr-natal (SUAP). O SUAP um sistema que visa suportar o atendimento pr-natal do sistema de sade pblico brasileiro. Uma de suas funcionalidade auxiliar na indicao de unidades secundrias de atendimento para gestaes de alto risco. Dada a atual no existncia de um conjunto de dados do SUAP, trs

datasets

de

diferentes portes, com propriedades similares ao problema que deve ser resolvido, foram escolhidos para permitir a explorao dos algoritmos. Utilizou-se a ferramenta Weka para a execuo de tais testes. Os resultados foram satisfatrios. O Weka mostrou-se um aplicativo extremamente poderoso para a execuo dos algoritmos de aprendizado de mquina. A quantidade de algoritmos disponveis bastante grande, e possvel a realizao de uma grande variedade de parametrizaes para os mesmos. Alm disso, certas funes podem ser estendidas e implementadas pelo desenvolvedor e utilizadas nos algoritmos. Conclui-se que a ferramenta Weka apropriada para ser incorporada no SUAP, visto que: (i) implementada em Java; (ii) pode ser facilmente incorporada no sistema; (iii) disponibiliza os principais algoritmos de aprendizado de mquina; e (iv) permite uma fcil parametrizao dos algoritmos para a obteno de resultados satisfatrios. Entretanto, fundamental a existncia de um conjunto de dados grande para que se obtenham bons resultados.

References
Breiman, L., Friedman, J., Stone, C. J. & Olshen, R. A. (1984),

sion Trees, Chapman & Hall/CRC.

Classication and Regres-

Budihardjo, A., Grzymala-Busse, J. W. & Woolery, L. (1991), Program lers_lb 2.5 as a tool for knowledge acquisition in nursing,

in `Proc. of the 4th Int. Conf. on Industrial

& Engineering Applications of Articial Intelligence & Expert Systems', pp. 735740. Caruana, R. & Niculescu-Mizil, A. (2004), An empirical evaluation of supervised learning for roc area,

in `First Workshop of ROC Analysis in AI (ROCAI'04)'.

Carvalho, G., Choren, R., Carvalho, C., Lucena, C., Condack, J. & de S, R. M. (2009), Pr-natal digital: um ambiente colaborativo para discusso de casos clnicos em obstetrcia,

in

`IX Workshop de Informtica Mdica (WIM) no CSBC 2009', Bento

Gonalves. de Sa, R. M., Carvalho, C., Moraes, V., Stein, E., dos Santos, T. V., Carvalho, G. & Lucena, C. (2009), Community of obstetrics practice and knowledge exchange: useful tool for collaboration between obstetricians in an emerging country,

in

`XIX

FIGO World Congress of Gynecology & Obstetrics (FIGO 2009)', Cape Town. Geisser, S. (1993),

Predictive Inference, Chapman and Hall.


11

Hastie, T. & Tibshirani, R. (1998), Classication by pairwise coupling, systems 10', MIT Press, Cambridge, MA, USA, pp. 507513.

in

`NIPS '97:

Proceedings of the 1997 conference on Advances in neural information processing

Jennings, N. R. (2001), `An agent-based approach for building complex software systems',

Commun. ACM 44(4), 3541.

John, G. H. & Langley, P. (1995), Estimating continuous distributions in bayesian classiers, pp. 338345. Keerthi, S. S., Shevade, S. K., Bhattacharyya, C. & Murthy, K. R. K. (2001), `Improvements to platt's smo algorithm for svm classier design', 649. Kohavi, R. (1996), Scaling up the accuracy of naive-bayes classiers: a decision-tree hybrid,

Neural Comput. 13(3), 637

in

`Proceedings of the Second International Conference on Knowledge Discovery and

Data Mining'. Kontkanen, P., Lahtinen, J., Myllymki, P. & Tirri, H. (2000), Unsupervised bayesian visualization of high-dimensional data, New York, NY, USA, pp. 325329. Lim, T.-S., Loh, W.-Y., Shih, Y.-S. & Algorithms, N. C. (1999), `A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classication algorithms'. Owen, A. B. (1999), `Tubular neighbors for regression and classication'. Platt, J. (1998), Machines using sequential minimal optimization, MIT Press. Ray, S. & Page, D. (2005), Generalized skewing for functions with continuous and nominal attributes,

in

`KDD '00: Proceedings of the sixth ACM

SIGKDD international conference on Knowledge discovery and data mining', ACM,

in

B. Schoelkopf,

C. Burges & A. Smola, eds, `Advances in Kernel Methods - Support Vector Learning',

in `ICML '05:

Proceedings of the 22nd international conference on Machine

learning', ACM, New York, NY, USA, pp. 705712.

12