You are on page 1of 101

Uma abordagem para a construção de uma única árvore

a partir de uma Random Forest para classicação de
bases de expressão gênica
Thais Mayumi Oshiro

Dissertação de Mestrado apresentada
à
Universidade de São Paulo
para
obtenção do título
de
Mestre em Bioinformática
Programa: Interunidades em Bioinformática
Orientador: Prof. Dr. José Augusto Baranauskas

Durante o desenvolvimento deste trabalho o autor recebeu auxílio nanceiro do CNPq

Ribeirão Preto, setembro de 2013

Aos meus pais, Waldemar e Mitsuko,
e meu namorado, Silvio.

Agradecimentos
Agradeço primeiramente a Deus, pelas oportunidades que sempre me forneceu e pelas
bênçãos ao longo de minha vida.
Aos meus pais, Waldemar e Mitsuko, a quem devo tudo. Sem eles não chegaria aonde
cheguei e não seria metade da pessoa que sou hoje. Agradeço por todo amor e carinho,
pela incrível dedicação, pela força e garra, e por todas as oportunidades que sempre me
ofereceram.
A toda minha família, por todo o apoio e amor que sempre dedicaram a mim, por sempre
acreditar em mim e me incentivar.
Agradeço ao meu namorado, Silvio, por todo o amor, carinho, paciência, amizade e apoio
que sempre me deu! Se cheguei até aqui, com toda a certeza, foi porque ele esteve ao meu
lado me incentivando sempre!
A meu grande amigo Newton, por toda a sua paciência, companheirismo, alegria, pela
sua maravilhosa amizade!
Ao meu orientador, Prof. José Augusto Baranauskas, por ter sido um excelente professor
e orientador, por toda a ajuda e apoio no desenvolvimento deste projeto, pela paciência em
me ensinar e ajudar e por toda a sabedoria compartilhada.

iii

a árvore criada apresenta. ou seja. A pesquisa de mestrado aqui relatada tem como objetivo criar um modelo simbólico. Além disso. Ela tem sido usada em muitos projetos de pesquisa recentes e aplicações do mundo real em diversos domínios. em alguns casos. uma vez que ela apresenta. Os resultados iniciais obtidos com o algoritmo aqui proposto são promissores. ela é de difícil compreensão para especialistas humanos de diversas áreas. iv Expressão Gênica. aumentar a compreensão por parte dos especialistas humanos sobre o processo que classica os exemplos no mundo real tentando manter um bom desempenho. Almeja-se assim. uma única árvore a partir da Random Forest para a classicação de bases de dados de expressão gênica. Porém. Random Forest. no geral. desempenho melhor do que outro algoritmo amplamente utilizado (J48) e um pouco inferior à Random Forest. Simbólico. Classicador . tamanho menor do que a árvore criada pelo algoritmo J48. entre eles a bioinformática uma vez que a Random Forest consegue lidar com bases que apresentam muitos atributos e pou- cos exemplos.Resumo Random Forest é uma técnica computacionalmente eciente que pode operar rapida- mente sobre grandes bases de dados. Palavras chave: Aprendizado de Máquina.

we hope to increase the understanding by human experts on the process that classies the examples in the real world trying to keep a good performance. The research reported here aims to create a symbolic model. it is dicult for human experts to understand it. including bioinformatics since Random Forest can handle datasets having many attributes. Thus. Keywords: Machine Learning. and few examples.e. Initial results obtained from the proposed algorithm are promising since it presents in some cases performance better than other widely used algorithm (J48) and a slightly lower than a Random Forest. However.Abstract Random Forest is a computationally ecient technique which can operate quickly over large datasets. Gene Expression. a single tree from a Random Forest for the classication of gene expression datasets. It has been used in many research projects and recent real-world applications in several elds. Symbolic Classier. v . the induced tree presents. Furthermore. in general. a smaller size than the tree built by the algorithm J48. Random Forest. i.

. . . . . . . . . . . . . . . . . Palladino & Spencer 2010) 21 3. . . . . . . . . . . Johnson. . . . . . . . . . . .3 17 . . . . . . . Roberts & Walter folds Bagging (a) e Random Forest (b) . . . . . . . . . . . 3. . . . . . . . . . . . . . Johnson. Johnson. . . 2010) . . Adaptado de (Alberts. . Ra. . . . . . . . . . . . . . . . . .7 Base nitrogenada Uracila. . . Lewis. . . . . . . . . . . . . . . Lewis. . . . . . . . . . . . . . . . Ra. . . 26 do RNA. . . .6 Ribose. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Palladino & Spencer 2010) . . Cummings. .2 Cálculo aproximado da medida AUC . . . . Cummings. Johnson. . . Adaptado de (Alberts. . . . . . . . . Lewis. . . . . . . Lewis.10 23 Splicing . . . . . . . . . . . . . . . . . . . 32 3. .9 25 Expressão gênica. Adaptado de (Klug. Johnson. . . . . . . . . . . . . . . . . . .1 Exemplo de curva ROC . . . . . . . . . . . Ra. . 10 2. . . .5 Validação cruzada utilizando 5 . . . . . . . . . . . .2 20 Nucleotídeo de DNA. . . . . . Ra. . . 21 Bases nitrogenadas do DNA. . . Lewis. . Adaptado de (Alberts. . . . . . . . . . . . . . . . . . .3 Curva ROC e área AUC do classicador A . Cummings. . .Lista de Figuras 2. . . .7 Funcionamento dos métodos 3. .1 Árvore criada pelo classicador J48 utilizando a base DLBCLTumor. 3. . . . . . . . . Lewis. .4 Ligação fosfodiéster. . . . . . . . . . 11 2. . . . . 21 3. . . . . . . 22 3. . . . . .6 Estrutura de uma árvore de decisão . 14 2. . . . . Ra. . . . . . . . Adaptado de (Klug. . . . . . . . . . . . . . . Ra. . . Roberts & Walter 2010) 3. Adaptado de (Alberts. . . . Roberts & Walter 2010) . . . 3. . . . Palladino & Spencer 2010) . . . . Adaptado de (Alberts. . . . . . . . . . . . . . . . Johnson. . . Ra. . . . Roberts & Walter 2010) . . . . . Johnson. . . . Roberts & Walter 2010) 3. . 10 2. . . . . . Adaptado de (Klug. . . . . . . . Roberts & Walter 2010) 23 3. . . . . . . . . . . . vi . . . . .4 Curva ROC e área AUC do classicador B . . . Adaptado de (Alberts. . . . Adaptado de (Alberts. . 12 2. . . . 11 2. . 44 . . . . . . . Lewis. . . . . . . . . 28 .1 Desoxirribose. . . .5 Estrutura de DNA. . . . . . . . .11 Microarray 4. . .8 Molécula de tRNA ligada à um códon no mRNA. . Roberts & Walter 2010) . . .

. . . . . .3 Valor AUC nas 21 bases com alta densidade . . .8 Porcentagem de atributos usados nas 8 bases com baixa densidade . . este intervalo varia em alguns grácos para melhor visualização. . . . .9 Porcentagem de atributos usados nas 21 bases com alta densidade . . . . . . . . . 83 B. . . . . . . . . . . O eixo x corresponde ao número do atributo e o eixo y corresponde à frequência. . . . . . . . . . . . . . .5 Diferenças do valor AUC nas 8 bases com baixa densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 B. . . . . 84 B. . . . . .11 Frequência dos 10 atributos mais usados em todas bases usando o erro of-bag estimado. . . . . . . . .2 Valor AUC nas 8 bases com baixa densidade .2 Árvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor. . . . . . . . . 51 B. . . . . . . . . .12 Frequência dos 10 atributos mais usados em todas bases usando o erro minN um = 5. . 83 B.6 Diferenças do valor AUC nas 21 bases com alta densidade . B. . . . . . . . . . . . . . . . . . . . . 51 5. . .10 Frequência dos 10 atributos mais usados em todas bases. Embora todos os eixos y tenham cado em um intervalo de 0 e 1. . 89 . 83 B. . . . . . . . 83 B. . . . . . . . . . . . 44 5. . . . 83 B. .1 Resultados das métricas J e JN para as 24 bases. . . . . . . . . . . . .4 Diferenças do valor AUC em todas as bases . . . . . . B. . . 86 87 out- . . . . . . .1 Valor AUC em todas as bases de dados (29 bases) . . . .4. . . . . . . . . 83 B. . . . . . . . . .7 Porcentagem de atributos usados em todas as bases . . . . . . . . . of-bag estimado e out- . . . . . . . . 83 B. . .2 Resultados das métricas JNP e P para as 24 bases. . . . . . .

. . . . . . . Dados em negrito representam valores excluidos da análise da diferença do AUC. . . . . . Bases estão em ordem crescente. . . . . . . . . 5. . . . . 56 56 n indica o nú- c representa o número de classes. . . . . . . . . 53 (Número de nós das árvores para os 12 classicadores) e desvio padrão. . . . 7 2. . . . . . . sem considerar o atributo classe. . . . . . . . . . . . . . . . . . . . . . médio. . . . . . . . .7 Valores dos coecientes de regressão.1 Conjunto de exemplos no formato atributo-valor . . . . . . . . . as últimas 3 colunas são as métricas de densidade ordenadas por D2 D1 . MISS representa a porcentagem de atributos com valores ausentes. . . . . . . . . . . . . . . . . . . . . . . . a# e aa indica o número total de atributos.3 log10 5. . . . . .Lista de Tabelas 2. . . .2 Resultados do teste de Friedman para os valores de AUC para os 12 classicadores. . . . . . .6 24 . .4 Matriz de confusão do classicador B . . . . . . . .1 Resumo das bases de dados utilizadas neste experimento. . .2 Resumo das bases de dados utilizadas neste experimento. desvio padrão e 5. . 5. . . . . o número de atributos númericos e o número de atributos nominais. . . . . . . . . . . . . . 75 B. . . . . . . . 72 A. . . . . abreviaturas e os códons que os codicam .3 Matriz de confusão do classicador A . viii 80 . . . . . . . onde mero de exemplos. . . 52 . . . . . . 9 2. . . . . . .1 Os 20 aminoácidos com seus respectivos símbolos. . . . . . .2 Exemplo de uma matriz de confusão . . . . .1 Valores AUC. . . . . 11 2. . . . . . . . 54 5. . . . . rank 5.4 Resultados do teste de Friedman para os números de nós dos 9 classicadores. D2 . . . 11 3. . . . . . . . . .5 Valores das métricas de comparação entre árvores geradas pelo Algoritmo 1 (A1-2a(90)) e pelo algoritmo J48 5. média. . . mediana e rank médio obtidos nos experimentos. . respectivamente. . . . D3 de cada base. . . . . . . . . . . . . . . . . . . respectivamente. . . . . . . . . . . . . . . 55 55 Valores das métricas de comparação entre árvores geradas pelo Algoritmo 1 (A1-2a(90)) e pela Random Tree . . . . . . A. a. .1 Valores do AUC para os 12 classicadores.

. . 88 . . . . . . . . . . . . . . . .B. . .2 Resultados do teste de Friedman para os valores AUC usando todas bases/8 baixa densidade/21 alta densidade . . . . . . . . . B. . . . . minN um rank médio para cada valor de e a porcentagem do tempo médio de execução. .3 82 Resultados do teste de Friedman para os valores AUC usando 128 árvores e considerando um nível de signicância de 5%. . .

. . . . . . . . . 24 3. . . . . . 2. . .1 DNA . . . 19 3. . . . . . . . . . . . . .2 3 x Bagging . . .2 Considerações Finais . 3 1. .4 Microarrays . . . . . . . . . 30 3. . . .1 Motivação . . . . . . . . . . . .4 2.1. . . 18 . .1. . . . . . . . . . . . . . . . . . . . . .1. . .Sumário Lista de Figuras vi Lista de Tabelas viii Sumário 1 2 Introdução 1 1. . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . 13 . . . . . . . . 4 Conceitos Computacionais 2. . .2 RNA . . . . . .5 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2. . .2 Árvores de Decisão . . . . . . . . . . . . 11 2. . . . . .1 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . 16 .3 Métodos Ensemble . .2 Objetivo .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . x . . . . . . . . . . . . . . . . . . . .1. . 22 3. . . .Conceitos Básicos .1 Conceitos Básicos . . . . . . .1 6 19 Biologia Molecular . .1.1. . . . .3 Expressão gênica . . . . . . . . . . . . 5 . . .1. . . . . . . . . . Conceitos Biológicos 3. . . . . . . . . . . . . 19 3. . . . . . . 2 1. .3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . 15 2. . . Random Trees & Random Forests Considerações Finais . . . 33 . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .1 Trabalhos Relacionados . .2 Trabalhos Futuros . . . . 76 B. .2 Proposta para construção de uma única árvore. . . . . . . . . . . . . . . . . . . .1 Principais resultados e publicações .4 Considerações Finais . . . . . Resultados & Discussão 46 5. . . . . . 50 . . . . . . . . . . . . .2 Experimento 1 . . . . . 78 B. . . . . . . . . 43 . . . . . . . . . . . . . . . . . 58 . . . . . . . . . 36 4. . . . .1 Bases de dados usadas para os experimentos realizados .2 Considerações Finais . . . . . . 85 . . . . . . . . . . . . . . . . . . . . . . . .2 Bases de dados usadas para o Algoritmo 1 . 71 A.3 Experimento 2 . . .1 Comparação das árvores . Conclusões 57 6. . . . . . . . . . . . . . . . . . . . . . .1 Métricas de densidade . . . . Experimentos Realizados 76 B. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6. . . . . . . . . . . . . . . . 49 5.3 Métricas de Similaridade de árvores . . . .4 5 6 Proposta Metodológica 34 4. . . Referências Bibliográcas A B 59 Bases de Dados 71 A. . . . . . 73 . . . 34 4. . 41 4. . . . . . . .

dada a mesma quantidade de informação de treinamento (Sirikulviriya & Sinthupinyo 2011). Liaw & Wiener 2002). Por exemplo. por várias opiniões) do que por um único médico. casos difíceis são melhores solucionados por uma junta composta de vários médicos (e assim. e mais recentemente Ran- (Breiman 2001. Random Forests (Breiman 2001) é um algoritmo 1 ensemble proposto por Breiman que .Capítulo 1 Introdução É sabido que uma combinação de opiniões leva. uma vez que é esperado que a combinação de classicadores apresente um desempenho melhor do que um único classicador (Witten & Frank 1999). É amplamente aceito que o desempenho de um conjunto de muitos classicadores fracos é geralmente melhor do que um único classicador. em um ambiente médico. na maior parte das vezes. Kuncheva 2004)  métodos que geram muitos classicadores e combinam os seus resultados. bagging ensembles amplamente conhecidos (Breiman 1996). Na área de aprendizado de máquina isto também é válido. a uma decisão melhor do que uma decisão tomada por um único indivíduo. Os métodos são boosting dom Forests (Freund & Schapire 1996). Assim. há um grande interesse de pesquisa na área de aprendizado de máquina no que diz respeito a ensembles (Dietterich 2000.

Porém. não necessita de uma pré-seleção de genes. Brahnam & Lumini 2012).MOTIVAÇÃO 2 constrói muitas árvores de decisão as quais são utilizadas para classicar um novo exemplo. pode lidar com uma mistura de atributos nominais e numéricos e há pouca necessidade de ajustar os parâmetros para alcançar um bom desempenho. pode ser usada para problemas de duas classes ou problemas multi-classe. ajuda no entendimento da resposta de uma doença à uma droga. Sistemas de aprendizado de máquina são adequados para este problema. bases de expressão gênica tipicamente possuem muitos atributos e poucas amostras (exemplos) devido à diculdade de coletar e processar amostras. uma vez que geralmente. portanto. Cummings & Saldaña 2008). Porém. mas eles precisam lidar com altos níveis de ruído. ela é de difícil compreensão para especialistas humanos. Segundo (Díaz-Uriarte & de Andrés 2006). Essa característica diculta o processo de classicação.1 Motivação Atualmente. somente um pequeno número de genes é relevante para um determinado problema (Nanni. é mais fácil compreender como uma única árvore de decisão classica um novo exemplo do que um conjunto de árvores. entre outros (Klassen. Neste sentido. A análise de dados de expressão gênica é importante para a medicina e biologia uma vez que auxilia no diagnóstico de doenças. Em geral. proporciona prognósticos precisos para pacientes especícos. tem um bom desempenho preditivo mesmo quando a maioria das variáveis preditivas são ruídos e. Random Forest apresenta um desempenho excelente em tarefas de classicação e possui características que a tornam ideal para bases de expressão gênica (Díaz-Uriarte & de Andrés 2006). não superajusta. 1. especialmente para dados obtidos a partir de humanos (Klassen. Cummings & Saldaña 2008). pois há muitos atributos irrelevantes e redundantes. o estudo realizado neste trabalho busca um aumento de compreensibilidade . mesmo a Random Forest apresentando um bom desempenho em altas dimensões. Random Forest é um método de aprendizado ensemble amplamente utili- zado na literatura e áreas aplicadas. Forest Random apresenta uma série de características que a tornam ideal para bases de dados de expressão gênica: pode ser usada quando há muito mais atributos do que exemplos.

por meio de medidas já existentes e medidas que foram propostas neste estudo. como o aqui proposto. • analisar a frequência que um atributo aparece no nó raiz de uma de descobrir se a Random Forest Random Forest a m utiliza todos os atributos com uma frequência igual ou se há um subconjunto mais utilizado. • comparar o desempenho da criação de uma árvore. perde-se uma estrutura facilmente interpretável. classicadores mais simples. Lawton. Além disso. . J48 e Random Tree . um limiar a partir do qual o aumento do número de árvores não resulta em um ganho signicativo do desempenho e somente aumenta o custo computacional. tentando manter o bom desempenho da 3 Random Forest.OBJETIVO a partir de uma Random Forest. Lavrac. 1. uma vez que é sabido que a Random Forest apresenta um bom desempenho em bases de dados de expressão gênica (Pang. • comparar as árvores geradas por diferentes algoritmos a m de descobrir se suas estruturas (nós utilizados) são semelhantes ou não. Todavia. ao desempenho de outros algoritmos amplamente conhecidos como a Random Forest. porém. Enerson. Com isso o trabalho aqui desenvolvido poderá facilitar a compreensão por parte dos especialistas humanos sobre o processo que classica os exemplos no mundo real. Lu. Floyd & Zhao 2006. de acordo com Tan. Zelezny & Tolar 2004). Lin. ou seja. como por exemplo Random Forest. podem apresentar uma qualidade preditiva (desempenho) mais baixa do que classicadores mais complexos. Os objetivos especícos são: • analisar se há um número ótimo de árvores em uma Random Forest. Steinbach & Kumar (2005) o uso de uma combinação de classicadores aumenta a taxa de acerto se comparado a árvores de decisão obtidas por abordagens mais simples. proposta neste trabalho. deve-se ressaltar que segundo (Gamberger. Holford. Díaz-Uriarte & de Andrés 2006).2 Objetivo O objetivo geral do presente trabalho é analisar se a geração de uma única árvore a partir das árvores de uma Random Forest consegue manter um desempenho similar ao de uma Random Forest.

ORGANIZAÇÃO DO TRABALHO

1.3

4

Organização do Trabalho

O presente trabalho está organizado da seguinte maneira: no Capítulo 2 são apresentados alguns conceitos computacionais utilizados no desenvolvimento deste projeto, incluindo
aprendizado de máquina, métodos

ensemble

e

Random Forest. Os conceitos biológicos utili-

zados neste projeto, tais como expressão gênica e

microarray, são apresentados no Capítulo 3.

A metodologia aqui proposta e a descrição de experimentos realizados encontram-se no Capítulo 4. No Capítulo 5 são discutidos os resultados obtidos e as conclusões. No Apêndice A são
descritas as bases de dados utilizadas no desenvolvimento deste trabalho. No Apêndice B são
descritos alguns experimentos adicionais realizados, seus resultados e as conclusões obtidas.

Capítulo

2

Conceitos Computacionais
Neste capítulo serão apresentados alguns conceitos computacionais utilizados no projeto,
como por exemplos conceitos sobre Aprendizado de Máquina, árvores de decisão e

Random

Forest.

2.1

Aprendizado de Máquina

Aprendizado de Máquina (AM) é uma área de Inteligência Articial (IA) que visa o
desenvolvimento de técnicas computacionais capazes de adquirir conhecimento de forma
automática. Um sistema de aprendizado é um algoritmo que toma decisões baseado em
experiências acumuladas por meio da solução bem sucedida de problemas anteriores (Weiss
& Kulikowski 1991).
Por exemplo, para classicar pacientes entre doente ou saudável (com câncer ou não, por
exemplo), pode-se analisar o nível de expressão gênica de cada caso, pois as vezes um gene
mais ou menos expresso do que o normal pode causar tal doença (câncer).
Aprendizado de Máquina permite obter conclusões genéricas sobre um conjunto particular de exemplos, sendo realizado a partir de raciocínio sobre exemplos fornecidos por um

5

APRENDIZADO DE MÁQUINA

6

processo externo ao sistema de aprendizado. O aprendizado de máquina pode ser dividido
em supervisionado, não-supervisionado e semissupervisionado (Monard & Baranauskas 2003;
Bruce 2001)
O foco deste estudo concentra-se no aprendizado supervisionado, aquele em que classe
associada é conhecida (Mitchell 1997). Assim, o algoritmo de aprendizado aprende por meio
de um conjunto de entradas e saídas desejadas (classes associadas). Em geral, cada exemplo
é descrito por um vetor de atributos e o rótulo da classe a qual este exemplo pertence.
Formalmente, no aprendizado supervisionado é fornecida uma característica do objeto a ser
alcançada, ou seja, o algoritmo recebe o valor da saída desejada para entrada apresentada.
Os sistemas de aprendizado podem ser divididos ainda em simbólicos e não-simbólicos (Michalski 1983; Kubat, Bratko & Michalski 1998). Os métodos simbólicos ou orientados a
conhecimento desenvolvem representações simbólicas do conhecimento, as quais são, geralmente, facilmente interpretadas por seres humanos. São exemplos de métodos simbólicos as
árvores de decisão e conjuntos de regras.
Os métodos não-simbólicos ou caixa-preta por sua vez, são caracterizados pelo desenvolvimento de representações próprias do conhecimento, as quais, geralmente, não são facilmente
interpretadas por seres humanos. Como exemplos de métodos não-simbólicos, podemos citar
as Redes Neurais Articiais, K-NN e Naive Nayes.

2.1.1 Conceitos Básicos
Nesta seção, serão apresentados alguns conceitos básicos de Aprendizado de Máquina
utilizados durante o desenvolvimento deste projeto.

Classicador
Dado um conjunto de exemplos de treinamento, um indutor (ou algoritmo de aprendizado) gera como saída um

conceito) de

classicador

(também denominado

ou

descrição de

forma que, dado um novo exemplo, ele possa predizer precisamente sua classe.

Formalmente, em classicação, um exemplo é um par

f (xi )

hipótese

(xi , f (xi ))

onde

xi

é a entrada e

é a saída. A tarefa de um indutor é, dado um conjunto de exemplos, induzir uma

função

h(·)

hipótese

que aproxima

f (·),

normalmente desconhecida. Neste caso,

sobre a função objetivo

f (·),

ou seja,

h(xi ) ≈ f (xi ).

h(·)

é chamada uma

caso contrário. Essa medida compara a classe verdadeira de cada exemplo com a classe atribuída pelo classicador ou seja. Se as duas classes forem iguais. . . Tabela 2. . no aprendizado supervisionado todo exemplo um atributo especial yi . . . C2 . Um conjunto de exemplos é composto por exemplos contendo valores de atributos bem como a classe associada. isto é. . yi = f (xi ). . . Dentre tais medidas. utilizam-se algumas medidas para avaliar o desempenho do classicador.. zn xn1 xn2 . . {C1 . . .. . n) exemplo n exemplos e a atributos. . . a meta que se deseja aprender e poder fazer previsões a respeito. então i e h(xi ) é ||yi 6= h(xi )|| = 1. . exceto o rótulo. isto é. yi ) = (~xi . exemplos são tuplas zi = (xi1 . onde h é denotada por err(h) e é obtida por meio da n é o número de exemplos. 2. . 2. . a) Xj do i. . A última coluna. . yi ) 7 possui que descreve o fenômeno de interesse. h. Cada xi conjunto atributo classes. Conjunto de exemplos no formato atributo-valor Como pode ser notado. . . (xi . . . . Na Tabela 2. . ou seja. . yi ). yi ) onde ca subentendido o fato que xi X 1 × X2 × .1. a linha i refere-se ao i-ésimo exemplo e a entrada xij refere-se ao valor do j -ésimo (j = 1. Um exemplo não-rotulado xi consiste do exemplo. C2 . A taxa de erro de um classicador Equação 2. . Nessa tabela. .APRENDIZADO DE MÁQUINA Como pode ser observado. xna yn denotados por (xi . ||yi 6= h(xi )|| = 0. é a função que tenta-se predizer a partir dos atributos. . Medidas de desempenho Em Aprendizado de Máquina.. Ck } O foco deste estudo é a classicação. . Ck }. . xia .1 é mostrado o formato padrão de um conjunto de exemplos (i T com = 1. . . . pode-se citar: taxa de erro. taxa de acerto e AUC. . um vetor de valores dos atributos. yi a classe dada pelo classicador é a classe verdadeira do exemplo h para o exemplo i. . se yi = h(xi ). Os rótulos são tipicamente pertencentes a um conjunto discreto (nominal) de classes no caso de classicação ou de valores reais no caso de regressão. é um elemento do yi ∈ {C1 . o rótulo ou classe. . × X a e yi pertence a uma das k também é um vetor. . xi2 . .1: X1 X2 ··· Xa Y z1 z2 x11 x21 x12 x22 ··· ··· x1a x2a y1 y2 .

representadas pelas Equações 2. A partir da matriz de confusão. respectivamente. Nesta tabela. e falsos negativos são os exemplos positivos que foram classicados como negativos.1) A precisão ou taxa de acerto é denotada por acc(h) e corresponde ao complemento da taxa de erro. Na Tabela 2. verdadeiros negativos são os exemplos negativos e que foram classicados como negativos. pode-se então obter a taxa de erro e a taxa de acerto.2 é mostrado um exemplo de uma matriz de confusão referente a um conjunto de exemplos com duas classes geralmente denominadas como positiva e negativa.2. AUC ( da geração de um gráco de sensibilidade versus é obtida por meio (1-especicidade).4. A sua diagonal principal corresponde ao número de acertos de cada classe e os elementos fora da diagonal principal correspondem ao número de erros.3 e 2.APRENDIZADO DE MÁQUINA 8 n err(h) = 1X ||yi 6= h(xi )|| n i=1 (2.4) area under the ROC curve ).2) As taxas de erro e acerto também podem ser obtidas por meio de uma matriz de confusão.3) acc(h) = VP +VN V P + FN + FP + V N (2. acc(h) = 1 − err(h) (2. err(h) = FN + FP V P + FN + FP + V N (2. conforme é mostrado na Equação 2. A matriz de confusão é uma matriz cuja dimensão corresponde ao número de classes existentes em um determinado conjunto de exemplos. A sensibilidade da classicação é a razão entre os verdadeiros positivos e o total de . falsos positivos são os exemplos negativos que foram classicados como positivos. conhecido como curva receiver operating characteristic ) e calculando a área embaixo da curva (Hand & Till ROC ( 2001). Outra medida de desempenho. verdadeiros positivos corresponde ao exemplo que é positivo e foi classicado como positivo.

passa pelo ponto P e atinge o ponto (1. 6 0. Para calcular um valor AUC aproximado dessa curva.1). É interessante ressaltar que AUC e precisão nem sempre representam a mesma correlação. A especicidade da classicação é a razão entre os verdadeiros negativos e o total de exemplos negativos. 16 = 0. 0. ou seja. 1]. 4 ∗ 0. a precisão dos dois classicadores será 92%. Nesta gura. o valor AUC aproximado pode ser calculado por meio da área do trapézio somado à área do triângulo. considerando um conjunto de exemplos com 10 exemplos positivos e 90 negativos. Por exemplo.7) Quanto maior o valor de AUC. um alto valor de AUC nem sempre implica em uma alta precisão (Huang & Ling 2005). 7 2 2 (2. suponha-se que dois classicadores (A e B) erraram as classes de 8 exemplos.2: 9 Exemplo de uma matriz de confusão Predição Positiva Predição Negativa Classe Positiva Verdadeiro Positivo (VP) Falso Negativo (FN) Classe Negativa Falso Positivo (FP) Verdadeiro Negativo (VN) exemplos positivos. conforme é mostrado na Equação 2.5) (2. 8) ∗ 0.1 é ilustrado um exemplo de curva ROC. há um único ponto P(0. ou seja. Entretanto.5.0). 8 + = 0.6) Na Figura 2. sensibilidade = especif icidade = VP V P + FN VN FP + V N (2. o valor AUC aproximado do ponto P seria: AU C = (1 + 0.4 . 54 + 0.6. obtendo um gráco semelhante ao ilustrado na Figura 2. pode-se transformar essa curva em linhas retas.APRENDIZADO DE MÁQUINA Tabela 2. Assim.2. Os valores de AUC variam em um intervalo [0.8) e a curva ROC desse ponto é uma curva que tem início no ponto (0. conforme é mostrado na Equação 2. melhor é o desempenho do classicador. considerando-se que os 8 erros . Dessa forma.

1: Exemplo de curva ROC Figura 2. Tal processo é repetido r vezes.2 e especicidade igual a 1.4).2: 10 Cálculo aproximado da medida AUC do classicador A estão entre os exemplos negativos. de modo sejam usados uma vez como conjunto de teste. a taxa de falsos positivos será de 0% mas a taxa de falsos negativos será de 80%. uma vez que esta é igual a (1− precisão)) na comparação de classicadores pois mostrou-se uma medida melhor em extensas comparações experimentais. Nas Tabelas 2. Supondo-se agora que os 8 erros do classicador B estão entre os exemplos positivos.3 e 2. Sendo assim.APRENDIZADO DE MÁQUINA Figura 2. são apresentadas as matrizes de confusão dos classicadores A e B. diferentes áreas AUC (conforme ilustrado nas Figuras 2. foi utilizado r igual a 5.3 e 2. Os exemplos nos que todos os r fold r − 1 folds são então usados para treinamento restante. sendo n o número total de exemplos. Assim.5. os dois classicadores possuem diferentes curvas ROC e. Nesta gura. Segundo (Ling. Validação Cruzada Validação cruzada (r -fold cross validation) é um método de amostragem utilizado para análise de desempenho que consiste em dividir aleatoriamente os exemplos em mutuamente exclusivas ( e a hipótese induzida é testada no folds partições folds ) de tamanho aproximadamente igual a n/r exemplos. é possível calcular os valores de sensibilidade e especicidade de cada classicador. Já o classicador B possui sensibilidade igual a 0. consequentemente. Huang & Zhang 2003) o AUC deveria substituir a precisão (ou taxa de erro. respectivamente. a taxa de falsos positivos é 9% e a taxa de falsos negativos é 0%. . Com base nesses valores. o classicador A possui valor de sensibilidade igual a 1 e especicidade igual a 0.9.4. conforme ilustrado na Figura 2.

de forma recursiva. Top Down In- Uma árvore de decisão utiliza uma estratégia de dividir-para- conquistar.3: Matriz de confusão do classicador A Predição Positiva Predição Negativa Classe Positiva 10 (VP) 0 (FN) Classe Negativa 8 (FP) 82 (VN) Tabela 2.1. decompondo um problema maior em sub-problemas mais simples.4: 11 Matriz de confusão do classicador B Predição Positiva Predição Negativa Classe Positiva 2 (VP) 8 (FN) Classe Negativa 0 (FP) 90 (VN) Figura 2. serão apresentados alguns algoritmos e estratégias de AM utilizados no desenvolvimento do presente projeto: Árvores de Decisão.4: A seguir.3: Curva ROC e área AUC do classicador A Curva ROC e área AUC do classicador B Figura 2.APRENDIZADO DE MÁQUINA Tabela 2. 2.2 Árvores de Decisão Árvores de Decisão pertencem a família de algoritmos de AM indutivo duction of Decision Trees. Bagging. A construção de uma árvore de decisão baseia-se na escolha de um atributo que servirá para particionar os exemplos em subconjuntos correspondentes a cada valor do atri- . Random Forest e Random Tree.

tornando-se especíca para uma determinada base de dados e causando assim um Poda é uma técnica que evita o problema de overtting overtting (super-ajuste). a poda pode causar a classicação incorreta de exemplos de treinamento. assim. observa-se se todos os exemplos pertencem a uma mesma classe.5: 12 Validação cruzada utilizando 5 folds buto. uma árvore pode crescer muito. alguns exemplos de treinamento são delibe- . pré-poda: durante a geração da hipótese. Há basicamente dois métodos de poda (Baranauskas 2001): 1. Caso contrário. por meio da geração de uma hipótese mais genérica a partir do conjunto de treinamento. Passa-se então os exemplos para os subconjuntos de acordo com o valor do atributo escolhido e para cada subconjunto. as folhas não necessariamente conterão exemplos de uma única classe e. Se isso ocorrer.APRENDIZADO DE MÁQUINA Figura 2. Porém. associa-se essa classe à um nó folha contendo todos os exemplos desse subconjunto. é escolhido um novo atributo para particionar os exemplos e o processo é repetido até que haja uma homogeneidade das classes dos exemplos de um determinado subconjunto. Como consequência da poda.

Medidas adicionais são apresentadas na Seção 4. o número total de nós (incluindo os nós folhas) que essa árvore possui. o primeiro gene selecionado foi `Gene 36'. o que leva a outro gene. pois ela possui quatro nós (correspondendo a quatro genes diferentes) e cinco nós folhas (correspondendo às duas classes do problema). Começando pela raiz da árvore.6 é ilustada a estrutura da árvore de decisão do exemplo para classicar o diagnóstico de um novo paciente em saudável ou doente. o tamanho da árvore apresentada na Figura 2.3.1. Na Figura 2. Uma árvore de decisão pode ser usada para classicar novos exemplos.3 Métodos Ensemble Métodos ensemble são algoritmos de aprendizado que constroem um conjunto de clas- sicadores e combinam seus votos para classicar um novo exemplo (Dietterich 2000). 2. então segue-se pelo ramo da esquerda da árvore. então. Se nível de expressão do `Gene 36' ≤ 362. de forma que a hipótese nal não classique todos os exemplos de treinamento corretamente. associa-se a esse novo exemplo a classe correspondente a esse nó folha. Caso o nível de expressão do `Gene 9' > 53 então segue-se pelo ramo da direita chegando no diagnóstico Doente. Uma delas é o tamanho da árvore. ou seja. nível de expressão do `Gene 9' segue-se pelo ramo da esquerda levando ao `Gene 9'. A classe associada ao nó folha alcançado após percorrer a árvore (saudável ou doente) será a classe (o diagnóstico) associado ao novo paciente. percorre-se a árvore a partir da raiz e desvia-se em cada nó de decisão. Após isso. quando desejase classicar um novo exemplo.1. pós-poda: inicialmente. `Gene 103'. tais como o corte de alguns ramos em uma árvore de decisão.1. uma hipótese que explica os exemplos de treinamento é gerada. Se o ≤ 53 segue-se pelo ramo da esquerda atingindo um nó folha com a classe Saudável associada a ele. O voto corresponde à classe fornecida por cada um dos classicadores para esse novo exem- . Árvores de Decisão podem fornecer outras medidas comparativas além das citadas na Seção 2. segundo o atributo correspondente até que se atinja um nó folha e. a hipótese é generalizada por meio da eliminação de algumas partes. O processo é repetido até que um nó folha tenha sido alcançado.13 APRENDIZADO DE MÁQUINA radamente ignorados.6 é 9. Se o nível de expressão do `Gene 103' ≤ 116. 2. Por exemplo. Assim.

O erro é computado. a m de tentar classicá-lo corretamente. o qual constrói muitas árvores de decisão que serão usadas para classicar um novo exemplo por meio do voto majoritário. ensemble. Cada árvore de . Ma & Jiang 2011). Os métodos bagging ensembles (Breiman 1996) e O método boosting 14 Estrutura de uma árvore de decisão amplamente conhecidos são Random Forests boosting (Freund & Schapire 1996). Enquanto o pode gerar classicadores em paralelo. cria diferentes classicadores base reponderando sequencialmente os exemplos no conjunto de treinamento. Todos os classicadores extraídos são combinados usando um voto majoritário. No início. Random Forests é outro método boosting bagging os gera sequencialmente. Cada exemplo classicado erroneamente pelo classicador anterior recebe um peso maior na próxima iteração do treinamento.6: plo. Cada subconjunto de treinamento é usado como entrada para os classicadores base. O voto de cada classicador individual é ponderado proporcionalmente ao seu desempenho (Wang. o peso dos exemplos classicados corretamente é reduzido e o peso dos exemplos classicados incorretamente é aumentado. Hao. Liaw & Wiener 2002). diferentes subconjuntos de treinamento são formados aleatoriamente com reposição a partir do conjunto de treinamento completo.APRENDIZADO DE MÁQUINA Figura 2. (Breiman 2001. No método bagging (bootstrap aggregation). todos os exemplos são inicializados com pesos iguais.

1. com reposição. contendo é usado para treinar um classicador diferente {hk (x)}. Bagging Assim. alguns exemplos podem ser escolhidos mais de uma vez e outros podem não ser escolhidos. Cada subconjunto gerado possui o mesmo tamanho (número de exemplos) do conjunto original. é mais preciso do que um único classicador. no método diferentes subconjuntos são aleatoriamente construídos. um exemplo do conjunto de treinamento de ser selecionado pelo menos uma vez entre os T tem uma proba- n exemplos selecionados . a partir do conjunto original. Considerando um conjunto de treinamento bootstrap do conjunto de treinamento a partir de Cada subconjunto Tk T T com n exemplos. o boosting pode criar ensembles menos precisos do que um único classicador. por outro lado. cada árvore usa uma amostra diferente da base de dados da mesma maneira que o Geralmente. Tk é uma amostra com reposição. n exemplos. o método Bagging será detalhado na seção seguinte. diminuindo seu desempenho. Neste estudo. mais rápido do que seu desempenho é tão bom quanto boosting e as vezes melhor e não Bagging uma vez que a super-ajusta (Breiman 2001). são selecionados aleatoriamente exemplos para um novo subconjunto de treinamento. Devido à reposição. contendo todos os atributos. Dessa forma. Amostragem bootstrap é uma técnica de amostragem com reposição: a partir do conjunto de treinamento inicial. são mais robustas do que bagging e boosting . bagging bootstrap bagging. em algumas situações. Além disso. Para uma dada amostra bilidade 1 − (1 − n1 )n Tk . 2. há um interesse especial pelo método Forest Random utiliza este método para criar as árvores de uma oresta. Além disso. boosting boosting Random Forests. A amostragem mais comumente utilizada é a E0 . A estratégia de combinação dos classicadores é o voto majoritário. com relação a ruído.APRENDIZADO DE MÁQUINA 15 decisão usa um subconjunto de atributos selecionados aleatoriamente a partir do conjunto original. Por outro lado.4 Bagging O método Bagging (Breiman 1996) é um dos algoritmos de aprendizado antigos. bootstrap explicada a seguir. porém as vezes ele é muito menos preciso do que o boosting. Ele usa amostras bootstrap ensemble mais do conjunto de treinamento (Efron 1979). o pode super-ajustar base de dados ruidosas.

exemplos do conjunto de treinamento original com muitos exemplos de treinamento apa- recendo múltiplas vezes (Bauer & Kohavi 1999.1.7 são ilustrados os métodos Bagging (a) e Random Forest(b). 2. Os exemplos que não foram selecionados na amostra Tk formam o conjunto out-of-bag. Freund & Schapire 1996).2% dos T. ou seja. Um classicador é conhecido como instável quando pequenas mudanças no conjunto de treinamento podem causar grandes mudanças no classicador gerado. o contém. são os exemplos que não foram utilizados para o treino na construção do classicador Assim. Segundo (Acuna & Rojas 2001. é uma árvore induzida aleatoriamente a partir de um conjunto de árvores m atributos aleatórios em cada nó. as árvores de decisão). um único classicador instável não é capaz de oferecer uma resposta conável ao contrário de um conjunto de classicadores.1. 2%. em média. o qual será explicado na Seção 2. somente cerca de 63. a avaliação namento especíco sicadores {hk (x)} T. usando T com a atributos e n exemplos. out-of-bag hk .5 Random Trees & Random Forests Considerando um conjunto de treinamento amostra bootstrap exemplos e usando Random Tree possíveis. y). seja Tk do conjunto de treinamento a partir de m atributos aleatórios (m ≤ a) T uma com reposição. e os deixam votarem para criar o classicador constroem-se clas- bagged. Para um valor grande de que signica que cada amostra bootstrap n. y) no conjunto de treinamento. Na Figura 2. Breiman 1996. isto é aproximadamente 1 − 1/e ≈ 63. O termo aleatoriamente cada árvore tem uma chance igual de ser amostrada. agregam-se os votos somente sobre os classicadores para os quais Tk não contém (x. Random Trees ecientemente e a combinação de grandes conjuntos de signica que podem ser geradas Random Trees geralmente leva a . que fornece uma estimativa para o erro de generalização (Breiman 2001). contendo n em cada nó das árvores. Dietterich 2000). Bagging é muito ecaz quando os classicadores utilizados possuem um comportamento instável (como por exemplo. uma vez que um classicador composto pode ter maior chance de acerto (Lopes 2007).16 APRENDIZADO DE MÁQUINA aleatoriamente. Este é o estimador out-of-bag. funciona da seguinte maneira: dado um conjunto de trei- geram-se conjuntos de treinamento bootstrap Tk . Para cada (x. Nestes casos.5 juntamente com a diferença entre ambos (parte tracejada).

Blomme. um subconjunto de m atributos é selecionado aleatoriamente e avaliado. Süveges. Nienartowicz. escolhido para dividir o nó. . Random Forests aplicam o mesmo método que o produzir amostras aleatórias de conjuntos de treinamento (amostras Random Tree.APRENDIZADO DE MÁQUINA (a) Figura 2. com reposição. De Cat. O melhor atributo é. bagging bootstraps ) para para cada Cada novo conjunto de treinamento é construído. Random Forest é denido formalmente como segue (Breiman 2001): é um classicador composto por uma coleção de árvores {hk (x)}. . Lecoeur. 2. Sarro. k = 1. Dubath. López. onde Tk são amostras alea- tórias independentes e identicamente distribuídas e cada árvore vota na classe mais popular para a entrada x. A cada nó da árvore.7 (b) é ilustrado o funcionamento de uma Random Forest que diferencia do funcionamento .7: 17 (b) Funcionamento dos métodos Bagging (a) e Random Forest (b) modelos precisos (Zhao & Zhang 2008. . Mowlavi. As árvores crescem sem poda. De Ridder. a partir do conjunto de treinamento original. Jan. A árvore é construída usando este novo subconjunto e uma seleção aleatória de atributos. então. Beck. Lebzelter & Eyer 2011). L. . Cuypers. O valor m é xado para todos os nós. Na Figura 2. Como já foi mencionado. Guy. Rimoldini.

Ma. Uma árvore com uma taxa de erro baixa é um classicador forte.CONSIDERAÇÕES FINAIS do bagging na parte tracejada da gura. aumentando a força das árvores individuais. A baixa correlação tende a diminuir a taxa do erro de classicação. . Breiman 2004. 2. portanto. diminui a correlação entre elas. Breiman (2001) justica o uso do método o uso do Random Forest 18 bagging em Random Forests por duas razões: parece melhorar o desempenho quando atributos aleatórios são usados. Breiman & Cutler 2004. Guo & Cukic 2007). Foi descrito como uma Random Forest e Random Forest funciona e como ela é construída. O erro de classicação da oresta depende da força das árvores individuais da oresta e da correlação entre quaisquer duas árvores na oresta (Breiman 2001. Árvores de Decisão. usando o estimador out-of-bag. aprendizado de máquina. assim como estimativas para força e correlação.2 Considerações Finais Neste capítulo foram apresentados alguns conceitos utilizados durante o desenvolvimento deste projeto de mestrado. uma vez que na construídas selecionando aleatoriamente acontece no bagging em que todos os a m bagging bagging as árvores são atributos em cada nó das árvores. reduz-se a taxa de erro da oresta. como por exemplo. No capítulo seguinte são apresentados conceitos de biologia envolvendo expressão gênica. • Força da árvore individual na oresta: pode ser interpretada como uma medida de desempenho para cada árvore. pode ser usado para fornecer estimativas contínuas do erro de generalização do conjunto combinado de árvores. a saber: • Correlação entre as árvores da oresta: duas medidas de aleatoriedade (uso do bagging e seleção aleatória de atributos) fazem com que as árvores sejam diferentes e. o que não atributos são usados. Assim.

foram utilizados dados de expressão gênica obtidos por meio da técnica conhecida como microarray. Os nucleotídeos são compostos de açúcares pentoses (com cinco carbonos). Johnson.Conceitos Básicos Durante o desenvolvimento do presente trabalho. Lewis.1. citosina.1 DNA Uma molécula de DNA (ácido desoxirribonucleico) consiste em duas longas tas antiparalelas entrelaçadas em forma de dupla hélice. 3. Biologia Molecular . O açúcar dos nucleotídeos de DNA é uma desoxirribose (Figura 3. esta seção traz alguns conceitos importantes para o entendimento de tal técnica. 19 . compostas por uma sequência de nucleotídeos.Capítulo 3 Conceitos Biológicos Neste capítulo serão apresentados alguns conceitos biológicos utilizados no projeto.1) ligada a um grupo fosfato e a base nitrogenada pode ser adenina. um ou mais grupos fosfatos ligados aos carbonos e uma base contendo nitrogênio. Ra. guanina ou timina (Alberts. Assim.1 microarrays. como expressão gênica e 3.

A série completa de . é mostrada na Figura 3.1: 20 Desoxirribose. a base (A) pareia somente com a base (T) e a base (C) pareia somente com a base (G). Palladino & Spencer 2010). a outra ta vai no sentido 3' para 5'. Johnson.CONCEITOS BÁSICOS Figura 3.BIOLOGIA MOLECULAR . as tas de DNA são complementares (Klug. Esse pareamento especíco das bases A = T e G ≡ C resulta em uma com- plementariedade das bases. As bases nitrogenadas podem ser de dois tipos: purinas.5. Na extremidade 3' há um grupo hidroxil livre ligado ao carbono número 3 da pentose e na extremidade 5' há um fosfato livre ligado ao carbono número 5 da pentose. sabe-se a sequência da sua ta complementar. ilustrando todas as características citadas anteriormente. o termo anti-paralelas signica que enquanto uma ta corre no sentido 5' para 3'. As bases dos nucleotídeos mantêm as duas tas de DNA unidas por meio de pontes de hidrogênio entre elas. automaticamente. Palladino & Spencer 2010). com um anel duplo (adenina e guanina) e pirimidinas. Roberts & Walter 2010) Roberts & Walter 2010). Adaptado de (Alberts. ao saber a sequência de uma das tas. Assim. Palladino & Spencer 2010) (Figura 3.3. Os segmentos de DNA que contém a informação genética são denominados genes. Para simplicar a nomenclatura dos nucleotídeos é utilizada a abreviação da base nitrogenada que o identica. Cummings. Cummings. Segundo o modelo de Watson-Crick (Watson & Crick 1953). Uma sequência de nucleotídeos no DNA armazena a informação genética. A ta de DNA possui uma polaridade indicada por uma extremidade 3' e por uma extremidade 5'. Assim. Lewis. conforme ilustrado na Figura 3.4). ou seja. A adenina forma duas pontes de hidrogênio com a timina e a guanina forma três pontes de hidrogênio com a citosina. guanina (G) e timina (T). conforme ilustrado na Figura 3. nucleotídeos com a base nitrogenada adenina são abreviados pela letra (A). Cummings. Ra. com um anel simples (citosina e timina) (Klug. A união dos nucleotídeos é feita por meio de uma ligação fosfodiéster entre a extremidade 3' de um nucleotídeo e a extremidade 5' de outro (Klug. citosina (C). ou seja. Uma estrutura de DNA.2.

CONCEITOS BÁSICOS 21 Figura 3.4: Ligação fosfodiéster. Roberts & Walter Figura 3. Adaptado de (Alberts. Adaptado de (Klug. Ra. Cummings. Lewis.BIOLOGIA MOLECULAR . Cummings.3: Bases nitrogenadas do DNA. Palladino & Spencer 2010) 2010) Figura 3. Palladino & Spencer 2010) . Johnson. Adaptado de (Klug.2: Nucleotídeo de DNA.

1. Roberts & Walter informações genéticas contidas no DNA é denominada genoma. Porém. entre elas pode-se citar a função estrutural e a função regulatória. A estrutura da base uracila é apresentada na Figura 3. Ra. Cummings. Roberts & Walter 2010. conforme ilustrado na Figura 3. Este princípio (DNA → RNA → proteína) é co- nhecido como dogma central da biologia molecular (Alberts. em vez da timina (T). Adaptado de (Alberts.BIOLOGIA MOLECULAR . Nesse caso. Lewis. Roberts & Walter 2010. o RNA possui algumas diferenças do DNA (Alberts. Johnson. Johnson. • as bases nitrogenadas do RNA podem ser adenina (A). porém o RNA contém a base uracila (U). Ra. As proteínas possuem diversas funções biológicas (Lewis 2001). Lewis. Lewis. Lewis. guanina (G) e citosina (C). Klug. Johnson. Palladino & Spencer 2010): • o açúcar dos nucleotídeos do RNA é ribose em vez de desoxirribose. assim como no DNA. Ra. Roberts & Walter 2010).5: 2010) 22 Estrutura de DNA.CONCEITOS BÁSICOS Figura 3. Ra. Palladino & Spencer 2010). 3.2 RNA A molécula de RNA (ácido ribonucleico) também é composta por uma sequência de nucleotídeos unidos entre si por meio de ligações fosfodiéster.6. Johnson. O uxo da informação genética ocorre da seguinte maneira: a partir do DNA é formado o RNA (processo denominado transcrição) e o RNA é utilizado como molde para a síntese de proteínas (processo denominado tradução). a base adenina . Cummings. O genoma contém informações para todas as proteínas e moléculas de RNA que o organismo irá sintetizar (Alberts.7. Klug.

O mRNA é uma molécula de ta simples.BIOLOGIA MOLECULAR . RNA transportador (tRNA) e RNA ribossômico (rRNA). A sequência de um mRNA é lida em grupos de três nucleotídeos por vez. por meio do pareamento de bases.1. Existem três classes principais de RNA: RNA mensageiro (mRNA).6: Figura 3. Adaptado de (Alberts. Cada uma dessas trincas de nucleotídeos (denominadas códons) codicam um único aminoácido (subunidade que forma as proteínas).CONCEITOS BÁSICOS Figura 3. Adaptado de (Klug. produzida a partir de um lamento molde de DNA. Lewis. Palladino & Spencer 2010) pareia com a base uracila e a base guanina pareia com a base citosina (assim como no DNA). Roberts & Walter 2010) Base nitrogenada Uracila. Cummings. em um processo conhecido como transcrição. O tRNA é uma molécula que carrega os aminoácidos para o ribossomo durante a tradução. Johnson. possuindo em sua outra extremidade uma sequência de três nucleotídeos denominada anticódon. Cada tRNA liga-se em uma extremidade a um aminoácido especíco. O mRNA tem como função transmitir a informação genética do núcleo para o citoplasma. conforme é mostrado na Tabela 3. habilita o tRNA a reconhecer um códon (ou um grupo . Diversos códons codicam um mesmo aminoácido. pois os genes estão localizados no núcleo celular e os ribossomos (responsáveis pela síntese de proteínas) localizam-se no citoplasma. O anticódon.7: 23 Ribose. Ra. • a estrutura do RNA é uma ta simples.

AGC T Thr ACU.CONCEITOS BÁSICOS Tabela 3. GGG. CAA I Ile AUU. CUG. UAC V Val GUU. CGA . Ra. ACC. assim. AGA D Asp GAU. conhecidas como subunidades maior e menor. Os ribossomos são formados por duas subunidades de tamanhos diferentes. abreviaturas e os códons que os Símbolo Abreviação Códons A Ala GCU. CCA S Ser UCU.BIOLOGIA MOLECULAR . conforme ilustrado na Figura 3. GUA de códons) no mRNA. GGC. CGC. formando assim uma nova cadeia de proteína por meio da ligação dos aminoácidos transportados pelos tRNAs (Alberts. Roberts & Walter 2010). ACA W Trp UGG Y Tyr UAU. UUG.9. CUA. UCC. GUC. CAA G Gly GGU. UUA K Lys AAG. CCG. GAA Q Gln CAG. O ribossomo agarra-se à porção terminal de um mRNA e desloca-se ao longo desse mRNA capturando moléculas de tRNA.1: codicam 24 Os 20 aminoácidos com seus respectivos símbolos. GUG. . AAA M Met AUG F Phe UUU. Johnson. CCC. CGG. em proteínas.8.1. O rRNA juntamente com as proteínas ribossomais (mais de 50 proteínas diferentes) formam os ribossomos. Tal processo é ilustrado na Figura 3.3 Expressão gênica Expressão gênica é o processo pelo qual as sequências de nucleotídeos dos genes são interpretados em aminoácidos e. 3. GCC. UUC P Pro CCU. GCG. AGU. UGC E Glu GAG. GAC N Asn AAU. GCA R Arg CGU. AAC C Cys UGU. AUA L Leu CUU. Lewis. CUC. AGG. AUC. ACG. Estas subunidades interligam-se para sintetizar as proteínas e possuem papel fundamental nos sinais de início da tradução. GGA H His CAU. UCA. UCG.

assim.CONCEITOS BÁSICOS 25 Molécula de tRNA ligada à um códon no mRNA. por meio da catalisação da formação de ligações fosfodiéster que conectam os nucleotídeos formando assim uma molécula de RNA. O DNA possui uma região denominada promotora. Os fatores gerais de transcrição são proteínas que ajudam a posicionar corretamente a RNA-polimerase sobre o promotor. Palladino & Spencer 2010). . A RNA-polimerase move-se sobre o DNA. denominadas fatores gerais de transcrição. Essa região é uma sequência especial de nucleotídeos que indica o início para a síntece de RNA. A molécula de RNA é estendida na direção 5' para 3'. A RNA-polimerase é a enzima que realiza a transcrição. Adaptado de (Alberts. Esta região é reconhecida pela RNA-polimerase e outras moléculas utilizadas na transcrição. esses fatores auxiliam na separação das duas tas de DNA para que a transcrição inicie e liberam a RNA-polimerase do promotor.BIOLOGIA MOLECULAR . abrindo a dupla hélice e. expondo uma nova região da ta-molde para o pareamento de bases por complementariedade. Ra. Roberts & Walter 2010) Figura 3. Johnson. A transcrição (primeiro passo da expressão gênica) é o processo no qual um RNA é formado a partir de uma ta-molde de DNA. uma vez que a transcrição tenha iniciado. Além disso. Esse processo pode ser subdividido em três fases: iniciação. Cummings.8: A expressão gênica é composta por duas etapas: transcrição e tradução. a RNA-polimerase não consegue ligar-se diretamente aos sítios promotores e iniciar a transcrição. alongamento e término (Klug. Sem estes fatores. Lewis.

Então. RNA-polimerase II e RNA-polimerase III. as proteínas. a RNA-polimerase deverá ter acesso à tamolde no ponto inicial da transcrição.BIOLOGIA MOLECULAR . Adaptado de (Alberts.CONCEITOS BÁSICOS Figura 3. Sendo assim. rRNA e diversos pequenos RNAs. Ra. inclusive os que codicam mRNA e consequentemente. Johnson. Johnson. pela exposição da ta molde. Os três tipos são estruturalmente similares. Após a formação deste complexo sobre o DNA. Após isso. A iniciação ocorre quando a RNA-polimerase II e os fatores gerais de transcrição reconhecem e ligam-se à região promotor para formar um complexo de iniciação de transcrição. Lewis. A RNA- . será utilizada a RNA-polimerase II para explicar o conceito de expressão gênica. Já a RNA-polimerase II transcreve a grande maioria dos genes. Roberts & Walter 2010) Os núcleos eucarióticos possuem três tipos de RNA-polimerases: RNA-polimerase I. porém transcrevem direntes tipos de genes. começa a etapa de alongamento e desenrolamento da dupla hélice. um dos fatores de transcrição é responsável pela abertura do DNA e assim.9: 26 Expressão gênica. As RNA-polimerases I e III transcrevem os genes que codicam tRNA. Ra. Roberts & Walter 2010). Lewis. A RNA-polimerase mantémse no promotor até sofrer uma série de alterações estruturais que permitem sua saída do promotor e a entrada na fase de extensão (alongamento) da transcrição (Alberts.

BIOLOGIA MOLECULAR . Roberts & Walter 2010). Por m. Roberts & Walter 2010). Uma vantagem do splicing é que ele permite que um mesmo gene produza um grupo de diferentes proteínas. a dupla hélice. Alberts. os transcritos de RNA são rapidamente degradados (Klug. Roberts & Walter 2010). Na ausência dessa cauda. . Ra. Ra. Este cap ajuda a célula a distinguir os mRNAs dos outros tipos de moléculas de RNA. Tal transcrito passa por um processamento constituído de três etapas: • Capeamento na extremidade 5': ocorre a adição de uma estrutura ( cap 5'). Lewis.10. assim que a RNA-polimerase II produziu aproximadamente 25 nucleotídeos de RNA. separando por um momento as duas tas. como por exemplo. a molécula de DNA volta ao seu estado original. Cummings. Palladino & Spencer 2010). Além disso. as moléculas produzidas pelas RNA-polimerases I e III. O cap é adicionado antes mesmo que o transcrito primário esteja completo. • Poliadenilação na extremidade 3': a extremidade 3' do transcrito primário é clivada enzimaticamente e então. este capeamento ajuda o RNA a ser adequadamente processado e exportado (Alberts. o RNA transcrito é chamado de pré-mRNA ou RNA transcrito primário. o pré- mRNA será denominado mRNA (Alberts. Em células eucarióticas. • Splicing : remoção dos íntrons (sequências não codicantes) e união dos éxons (sequências codicantes). a extremidade 5' da nova molécula de RNA é modicada pela adição do cap. ou seja. Johnson. Cummings. Palladino & Spencer 2010. onde uma delas servirá de molde para a formação da molécula de mRNA correspondente. ocorre a poliadenilação por adição de uma cauda de poli-A (aproximadamente 200 nucleotídeos A) (Klug. Somente após ter ocorrido o splicing e processamento das extremidades 5' e 3'. Após a transcrição. Isso acontece devido às diferentes maneiras de splicing que os transcritos de muitos genes sofrem. Johnson.CONCEITOS BÁSICOS 27 polimerase desliza ao longo da molécula de DNA. Lewis. conforme ilustrado na Figura 3. o processo termina quando a RNA polimerase II reconhece uma sequência de terminação especíca no DNA. Lewis. ou seja. Johnson. Ra.

CONCEITOS BÁSICOS Figura 3. Ra. No processo de tradução. o mRNA torna-se maduro e é. O processo de tradução.BIOLOGIA MOLECULAR . para que ocorra a tradução. Como resultado resultado dos dois passos de translocação (subunidades maior e menor). pode ser dividido em três fases: iniciação. a sequência de nucleotídeos do mRNA é lida de uma extremidade à outra de três em três nucleotídeos. formando uma cadeia polipeptídica (proteína) (Alberts. Assim. são utilizados os tRNAs. o qual é reconhecido por um tRNA especial (tRNA iniciador) que sempre carrega o aminoácido metionina. formação da ligação peptídica. o ribossomo completo move-se três nu- . cada novo aminoácido é adicionado à cadeia em formação em um ciclo de quatro passos principais: ligação do tRNA. O início da tradução ocorre quando uma subunidade ribossomal menor se liga a uma molécula de mRNA em um códon de iniciação (AUG). alongamento e terminação (Klug. Lewis. Cummings. Uma subunidade ribossomal maior se liga para completar o ribossomo e iniciar a síntese proteica. Adaptado de (Alberts. Lewis. os quais servem de molécula adaptadora entre um códon de mRNA e o aminoácido correspondente. é realizada a síntese de proteína a partir de um mRNA.10: Splicing 2010) 28 do RNA. em associação aos ribossomos. Uma vez que a síntese foi iniciada. transportado para o citoplasma. Roberts & Walter Após o processamento. A subunidade menor fornece uma região sobre a qual os tRNAs podem ser ecientemente pareados sobre os códons de um mRNA e a subunidade maior catalisa a formação das ligações peptídicas entre os aminoácidos. Johnson. Palladino & Spencer 2010). Na tradução. translocação das subunidades maior e menor. Roberts & Walter 2010). então. assim como o processo de transcrição. Ra. Johnson.

Essa análise serial dos de mecanismos para a identicação dos limites de cada tags de sequência necessita tag. Zhang. nalizando a tradução e liberando o polipeptídeo completo. Roberts & Walter 2010). proteínas conhecidas como fatores de liberação ligam-se aos ribossomos. múltiplos tags lando a sequência de milhares de podem ser concatenados (ligados) e sequenciados. Assim. Wakatsuki. a concatenação possibilita a análise dos transcritos de um modo serial. Já entre os problemas in- . Ra. A molécula de mRNA é lida códon a códon. Esse ciclo é repetido cada vez que um aminoácido é adicionado à cadeia polipeptídica. não determinam um aminoácido. (Velculescu. Lewis. Johnson.BIOLOGIA MOLECULAR . na direção 5' para 3'. Wakatsuki. Lorena. Tanto problemas técnicos como problemas intrínsecos ao método SAGE são destacados para a técnica de SAGE. Hada & Ryo 2001). SAGE ( Signature Sequence technology ) e microarray (de Souto. por exemplo. Como problemas técnicos destacam-se a desvantagem da necessidade de uma quantidade relativamente alta de mRNA e diculdade relativa em construir bibliotecas de tags (Yamamoto. Então. Vogelstein & Kinzler 1995) é baseada principalmente em dois princípios (Yamamoto. Esta última técnica merece um destaque entre as demais pois as bases utilizadas no desenvolvimento desta pesquisa são bases de expressão gênica por Serial Analysis of Gene Expression) A técnica SAGE ( microarrays. Delbem & de Carvalho 2003). Técnicas A análise da expressão gênica pode fornecer informações importantes sobre as funções de uma célula (Alberts 1997). Existem diversas técnicas para obter a expressão dos genes Serial Analysis of Gene Expression). Roberts & Walter 2010). UAG ou UGA). uma pequena sequência de cDNA (DNA complementar) de 9-10 pares tag de bases ( ou etiqueta) possui informações sucientes para a identicação de um único transcrito. reve- tags simultaneamente. Johnson. Hada & Ryo 2001): primeiro. MPSS (Massively Parallel como. Ra.CONCEITOS BÁSICOS 29 cleotídeos sobre o mRNA e é posicionado para dar início ao próximo ciclo (Alberts. ou seja. O ribossomo. segundo. libera o mRNA e separa-se nas duas subunidades maior e menor (Alberts. Estes códons não são reconhecidos por um tRNA e portanto. até alcançar um dos três códons de terminação (UAA. os códons de terminação sinalizam para o ribossomo o nal da tradução. então. Lewis.

Williams. Follettie. Zhan. Mittmann. Pallas. George. Luo. especialmente quando os tags são derivados de genes não conhecidos (Yamamoto. Essa tecnologia pode ser utilizada também para o estudo da genômica funcional (Lockhart. na qual moléculas de DNA de ta simples são aplicadas de forma ordenada. O preparo de um microarray começa pela extração de mRNA. Kirchner. o qual busca identicar variações na expressão de determinados genes. Johnson. A sua desvantagem é o elevado custo. ou alguma outra condição experimental (Cheung. é usada para examinar a expres- são de milhares de genes em diferentes tecidos de um determinado organismo de maneira simultânea (Guindalini & Tuk 2007). Moon. Massimi. Chee. Aguilar. Walker.4 Microarrays A tecnologia de microarrays. Byrne.CONCEITOS BÁSICOS trínsecos ao método SAGE destaca-se o comprimento do tag 30 é extremamente curto (9-10 pares de bases) e isso diculta novas análises. Dong. ou microarranjos de DNA. geralmente é feita uma transcrição reversa do mRNA. MPSS ( Massively Parallel Signature Sequence technology ) (Brenner. Wang. Lit. Vermaas. Roth. Apperson. A técnica de microarray merece um destaque entre as demais pois as bases utilizadas no desenvolvimento desta pesquisa são bases de expressão gênica por microarrays. McCurdy. Ewan. Wong. Neste método.1. tal técnica será descrita em maiores detalhes na seção seguinte. Lloyd. Sharp. isto é. Bridgham. Albrecht. Glauser. 3. Morley. em um arranjo. há uma combinação de clonagem e amplicação de cDNA na superfície de milhares de microbeads e uma elevada capacidade de sequenciamento de DNA não baseada em gel. Mao & Corcoran 2000) é uma técnica baseada na produção de sequências curtas de 16-20 bases adjacentes ao sítio de restrição da enzima DpnII mais próximo à extremidade 3' do mRNA (Liu ). Johnson. Norton & Brown 1996. Eletr. Xu. Hershey. Fearon. pois é uma tecnologia baseada em instrumentos sosticados e protegida por direitos autorais. Foy. Burcham. Hada & Ryo 2001). Então. as quais podem ser respostas biológicas naturais de uma patologia. DuBridge.BIOLOGIA MOLECULAR . Gilbert. Kobayashi. Liu & Ran 2006). Assim. Liu. Pinter. Wakatsuki. Gallo. A maior parte desta tecnologia consiste em uma lâmina de microscopia. Kucherlapati & Childs 1999). Golda. sintetizando assim cDNA marcado com nucleotídeos identi- .

Assim. ou seja. são marcados pela cor verde (passo 3). ou seja. a partir dos pontos que uoresceram é possível determinar quais genes são expressos nas duas amostras de interesse. Os pontos u- orescentes revelam quais os genes que se expressam em um determinado tecido e o seu nível relativo de expressão. os pontos que apresentam a cor vermelha. Após isso. A intensidade da uorescência indica o nível relativo de expressão. cujos íntrons (sequências não codicantes) já foram removidos. Portanto. os cDNAs referentes à uma amostra. quanto mais brilhante for o ponto. Uma vez que os microarrays permitem o estudo de milhares de genes ao mesmo tempo. Palladino & Spencer 2010). Tal processo é ilustrado na Figura 3. sintetizando cDNAs (DNAs complementares) .passo 2. A partir desses mRNAs. como é ilustrado no passo 4. Nesta gura. ou seja. o gene referente àquele ponto só é expresso na Amostra B. são pontos onde somente o cDNA marcado com a cor vermelha (Amostra A) hibridizou. Cummings. O cDNA (DNA complementar) é um DNA sintetizado a partir de uma molécula de mRNA.11. Dessa maneira. Palladino & Spencer 2010). por exemplo uma amostra de uma pessoa normal (Amostra A) e de uma pessoa com câncer (Amostra B).CONCEITOS BÁSICOS 31 cados por uorescência. são marcados pela cor vermelha e os cDNAs referentes à outra amostra. . o primeiro passo ilustrado é o isolamento do mRNA das amostras de interesse. e os pontos com cor amarela são pontos onde tanto o cDNA marcado com a cor vermelha quanto o cDNA marcado com a cor verde hibridizaram. ou seja. é realizada uma transcrição reversa. uma vez que quanto mais brilhante o ponto. o lavado e depois rastreado com um microarray é laser que faz uorescer o cDNA hibridizado. Os cDNAs marcados são microarray desnaturados e incubados com o do microarray para que ocorra a hibridização com os pontos onde encontram-se as sequências complementares de DNA. os quais contêm as sequências complementares de DNA. Amostra B. os pontos com a cor verde são pontos onde somente o cDNA marcado com a cor verde (Amostra B) hibridizou. Tais cDNAs são marcados por meio de nucleotídeos identicados por uorescência. o microarray passa por um laser para uorescer o cDNA que hibridizou (passo 5). o gene referente àquele ponto é expresso tanto na Amostra A quanto na Amostra B.BIOLOGIA MOLECULAR . Cummings. mais o respectivo mRNA se expressa naquele tecido (Klug. mais expresso é o respectivo mRNA naquele tecido (Klug. Por m. Os cDNAs são então desnaturados e incubados com o microarray para hibridizar com os seus pontos. por exemplo Amostra A. o gene referente àquele ponto só é expresso na Amostra A.

11: Microarray 32 .CONCEITOS BÁSICOS Figura 3.BIOLOGIA MOLECULAR .

Cummings. Assim. Palladino & Spencer 2010). programas de computador que analisem tais dados são essenciais para organizar o perl de dados de expressão gênica (Klug. No capítulo seguinte será apresentada a metodologia proposta para a geração de uma única árvore a partir de uma Random Forest.2 Considerações Finais Neste capítulo foram fornecidos alguns conceitos a respeito de microarrays e expressão gênica. que é o foco do capítulo seguinte. 3. .CONSIDERAÇÕES FINAIS 33 eles podem gerar uma grande quantidade de dados sobre expressão gênica.

Fishman. Cutler & Barcellos 2010). elas têm sido amplamente utilizadas em diversos domínios. inclusive na bioinformática. Ward. Lee. A seguir. Abbott. Foi utilizada a taxa de erro como medida de desempenho. 4. Díaz-Uriarte & de Andrés 2006.Capítulo 4 Proposta Metodológica Neste capítulo são descritos alguns trabalhos relacionados encontrados na literatura. é descrita a metodologia utilizada na realização do presente projeto. Park & Song 2005. Ward. Stone. Abbott. Williams & Zhao 2003) são comparados resultados obtidos com vários classicadores para distinguir entre pacientes com câncer de ovário e indivíduos normais baseados em dados de espectrometria de massa (MS) obtidos em amostras de soro. Fishman. Em (Wu. Hubbard. Goldstein. McMurray. McMurray. juntamente com os resultados de um experimento preliminar utilizando a metodologia proposta.1 Trabalhos Relacionados Uma vez que Random Forests são ecientes. Williams & Zhao 2003. Stone. por exemplo em (Wu. Mor. Concluiu-se que o método da Random Forest conduz a uma taxa de classicação errada mais 34 . Mor. multi-classe e capazes de lidar com um amplo espaço de atributos.

alterando seus parâmetros. 500. entre elas Lymphoma. Random Forest de genes usando Random Forest out- e seleção deveriam tornar-se parte da caixa de ferramentas padrão dos métodos para predição de classes e seleção de genes utilizando bases de microarray. Foi concluído que mudanças nestes parâmetros apresentam. Também foi utilizada a taxa de erro como medida de desempenho. Park & Song (2005) analisou o desempenho de classicadores desenvolvidos (entre eles a Random Forest) em bases de microarray e forneceu orientações para encontrar as ferramentas de classicação mais apropriadas em diversas situações. 5000. número de atributos selecionados aleatoriamente e número mínimo de exemplos em cada folha. Hubbard. seu valor default de 1 é apropriado. como o número de árvores a serem criadas. Cutler & Barcellos 2010) foi apresentada uma das primeiras ilustrações de sucesso analisando bases de genoma de associação ampla (GWA) com um algoritmo de aprendizado de máquina ( Random Forests ) usando uma base de esclerose mú- tlipla (MS). Foi utilizado um número mínimo de exemplos entre 1 e 5. as análises preliminares sugerem que Random Forest e métodos similares a ela podem ser mais úteis do que outros métodos para classicar exemplos baseados em bases de MS. na maioria das vezes. Foram construídas orestas com 50. Em (Goldstein. 1000 e 2000 árvores e número de . sugerindo que os valores default são boas opções. 10000. A conclusão geral obtida é que devido ao seu desempenho. 20000 e 40000 e diversos números de atributos selecionados aleatoriamente. uma relacionada com câncer de pulmão e uma de leucemia. A conclusão obtida foi que classicadores como bagging. Além disso. boosting e Random Forest melhoram Random Forest o desempenho de CART (árvore de classicação) signicativamente e que a é o melhor método dentre os três quando o número de classes é moderado. 250. Foi utilizada a taxa de erro of-bag. Em (Díaz-Uriarte & de Andrés 2006) foi investigado o uso de sicar bases de dados de microarray Random Forest (incluindo problemas multi-classes) e foi proposto um novo método de seleção de genes em problemas de classicação baseados na Foi analisado o desempenho da para clas- Random Forest Random Forest. O trabalho de Lee. 2000. efeitos insignicantes.35 TRABALHOS RELACIONADOS baixa. Foram utilizadas 7 bases de dados. Além disso. concluiu-se que o tempo de execução aumenta linearmente com o número de árvores e a mudança no número mínimo de exemplos entre 1 e 5 tem efeitos insignicantes e assim. número de árvores igual a 1000.

Tal resultado é interessante. são L árvores. uma vez que possui a mesma ordem de grandeza que os resultados obtidos em nossas pesquisas (64128 árvores) em (Oshiro. Perez & Baranauskas 2012). sugerindo assim novas direções de investigação para esta doença complexa. É criado então um mapa contendo todos os nós utilizados por todas as árvores em todos os níveis. porém não muito. A convergência parece ocorrer entre 200-400 árvores. ou seja. Foi concluido que 10% do número de atributos parece minimizar a taxa do erro out-of-bag. Em um . Foi concluído que dessa maneira consegue-se criar uma única árvore e pode-se vericar os resultados facilmente usando este único classicador ao invés de vários. Isto é feito até que a árvore nal tenha sido criada. No estudo. foi introduzido um novo método para gerar um classicador ótimo e preciso a partir de árvores para várias amostras da mesma base de dados. 2009) para a implementação do algoritmo proposto. O resultado de uma Random Forest. Foi utilizada a métrica ganho de informação para selecionar o nó que irá fazer parte da nova árvore e as árvores foram geradas por meio do método bagging. é calculado o ganho de informação de cada atributo utilizado neste nível e o atributo com maior ganho é então utilizado como o nó daquele nível da árvore nal. Para cada nível. Foi utilizado o software de código aberto Weka (Hall et al.PROPOSTA PARA CONSTRUÇÃO DE UMA ÚNICA ÁRVORE 36 atributos selecionados aleatoriamente igual a 10% do número de atributos. como já foi mencionado.2 Proposta para construção de uma única árvore Nesta seção é apresentada a proposta para a construção de uma única árvore a partir das árvores de uma Random Forest. Mais importante. Na seção seguinte é descrito o método proposto nesta pesquisa de mestrado para a construção de uma única árvore. 4. do nó raiz ao nó folha. em (Aziz & Ahmed 2011). Porém. usando Random Forest. contudo. Não foi encontrado nenhum trabalho na literatura com um tema semelhante ao aqui proposto. não há informações sobre o desempenho da árvore criada ou até mesmo comparações entre a árvore nal e outros classicadores. novos genes foram identicados como potencialmente associados com MS. Foi concluido que a Random Forest é computacionalmente viável para bases de GWA e os resultados obtidos fazem sentido biológico baseados em estudos anteriores.

consequentemente. Assim. constatou-se que conforme o número de árvores geradas em uma Random Forest vai crescendo. ou seja. RT2 . e sua métrica correspondente. como é mostrado nas linhas 10 a 13. Métrica(Raiz(RTk )). Porém isso não é algo útil. . .37 PROPOSTA PARA CONSTRUÇÃO DE UMA ÚNICA ÁRVORE estudo preliminar deste mestrado. é escolhido o atributo para compor a árvore nal.. é criado um nó folha. O parâmetro utilizado com seu valor m foi default igual a log 2 (a). A partir deste atributo. foi utilizada uma métrica para identifcar quais poderiam ser os melhores atributos e. . Para realizar a construção de uma única árvore a partir das várias árvores de uma Random Forest e vericar se esta proposta seria viável. ou seja. Perez & Baranauskas 2012). para cada valor que o atributo escolhido pode assumir é gerada uma nova base para uma nova Random Forest. conforme mostrado na linha 14. descrita no Algoritmo 1. RTL ) como indicado na linha 5. tem como início a geração de uma Random Forest a qual é composta por L Random Trees (RT1 . o qual possui a classe c. a quantidade de árvores a serem construídas em uma oresta. Nas linhas 7 a 9 é construído um mapa. A construção da árvore proposta. é construído um mapa nal o qual contém o nome de todos os atributos utilizados nas raízes das L árvores e as médias das suas respectivas métricas. Após isso. É selecionado o atributo que apresenta o maior valor da métrica utilizada. Este atributo irá compor a árvore nal (linha 16). novas orestas foram geradas com L árvores para cada subárvore do atributo e o processo foi repetido. A seguir. o qual contém o nome do atributo utilizado na raiz da k -ésima árvore. Tais médias são calculadas por meio da razão entre a somatória dos valores das métricas do atributo α e o número de vezes que este atributo foi selecionado para ser a raiz de uma árvore. pois esta parece ser frequentemente uma boa escolha (Liaw & Wiener 2002). qual seria o atributo a ser escolhido como um nó para compor a árvore nal desta pesquisa. Ai Ti a qual servirá de parâmetro Na linha 1 é mostrado o ponto de parada do algoritmo. como pode ser visto no Algoritmo 1. A literatura associada . a árvore para de crescer quando todos os exemplos de uma determinada base pertencem a uma mesma classe c. o número de vezes que este atributo aparece no mapa. uma vez que nem todos os atributos existentes são importantes para a classicação. duas questões precisam ser analisadas: 1. tal oresta tende a usar todos os atributos da base de dados (Oshiro. Assim. Raiz(RTk ). Nas linhas 17 a 20 é mostrado como o processo se repete para todos os valores do atributo escolhido. ou seja.

S(A2 ).. .. . . (α.L. RT2 . . (α. .minNum) mapa ← mapaFinal ← ∅ for k ← 1 até L do mapa ← mapa ∪ {(Raiz(RTk ). . M1 ).µ)∈mapaFinal α Sejam A1 . . RTL } ← construirRandomForest(T . n} L: número de árvores a serem geradas na oresta m: número de atributos a serem selecionados aleatoriamente em cada nó de cada árvore Require: minNum : número mínimo de exemplos em uma folha Árvore: árvore nal obtida procedure construirÁrvore(T .minNum) 20: end for 21: return Árvore . . . M2 ).y ) ∈ T | A = Ai } S(Ai ) ← construirÁrvore(Ti . 2.PROPOSTA PARA CONSTRUÇÃO DE UMA ÚNICA ÁRVORE Algoritmo 1 Construção de uma única árvore usando 38 Random Forest T : um conjunto de n exemplos rotulados {(xi .L. yi ).minNum) if T contém apenas exemplos de uma única classe c then Árvore ← Dena folha com classe c return Árvore Ensure: 1: 2: 3: 4: end if 5: 6: 7: 8: RF ≡ {RT1 .Ar os possíveis valores do atributo A Árvore ← Dena nó com A como raiz e sejam S(A1 )... .. . . Métrica(Raiz(RTk )))} 9: end for cada (α.m. µ = i=1 )} w 10: for 11: 12: 13: end for 14: 15: 16: 17: 18: 19: Seja A ← argmaxµ|(α. ·) ∈ mapa do Seja (α. . ·) da forma {(α.A2 .m. Mw )} representando os valores da métrica para o atributo α no mapa Pw Mi mapaFinal ← mapaFinal ∪ {(α.m.L. i = 1.S(Ar ) os subramos de A for i ← 1 até r do Dena Ti = {(x. . .

Saeys. Perez & Baranauskas 2012) visou-se analisar o desempenho da Random Forest conforme o número de árvores aumenta. uma vez que é possível obter um bom balanço entre o AUC e o tempo de processamento. aumentar o número de árvores somente aumenta o custo computacional sem obter um ganho signicativo no desempenho. Os resultados deste experimento são descritos e discutidos mais detalhadamente no Apêndice B. No segundo experimento (Oshiro & Baranauskas 2012). Como já mencionado. Dessa maneira. Hubbard. Inza & Larrañaga 2007). a frequência que os atributos são utilizados na raiz das árvores. Foram propostas e utilizadas algumas métricas de densidade para bases de dados. identicar um subconjunto ou um único melhor atributo em uma base de dados de microarray pode melhorar o conhecimento humano sobre o tema. as quais são descritas no Apêndice B. Lee & Moon 2004. A partir de tal experimento. uma vez que esta é igual a (1− precisão)) na comparação de classicadores pois mostrou-se uma medida melhor baseado em extensas comparações experimentais.1. Atributos irrevelantes não levam somente a um baixo desempenho mas também adicionam diculdades extras em descobrir conhecimento potencialmente útil (Oh. Visando responder essas duas questões.2. Tal experimento buscou por um número (ou um intervalo de números) de árvores a partir do qual não há mais ganho signicativo de desempenho. As vezes. foram realizados dois experimentos neste estudo. tendo sido publicado em (Oshiro. avaliou-se se uma Random Forest . diferentemente da medida aqui utilizada (AUC). É interessante ressaltar que em (Goldstein. a menos que enormes recursos computacionais estejam disponíveis para grandes bases de dados. 2. Huang & Zhang 2003) o AUC deveria substituir a precisão (ou taxa de erro. pôde-se concluir que um intervalo entre 64 e 128 árvores é o mais indicado.PROPOSTA PARA CONSTRUÇÃO DE UMA ÚNICA ÁRVORE 39 fornece poucas informações a respeito de quantas árvores devem ser usadas para constituir uma Random Forest com bom desempenho usando a medida AUC. No primeiro experimento (Oshiro. Perez & Baranauskas 2012). segundo (Ling. Foram construídas Random Forests variando o número de árvores das orestas em taxas exponenciais. Cutler & Barcellos 2010) foi encontrado um intervalo entre 200 e 400 árvores e foi utilizada como medida de desempenho a taxa de erro.

tendo sido publicado em (Oshiro & Baranauskas 2012). a terceira usando pré-poda e seu tempo de Random Forest crescem sem poda não superajusta. Holmes. Friedman). Reutemann & Witten 2009)). Além disso. Frank. uma vez que é sabido que as árvores em uma mesmo considerando o fato de que a Random Forest da pré-poda pode acelerar a indução da mostram que a out-of-bag estimado. Além disso. Pfahringer. As bases utilizadas neste experimento encontram-se descritas no Apêndice A. Para avaliar o desempenho. . Foram utilizadas como medidas comparativas o AUC e o número de nós das árvores. Reutemann & Witten 2009). pois eles são mais prováveis a rejeitar a hipótese nula e não correm os riscos de violações das suposições dos testes paramétricos. o uso Random Forest. identicar o melhor atributo usado para compor a raiz de uma árvore. o uso do erro out-of-bag estimado permite di- ferenciar os atributos que apresentavam frequências similares e. Pfahringer. Tal conclusão foi baseada nas propriedades estatísticas de cada teste. assim. Os resultados deste experimento são descritos e discutidos mais detalhadamente no Apêndice B. O teste estatístico pode ser paramétrico (teste t. foram realizados experimentos com o Algoritmo 1. a segunda etapa buscava analisar o desempenho dos dez atributos mais utilizados na raiz das árvores usando o erro etapa visava analisar o desempenho da Random Forest execução. foi realizada validação cruzada com 10- folds. Utilizando os resultados obtidos nos dois experimentos citados anteriormente. ANOVA) ou não paramétrico (Wilcoxon.2.3. Random Forest comparados com o desempenho de três classica- J48 (árvore de decisão da Weka (Hall. No Capítulo 5 são apresentados os resultados do Algoritmo 1 a partir da dores: Random Forest. Este experimento foi dividido em três etapas: a primeira etapa visava analisar a frequência que os atributos apareciam na raiz das árvores. Segundo (Dem²ar 2006) os testes não paramétricos devem ter preferência em relação aos testes paramétricos. que fornece como saída uma única árvore) e uma árvore gerada de forma aleatória (classicador Random Tree da Weka (Hall.PROPOSTA PARA CONSTRUÇÃO DE UMA ÚNICA ÁRVORE 40 utiliza todos os atributos de uma maneira uniforme ou se existem atributos que são mais utilizados que os demais e se tais atributos possuem um bom desempenho. A avaliação estatística dos resultados é uma parte essencial na validação de novos métodos de aprendizado de máquina (Dem²ar 2006). Frank. Holmes. Os resultados deste experimento Random Forest escolhe um subconjunto de atributos que são mais utilizados nas raízes das árvores geradas.

Forest. taxa de erro. Assim. pelo J48 e pela Random Tree.org/). O teste post-hoc utilizado foi Benjamini- Hochberg (Benjamini & Hochberg 1995) e foi realizada uma comparação todos versus todos. depois. aplicou-se o teste de Friedman (Friedman 1940).3 Métricas de Similaridade de árvores Uma vez que o desempenho médio da árvore proposta é conhecido assim como o desempenho médio de outros classicadores. L Random árvores. Os testes foram realizados no software R para computação estatística (http://www.r-project. pois essa fornece uma vez que não há como comparar com a uma oresta como saída. 4. Nesse estudo são realizados cinco passos: primeiro as duas árvores de decisão são transformadas em um conjunto de regras. Assim. então. Para calcular três das métricas propostas. foram utilizadas duas métricas da literatura e propostas outras duas neste trabalho visando comparar o quão similares são as árvores criadas pela metodologia proposta. B) = |A ∩ B| |A ∪ B| (4. AUC. a seguir. considerando um nível de signicância de 5%. é interessante analisar as árvores obtidas por estes métodos com métricas além do desempenho (taxa de acerto. ou seja. executando todas as possíveis comparações. Tal coeciente analisa a similaridade entre dois conjuntos de amostras e é calculado por meio da seguinte fórmula: Jaccard(A. entre outras). por . é necessário um teste post-hoc para vericar em quais pares de classicadores as diferen- ças são realmente signicativas (Dem²ar 2006). as subes- truturas de todas as regras são construídas por meio da decomposição das regras em suas subestruturas.MÉTRICAS DE SIMILARIDADE DE ÁRVORES 41 nos seus pressuspostos e no conhecimento dos dados de aprendizagem de máquina. duas regras i e j das duas árvores de decisão são comparadas. a m de analisar se os resultados dos experimentos reportados no capítulo seguinte são signicativamente diferentes. foi utilizado como base o Coeciente de Jaccard (Jaccard 1901). as regras das duas árvores são ordenadas de acordo com o número att de atributos em uma regra.1) Em um estudo recente (Perner 2011) foi proposta uma métrica para cálculo da similaridade entre duas árvores. Se o teste de Friedman rejeita a hipótese nula.

2) e    1 Simk =   0 se subestrutura for idêntica caso contrário Se a regra contém um atributo numérico (α) então a medida de similaridade é dada por: α − α0 k1 − k1 − |x| |x| S = 1− =1− =1− t t t S = 0 onde α ≤ k1 para x x<t x≥t é um atributo numérico. sendo que as árvores completamente similares resultam em 1. resultam em zero. . Aplica-se a fórmula 4. a medida de similaridade SIMij = onde att = max {atti . foi considerado um valor de s s% de k1 . 1 (Sim1 + Sim2 + . Jaccard (J): representa a porcentagem de similaridade entre duas árvores (A e B) em relação aos atributos utilizados por cada uma. SIMij é calculada.1 em cada nível das árvores. somando os valores e dividindo pelo número total de niveis. 1. . caso contrário. + Simatt ) att attj } 42 (4. + Simk + . . Jaccard por nível. 1]. Jaccard por nível & teste de Petra e teste de Petra. duas foram reutilizadas da literatura (métricas J e P) e duas foram propostas neste estudo (métricas JN e JNP). Todas as métricas apresentam valores no intervalo [0. Jaccard por nível (JN): representa a similaridade entre duas árvores em relação aos atributos utilizados em cada nível.4) α0 ≤ k2 = k1 + x e t é um valor escolhido pelo esteja em um intervalo de tolerância de desenvolvimento do presente trabalho. conforme Equação 4. .2.MÉTRICAS DE SIMILARIDADE DE ÁRVORES último. 2. porém não analisa a topologia da árvore. . usuário para permitir que para (4. Para o igual a 10%. Foram utilizadas quatro métricas de similaridade de árvores: Jaccard.3) (4. Dentre as quatro métricas.

t2 = 5. 84 + 0.1 e 4.5 5. Jaccard por nível & teste de Petra (JNP): Mesmo raciocínio da métrica JN.43 CONSIDERAÇÕES FINAIS 3. a métrica (Jaccard) é a métrica mais simples de ser calculada.3 desenvolvida por (Perner 2011). 4.2). 57 2 (4. t2 = 5. Para atingir tal objetivo.8) É possível notar a partir dos exemplos fornecidos que.1 e x1 = 13. Como exemplo. foram realizados dois . Teste de Petra (P): representa a similaridade topológica entre as árvores. 5 4 (4. ao invés de resultar em 1 (pela fórmula de JN). Assim. a métrica simples do que as métricas simples do que a métrica 4. Considerações Finais Este projeto de mestrado tem como objetivo criar uma única árvore a partir das árvores geradas por uma Random Forest. computacionalmente.5 e x2 = 0. geradas por diferentes classicadores e utilizando a mesma base de dados.4 4 3 e 4 e a métrica 3 2 1 (Jaccard por nível) é mais (Jaccard por nível + teste de Petra) é mais (Teste de Petra). a similaridade é calculada pela fórmula 4. considere duas árvores distintas (ilustradas nas Figuras 4. 30 = 0.5 3 ) 2 = 0.5) Métrica 2: Jaccard por nível 1 3 1+ 2 JN = = 0. Métrica 1: Jaccard J= 2 = 0.5 )) ((1− 83.5 P = (1 − 13 ) 83. 67 Métrica 3: Jaccard por nível + teste de Petra t1 (4.5 e x2 = 0. se dois atributos numéricos de duas árvores diferentes são iguais em um mesmo nível.6) = 83.3.5 (1 − JN P = 13 ) 83. aplica-se a fórmula 4. 44 = 0.1 e x1 = 13. 84 + 0.7) Métrica 4: Teste de Petra t1 = 83. porém quando o atributo é numérico.1 13 )+(1− 0.1 5. 64 2 (4.1 + (1 − 0.5 + 2 2 = 2 0.

CONSIDERAÇÕES FINAIS Figura 4. Figura 4.1: Árvore criada pelo classicador J48 utilizando a base DLBCLTumor.2: Árvore criada pelo Algoritmo 1 utilizando a base DLBCLTumor. 44 .

Também foram apresentadas neste capítulo a metodologia utilizada neste projeto e as métricas de similaridade entre árvores utilizadas. fornecem as mesmas informações a respeito de uma determinada base de dados. sendo que duas métricas foram propostas resultantes deste estudo. ou seja.CONSIDERAÇÕES FINAIS 45 experimentos preliminares. . portanto. um determinado problema biológico. Uma vez que a árvore nal foi criada. assim como os resultados das métricas de similaridades. reportados em (Oshiro. comparou-se a sua estrutura à estrutura de outras árvores criadas por outros algoritmos a m de analisar se ambas árvores são similares e. Foram realizados 2 experimentos que serviram de base para a construção da árvore nal. No capítulo seguinte são apresentados os resultados dos experimentos realizados utilizando a metodologia proposta. Perez & Baranauskas 2012) e (Oshiro & Baranauskas 2012).

o número de árvores deve ser maior. Neste novo experimento foi utilizada apenas uma porcentagem dos erros 46 out-of-bag . orestas usando árvores ou a 2a árvores. um novo experimento foi rea- lizado. Estes valores foram escolhidos com base nos resultados do Experimento 2 descrito na Seção B. é necessário o uso de uma métrica para ltrar os melhores atributos e. não utilizar um atributo que não é importante ou bom para o desempenho da árvore nal. Uma vez que com o aumento do número de árvores todos os atributos parecem ser utilizados. achou-se melhor construir orestas visando a estabilidade dos atributos mais utilizados. foi realizado o segundo experimento e descobriu-se então.Capítulo 5 Resultados & Discussão Após obter as respostas às questões levantadas na Seção 4. foi utilizada a métrica da frequência considerando o erro out-of-bag estimado. A m de melhorar o erro out-of-bag estimado utilizado. para se obter uma estabilidade dos atributos utilizados pelas árvores. ou seja. assim.2. É importante ressaltar que com o primeiro experimento descobriu-se o número de árvores necessário para obter um bom desempenho da Random Forest sem um alto custo computacional. Visando isso.3. Porém. Assim. o número de árvores necessário para se obter uma maior estabilidade do conjunto de atributos mais utilizados.

Por exemplo. 80%. O classicador com seus valores Random Tree também foi executado default. Apesar disso. Ou seja.2. descrito no Apêndice B.1 estão os valores de AUC obtidos e na Tabela 5.9. Nesse caso. J48 com seus valores e J48 com seus valores default e sem poda (J48(U)). foram descartados os maiores erros out-of-bag de um atributo visando assim. Algoritmo 1 utilizando out-of-bag a e 2a árvores e 90% dos valores (A1-a(90) e A1-2a-(90)). utilizando apenas uma porcentagem dos erros obtidos (no exemplo. A Random default e os números de árvores utilizados foram 128. Os melhores resultados foram obtidos utilizando 70% e 90%. 0. eliminar possíveis ruídos com relação à essa métrica. out-of-bag default Random Tree e com poda (J48) com seus valores default . não seria relacionado diretamente ao atributo na raiz. Foram realizados testes de Friedman para analisar se os resultados obtidos eram signicativamente diferentes.47 de um determinado atributo. Foram testados quatro valores de porcentagens: 70%.2 e a conclusão que a partir desse número o desempenho da signicativamente.9 não é levado em consideração. seus resultados foram comparados com outros três classicadores: Forest a e foi executada com seus valores 2a. menos de 75%). 0. Procurando analisar melhor o desempenho da árvore proposta. com poda e sem poda. Algoritmo 1 utilizando out-of-bag de erro a e 2a árvores e 70% dos valores de erro (A1-a(70) e A1-2a-(70)). Na Tabela 5. Assim. uma vez que este erro elevado pode ser causado pela escolha dos demais atributos da árvore e.9 pode ser um ruído. o valor 0. supondo que um atributo foi utilizado 4 vezes e obteve erros out-of-bag de 0. foram realizados três experimentos utilizando o Algoritmo 1: uso da métrica da frequência considerando o erro out-of-bag timado (100% dos valores obtidos) e considerando uma porcentagem dos erros es- out-of-bag obtidos (70% e 90%).3 são mostrados os números de nós (tamanho) das árvores e orestas criadas em função de log10 . Nas duas tabelas são apresentados os resultados dos seguintes classicadores: Algoritmo 1 utilizando a e 2a árvores e 100% dos valores de erro (A1-a(100) e A1-2a-(100)). Random Forest. Dessa forma. orestas contendo a Random Forest e 2a não parece melhorar árvores foram construídas para uma melhor comparação com a árvore proposta. O classicador J48 foi executado com seus valores default. 90% e 95%. J48 e Random Tree.4. portanto.1 e 0. o valor 0. já que os números de nós das orestas variam muito. O valor 128 foi escolhido baseado no Experimento 1.

Assim. tais valores foram desconsiderados a m de uma melhor comparação entre . Em duas bases (E2A-PBX1- completo e T-ALL-completo) quase todos os classicadores. os algoritmos J48 e J48(U) mostraram-se um pouco mais estáveis do que o Algoritmo 1 no geral. ◦ indica nenhuma diferença. uma vez que pode-se notar que os classicadores J48 e J48(U) foram piores. apresentaram AUC igual a um.4 são apresentados os resultados dos testes de Friedman para os valores de AUC e número de nós.48 (RT). respectivamente. O triângulo inferior destas tabelas não são mostrados pois eles apresentam resultados opostos ao triângulo superior por simetria. Nestas tabelas. respectivamente). J48(U) e a Random Tree.1 pode-se observar que a Random Forest. pode-se notar que o Algoritmo 1 utilizando 90% dos erros árvores (A1-2a(90)) apresentou o melhor rank out-of-bag e 2a médio dentre os quatro algoritmos.2. RF-a e RF-2a. na média. Foram tirados os valores da Random Forest uma vez que eles eram valores extremamente altos por se tratar de uma oresta. ma-2003-breast e prostate-outcome) e o melhor rank médio. Comparando a metodologia proposta com o J48.2 e 5. do que o Algoritmo 1 no geral (com exceção somente do A1a(100)) e a a Random Tree foi signicativamente pior do que todos os demais classicadores. o melhor rank médio do desvio padrão dentre os quatro algoritmos restantes foi do Algoritmo 1 utilizando 70% dos erros (A1-2a(70)). Isso pode ser conrmado ao analisar a Tabela 5. Analisando o desvio padrão. no entanto. o Algoritmo 1 apresentou valores de AUC um pouco melhores do que os algoritmos J48 e J48(U) e muito melhores em relação a Random Tree. a e 2a árvores (RF-128. M (N) indica que o clas- sicador na linha especicada é melhor (signicativamente) do que o classicador na coluna especicada. Nas Tabelas 5. com exceção da Random Tree. Na realização do teste de Friedman para os números de nós das árvores foram utilizados somente 9 dos 12 classicadores. porém não signicativamente. Já a Random Tree out-of-bag e 2a árvores mostrou-se bem mais instável como esperado. Random Forest com seus valores default e número de árvores igual a 128. Já Random Forest foi signicativamente melhor do que os demais classicadores. O (H) o classicador na linha especicada é pior (signicativamente) do que o classicador na coluna especicada. Analisando a Tabela 5. apresentou os melhores valores de AUC na maioria das bases (com exceção das bases DLBCLOutcome. para os quais este teste é aplicável. No geral.

. o J48(U) e o Algoritmo 1. Como mencionado anteriormente.5 é possível notar que as árvores obtidas utilizando o Algoritmo 1 são. Analisando a Tabela 5.2 e o Algoritmo 1 (A1-2a(90)) e J48. são comparadas as árvores geradas utilizando as 24 bases descritas na Seção A. Os valores acima de 0. Nesta seção. apresentam desempenhos similares e melhores do que a melhor rank Random Tree médio dentre os quatro é do Algoritmo 1 utilizando 100% dos erros e 2a árvores (A1-2a(100)).1 rank médio.4. só foram comparadas as árvores utilizando 90% dos erros out-of-bag e orestas construídas com 2a árvores (A1-2a(90)).3. mais uma vez. os resultados de tais métricas serão apresentados comparando-se as árvores geradas pelo Algoritmo 1 às árvores geradas pelo algoritmo J48 e pela Random Tree. nota-se que a Random Tree e o out-of-bag foi pior sig- nicativamente do que os outros três classicadores. entretanto.5. utilizou-se as árvores geradas pelo J48 com poda. Comparação das árvores Como descrito na Seção 4.5 estão destacados em negrito. nota-se que a Random Forest apresenta o pior desempenho com relação ao número de nós utilizados (tamanho da árvore). Já o J48. o Algoritmo 1 mostrou-se tão estável quanto o J48 e o J48(U) e apresentou o menor 5. Uma vez que os valores obtidos pelo algorimto J48 com poda e sem poda foram muito parecidos.COMPARAÇÃO DAS ÁRVORES 49 os números de nós das árvores criadas por cada classicador.3.6. Na Tabela 5. pode-se observar que o J48 foi melhor signicativamente em três das sete comparações. Analisando a Tabela 5. em geral. foram testados quatro valores diferentes de porcentagem dos erros out-of-bag de um determinado atributo na execução do Algoritmo 1. Na Tabela 5. Essa escolha foi baseada nos resultados do teste de Friedman apresentados na seção anterior. Ao comparar o classicador J48 com o Algoritmo 1. Nesta seção. foram desenvolvidas algumas métricas para comparação de árvores. Já o algoritmo J48(U) foi melhor signicativamente em três das sete comparações e pior (não signicativamente) em quatro das sete comparações. pior (não signicativamente) em uma das sete e melhor (não signicativamente) em duas das sete comparações. são comparados o Algoritmo 1 (A1-2a(90)) e Random Tree. pois essa é sua conguração default. Com relação ao desvio padrão. diferentes das árvores obtidas pelo J48. Analisando os valores obtidos mostrados na Tabela 5.

2 5. pode-se notar que as árvores geradas pelos dois algoritmos (Algoritmo 1 e Random Tree ) são completamente diferentes.5. Uma vez que as árvores obtidas pelos algoritmos J48 e Algoritmo 1 (A1-2a(90)) apresentaram valores de similaridade maiores do que zero em quase todas as bases. Analisando os resultados apresentados na Tabela 5.7 é possível notar que as métricas M1 e M2 M1 é a mais simples de ser calculada (conforme mostrado na Seção 4. as árvores apresentam atributos diferentes em suas estruturas. foram utilizados os resultados apresentados na Tabela 5. pois as duas estão correlacionadas. No caso da base T-ALL. Foram também mostradas métricas de similaridade entre as árvores geradas por essa metodologia e as árvores geradas pelos demais classicadores. como é o caso das árvores obtidas a partir das bases MLL-completo e T-ALL-completo.2. uma vez que as duas também estão correlacionadas. uma vez que a maioria das métricas apresentaram valores iguais a 0.7. podemos notar que as árvores obtidas pelos dois algoritmos apresentam os mesmos genes nos mesmos níveis. o valor mais alto atingido foi 0. não apresentam resultados muito diferentes.3). ou seja. que há algumas árvores parecidas. Tais correlações podem ser observadas nas Figuras 5. Os coecientes de correlação R2 obtidos são apresentados na Tabela 5. entretanto. Pode-se observar. assim como as métricas utilização da métrica M1 (Jaccard) no lugar da métrica M3 M2 e M4 . pois as métricas J e JN possuem valores iguais a 1.50 CONSIDERAÇÕES FINAIS Ou seja. . pode-se sugerir a estão correlacionadas.6. Observando os resultados apresentados na Tabela 5. Uma vez que a métrica (Jaccard por nível). Somente em alguns casos os valores da métrica 1 foram diferentes de zero. porém. Foi calculado o quadrado do coeciente de correlação (regressão linear) entre as 4 métricas propostas para vericar se havia uma correlação entre elas. Pode-se também sugerir o uso da métrica M3 (Jaccard por nível + teste de Petra) no lugar da métrica M4 (Teste de Petra). uma vez que ambas apresentam valores de métricas acima de 0. Considerações Finais Neste capítulo foram apresentados os resultados obtidos utilizando a metodologia proposta e outros classicadores já conhecidos.5 para calcular o coeciente de correlação entre as métricas.1 e 5.02.

1: Figura 5. Resultados das métricas JNP e P para as 24 bases.2: Resultados das métricas J e JN para as 24 bases. 51 .CONSIDERAÇÕES FINAIS Figura 5.

74 (0.33) 0.12 (8.23 (0.02) 1.94 (0.95 (0.00) A1-a(90) 6.88 (0.00 (0.79 (0.86 (0.57 (0.62 (0.81 (0.15) 1.28) 1.95 (0.00 (0.76 (0.00 (0.10) 0.94 (7.00 (0.71 (0.87 (0.14) 0.10) 0.79 (0.68 (0.08) 0.08) 1.96 (0.36) 0.00 (0.00) A1-a(70) 6.84 (0.03) 0.18) 0.38 (0.06) 0.78 (0.08) 0.12) 0.93 (0.00 (0.17) 0.54 (0.12) 0.83) 0.11) 0.07) 0.05) 0.09) 1.08) 0.11) 0.62 (0.08) 0.62 (0.05) 0.89 (0.61 (0.61 (0.63 (0.17) 0.00 (0.88 (0.23) 0.00 (0.68 (0.1: 6.95 (0.25) 0.11) 0.00) 0.47) 1.15) 0.86 (0.01) 1.15) 0.09) 0.65 (0.41 (6.96 (0.77 (0.30) 0.08) 0.08) 0.99 (0.39) 0.00) 0.00) 0.99 (0.00) 1.49 (0.81 (0.00 (0.98 (0.57 (0.12) 0.11) 0.64 (0.99 (0.34) 0.21) 0.99 (0.01) 0.83 (0.94 (0.72 (0.16) 0.19) 0.15) 0.09) 1.70 (0.08) 0.43 (0.22) 0.21) 0.10) 0.75 (0.99 (0.79 (7.95 (0.59 (0.09) 0.04) 1.94 (0.63 (0.15) 0.23) 0.79 (0.06) 0.78 (0.76 (0.12) 0.44 (0.13) 0.11) 0.05) 0.01) 1.25 (0.92 (0.12) 0.91 (0.09) 0.61 (0.04) 0.03) 0.98 (0.00 (0.50 (0.71 (0.07) 0.12) 0.00) A1-2a(70) 7.65 (0.65 (0.10) 0.14) RT Valores do AUC para os 12 classicadores.65 (0.00 (0.14) 0.00) 0.21 (6.00) RF-2a CONSIDERAÇÕES FINAIS 52 .11) 0.00) 0.08) 1.11) 0.81 (0.81 (0.32) 0.75 (0.00) 0.17) 0.02) 0.99 (0.24) 0.90 (0.14) 0.65 (0.53 (0.94 (6.11) 0.79 (0.90 (0.77 (0.08) 0.13) 0.A1-a(100) 0.01) 1.10) 0.12) 0.39) 0.16) 0.00 (0.09) 0.07) 0.26) 0.64 (0.19) 0.20) 0.62 (0.11) 0.00) 1.98 (0.33) 0.43 (0.74 (0.19) 0.33 (0.19) 0.43 (0.92 (0.14) 0.14) 0.11) 0.30) 0.00) 0.81 (0. 4.83 (0.14) 0.89 (0.02) 0.00) 0.37) 0.71 (0.15) 0.62 (0.56 (0.83 (0.08) 0.90 (0.92 (0.99 (0.17) 0.80 (0.09) 0.11) 0.14) 0.74 (0.00 (0.12) 0.62 (0.59 (0.42 (0.11) 0.12) 0.09) 0.50 (0.53 (0.06) 0.13) 0.29) 0.49 (0.33 (7.02) 0.08) 0.11) 0.33) 0.06) 0.15) 0. desvio padrão e rank médio.95 (0.83 (0.05) 0.24) 0.02) 0.58 (0.76 (0.06) 0.93 (0.60 (0.99 (0.79 (0.91 (0.00 (0.73 (0.83 (0.12) 0.99 (0.75 (0.39 (0.93 (0.39) 0.40 (0.86 (0.23) 0.02 (4.95 (0.74 (0.59 (0.34) 0.64 (0.00 (0.00 (0.94 (0.33 (0.15) 0.78 (0.54 (0.99 (0.55 (0.51 (0.11) 0.18) 1.55 (0.09) 0.72 (0.11) 0.49 (0.16) 0.39) 0.20) 0.08) 0.07) 0.93 (0.12) 0.14) 0.56 (0.62) Base de dados welsh-2001-GNF butte-data-set nielsen-soft-2002 prostate-outcome alizadeh-lymph MLL-completo lungcancer-ontario DLBCLOutcome pomeroy-cns-dataset-C breastCancer-completo lung-harvard ma-2003-breast aml-all-completo DLBCLTumor leung-2002-gastric lung-Michigan prostate-tumorVSNormal lungCancer-completo ovarian-61902 DLBCL-NIH-completo BCR-ABL-completo E2A-PBX1-completo Hyperdip50-completo T-ALL-completo Rank Médio 7.15) 1.99 (0.08) 1.09) 0.17) 0.13) 0.99 (0.33) 0.00 (0.26) 0.06) 0.49 (0.76 (0.95 (0.50 (0.09) 0.56 (0.00 (0.08) 0.09) 0.60 (0.18) 0.02) 1.57 (0.04) 0.25) 0.04) 0.72 (0.91 (0.00) 0.33) 0.00) 7.14) 0.00 (0.12 (4.81) 0.05) 0.08) 0.28) 0.00 (0.02) 1.12) 0.09) 0.08) 1.81) 0.66 (0.85 (0.89 (0.46 (6.51 (0.37) 0.94 (0.11) 0.19) 0.65 (0.75 (0.57 (0.81 (0.88 (0.80 (0.44 (0.18 (0.92 (0.89 (0.07) 0.12) 0.06) 0.19) 0.30) 0.90 (0.85 (0.29) 1.14 (4.01) J48(U) 10.92 (0.00 (0.09) 0.11) 0.41) 0.87 (0.57 (0.28) 0.00 (0.95 (0.14) 0.01) 0.47) 1.60 (0.00) A1-2a(100) Tabela 5.13) 0.92 (0.17) 0.65 (0.11) 0.84 (0.12) 0.02) 1.18) 0.06) 0.23) 0.66 (0.89 (0.50) 0.00 (0.13) 0.20) 0.02) 1.23 (0.10) 0.98 (0.50 (0.00) RF-128 3.71) 0.50 (0.23) 0.03) 0.09) 0.00 (0.24) 0.99 (0.89 (0.23) 0.16) 0.89 (0.10) 0.69 (0.96 (0.08) 0.25) 0.81 (0.00) A1-2a(90) 7.49 (0.43 (0.17) 1.04) 0.73 (0.74 (0.06) 0.12) 0.00) 0.97 (0.84 (0.11) 0.90 (0.63 (0.17) 1.21) 0.13) 0.28) 1.38 (0.75 (0.05) 0.23) 0.66 (0.00 (0.01) J48 7.00 (0.98 (0.00) 0.88 (0.08) 1.22) 0.77 (0.59 (0.50 (7.00) RF-a 3.92 (0.66 (0.00 (0.99 (0.16) 0.12) 0.56 (0.55 (0.23) 0.19) 0.18) 1.35 (0.48 (0.66 (0.31) 0.89 (0.51 (0.00) 0.12) 1.84 (0.02) 0.82 (0.57 (0.08) 1.00 (0.60) 0.00) 0.07) 0.12) 0.00 (0.99 (0.22) 0.25) 0.23) 0.54 (0.67 (0.83 (0.68 (0.50 (0.60 (0.94 (0.82 (0.97 (0.56 (0.45 (0.19) 0.57 (0.66 (0.72 (0.65 (0.10) 0.20) 0.22) 0.13) 0.74 (0.08) 1.86 (0.14) 0.04) 0.35 (0.17) 0.06) 0.01) 0.15) 0.00 (0.93 (0.62 (0.00 (0.67 (0.65 (0.62 (0.00) 0.18) 0.00 (0.09) 1.62 (0.76 (0.06) 0.01) 0.61 (0.11) 0.12) 0.89 (0.16) 0.90 (0.16) 0.00) 0.81 (0.50 (0.01) 0.00 (0.02) 0.82 (0.00 (0.29) 0.08) 0.44) 0.94 (0.80 (0.10) 1.00 (0.19) 0.00) 0.89 (0.04) 0.42) 0.95 (0.01) 0.81 (0.16) 0.95 (0.00) 1.00) 0.07) 0.77 (0.

2: H H H H H H H H H O O ◦ RF-2a CONSIDERAÇÕES FINAIS 53 . A1-a(100) Tabela 5.Classicador A1-a(100) A1-2a(100) A1-a(70) A1-2a(70) A1-a(90) A1-2a(90) J48 J48(U) RT RF-128 RF-a RF-2a A1-2a(100) O ◦ ◦ O O ◦ A1-a(70) O O M ◦ A1-2a(70) O O M M ◦ A1-a(90) O O O O O ◦ A1-2a(90) O M M M M M ◦ J48 O M M M M M M ◦ J48(U) N N N N N N N N ◦ RT H H H H H H H H H ◦ RF-128 H H H H H H H H H O ◦ RF-a Resultados do teste de Friedman para os valores de AUC para os 12 classicadores.

05) 1.06 (1.65) 1.20 (1.35) 1.90 (1.63) 1.26 (1.23) 5.01 (1.97) 1.43) 4.07 (2.75) 0.53) 5.09 (9349.47 (3.74) 3.53 (2.03) 1.04 (0.96 (1.40) log10 RF-2a 5.98 (1.33) 0.06 (1.23 (2.84) 5.04) Tabela 5.06 (1094.97) 0.95) 3.33) 4.27) 3.84) 0.03) 0.05 (1.09 (1.31 (27.08 (1. A1-a(70) A1-2a(70) A1-a(90) A1-2a(90) J48 0.06 (1.41) 0.34) 3.48 (0.26) 0.73) 1.48 (0.25 (1.76 (4838.20 (1.03) 0.84) 0.84) 0.79 (1.12 (1.63) 0.00) 1.47 (58.92 (0.32 (2.58) 1.06 (1.91 (1.60 (1.23) 3.97) 5.64 (8443.84) 1.50 (3.73 (0.71) 10.53 (1.54 (4.41) 0.40) 0.48) 1.54 (9.69) 1.63) 1.90) 1.98 (1.70 (0.00) 0.63) 0.00) 1.73 (0.75 (0.02) 1.84) 0.02) 5.84) 0.82 (18209.50 (96.07 (2.81 (9.20 (1.12) 5.10 (1.18) 5.00 (8.68 (64.46) 3.02 (6.94) 1.06) 1.40) 1.36) 5.53 (0.26) 1.45 (5598.98 (0.48 (32.79 (1.72) 1.19 (0.52 (6449.41) 5.67 (3470.65) 5.12 (0.97) 0.20 (1.67) 1.11) 3.16) 3.00) 1.20 (92.18 (1.53) 1.63) 0.96 (1.64 (5.32) 0.82 (12681.22 (2.18 (1.19 (1.35) 0.81 (1.63) 1.84) 0.45 (6.66) 4.30 (2767.87) 5.00) 0.00) 6.03) 0.24) 3.15 (2793.06 (9510.97) 1.72 (0.94 (1.48 (0.36) 5.58 (3.86) 1.84) 1.00) 0.60 (1.19 (1.97 (0.00) 0.59 (4.41) 0.60 (5639.58) 0.70 (0.58 (4.48 (0.05) 0.42) 5.00 (10.48 (0.48 (0.00) 11.00) 1.18 (1.05) 1.34 (41.84) 0.58) 3.48 (0.29 (0.26) 1.48 (0.11 (1.50 (11994.14) 3.94 (1544.86 (11593.00 (11.93) 5.66 (0.28 (1.52) 4.24 (1.66 (0.70) 1.58) 0.97) 0.00 (12.97 (1.92) 5.97) 0.85 (0.44 (4.67 (7710.03) 1.46 (1694.35) 0.58) 1.82 (1.84) 0.40 (3.84) 1.64 (0.94) 1.07 (2017.10) 3.23 (1.69) 1.82) 5.49 (3.55 (5870.27 (2265.19 (2.03) 1.27) 3.00) 1.78 (1.58) 1.99 (1.18 (1.85 (1.96 (0.75) 1.53) 4.85 (12661.86 (1.71 (54.09) 3.62 (3.62 (1.10 (0.98 (23.20 (1.97) 0.03) 0.14) 0.27 (3234.75 (0.26) 1.95 (0.Base de dados welsh-2001-GNF butte-data-set nielsen-soft-2002 prostate-outcome alizadeh-lymph MLL-completo lungcancer-ontario DLBCLOutcome pomeroy-cns-dataset-C breastCancer-completo lung-harvard ma-2003-breast aml-all-completo DLBCLTumor leung-2002-gastric lung-Michigan prostate-tumorVSNormal lungCancer-completo ovarian-61902 DLBCL-NIH-completo BCR-ABL-completo E2A-PBX1-completo Hyperdip50-completo T-ALL-completo Rank Médio A1-a(100) 0.48 (0.48) 1.00) 1.65 (76.63) 0.63) 1.62 (1.40) 0.95 (0.97) 0.35) 0.89 (1.69 (4.84) 0.51 (0.82 (0.66) 1.18 (1.03 (0.25 (1.90) 1.33) 0.01 (1.84) 0.65) 1.53 (1.06 (1.14) 0.00) CONSIDERAÇÕES FINAIS 54 .65) 1.00) 0.57 (2.00) 0.34 (2938.00 (1.23 (1.41) 1.26) 0.32) 2.90) 0.95) 5.35) 6.55 (6457.85 (0.92) 5.34) 4.11 (13835.03 (0.97) 0.15) 0.21 (1.63) 1.05) 1.52) 1.72 (584.26) 0.00) 0.50 (127.97 (1078.45) 4.99) 4.58 (3.12 (1.55 (6.76 (1.14) 1.91) 5.97) 0.63) 0.96) 5.37) 1.14) 0.00) 0.23 (1.35) 1.00) 0.00) 0.26) 1.00) 5.18 (1.44) RT RF-128 RF-a 1.79) 1.56) 1.28) 0.48 (0.50 (4.48 (0.55 (79.24 (3058.05) 1.55 (3.53 (102.46) 5.70 (0.87 (1.84) 0.00) 0.56 (0.75) 1.98 (6763.86 (1.77 (3314.99 (1.48 (0.91 (1.06 (1.84) 0.95 (12.48) 0.05) 1.80 (24085.45) 0.30) 5.47 (1.97 (0.33) 0.21 (1.99 (1.14 (1.90) 1.97) 0.14) 1.03) 0.14 (1.20 (1.00) 0.48 (0.09 (1.52 (7099.65) 5.03) 0.94) 3.90) 1.06 (1.00) 0.23 (2.81 (6894.00) 1.60 (1.05 (1.97 (1.00) (Número de nós das árvores para os 12 classicadores) e desvio padrão.03) 0.03) 0.49) 1.43) 5.03 (1261.10 (5.63) 0.14) 0.55) 3.32) 3.00) 1.36 (2164.14) 0.31 (48.91) 5.85 (0.18 (2.60 (70.87 (0.48 (0.69) 0.35) 0.03 (0.68 (0.82 (1.93) 1.00) 0.83 (0.98 (1.75 (0.19) 2.79 (1.88) 6.86 (1.48 (0.75 (4.06 (1.00) 5.18 (1.37 (4000.97 (1.06 (1.26) 0.26 (2.89) 5.41) 0.15) 0.00) 1.42) 1.43 (64.52 (8970.26 (5.12) 5.70 (0.03 (0.04) 6.03) 0.14) 1.48 (0.69) 1.00) 1.23) 6.35) 1.49) 1.97 (0.00) 0.97 (1.75 (0.64 (0.00) 0.63) 1.13) 5.97) 0.99) 3.32 (2.84) 0.97 (1595.00) 5.53) 0.48 (0.23 (1.75) 1.35) 0.95 (1175.14) 1.63) 0.11 (0.26) 1.81 (1.00) 0.76) 1.3: J48(U) 1.23 (48.23 (15.52 (134.05 (1.87 (1.33) 1.35) 1.00) 1.97 (1.39) 3.29 (0.03 (0.23) 5.76 (1.29) 0.96 (0.96 (0.94) 0.09) 4.84) 1.02 (131.79 (4520.26) 0.91 (1.79 (4.82) 5.84) 0.04 (0.52) A1-2a(100) 1.49) 0.49) 0.85 (0.82 (0.28) 5.48 (0.65) 1.00) 3.35) 0.65) 1.03) 0.97 (15527.84) 0.55 (67.03) 0.85 (3959.91 (1.22 (3627.40) 1.33) 3.14) 1.58) 0.97 (0.63) 0.09 (1.00) 1.13 (1.37) 5.06 (5.93 (1.92 (0.35) 1.37) 3.03) 0.35) 0.78 (1.26) 0.41) 1.06 (1.03) 0.40) 2.14) 0.48 (0.97) 0.04 (1480.85 (0.16) 3.81 (1.91 (1.29 (36.41) 1.15) 1.97) 1.31) 12.73 (0.81 (132.48 (0.00) 3.65 (578.55 (2026.51 (5.02) 0.11 (1.79 (1.51) 1.81 (1.39) 3.85 (0.49) 0.26 (1.94) 5.00) 1.34 (4140.20) 3.79 (1.10) 9.48) 1.47) 5.90 (1.48 (0.75 (0.88 (2.73 (4.

02 0. A1-a(100) A1-2a(100) A1-a(70) A1-2a(70) A1-a(90) A1-2a(90) J48 J48(U) RT ◦ H ◦ M N ◦ H M H ◦ M N O N ◦ H M H O H ◦ H M H O H O ◦ H M H M H M M ◦ N N N N N N N N ◦ Valores das métricas de comparação entre árvores geradas pelo Algoritmo 1 (A12a(90)) e pelo algoritmo J48 Tabela 5.03 0.02 0.14 0.28 0.01 0.16 0.08 0.00 0.00 0.00 Média Mediana 0.15 0.04 0.03 0.60 1.07 0.20 0.30 0.07 0.01 0.14 0.15 0.4: Classicador A1-a(100) A1-2a(100) A1-a(70) A1-2a(70) A1-a(90) A1-2a(90) J48 J48(U) RT Resultados do teste de Friedman para os números de nós dos 9 classicadores.27 0.09 0.00 0.00 0.02 welsh-2001-GNF butte-data-set nielsen-soft-2002 prostate-outcome alizadeh-lymph MLL-completo lungcancer-ontario DLBCLOutcome pomeroy-cns-dataset-C breastCancer-completo lung-harvard ma-2003-breast aml-all-completo DLBCLTumor leung-2002-gastric lung-Michigan prostate-tumorVSNormal lungCancer-completo ovarian-61902 DLBCL-NIH-completo BCR-ABL-completo E2A-PBX1-completo Hyperdip50-completo T-ALL-completo 0.09 0.02 0.06 0.18 0.15 0.00 0.00 0.24 0.00 1.16 0.06 0.00 0.02 0.03 0.05 0.13 0.00 0.00 0.21 0.18 0.00 0.00 0.02 .01 0.00 0.03 0.02 0.5: Base de dados Métrica J Métrica JN Métrica JNP Métrica P 0.02 0.05 0.03 0.00 0.15 0.03 0.55 CONSIDERAÇÕES FINAIS Tabela 5.03 0.00 0.07 0.28 0.13 0.06 0.13 0.01 0.03 0.00 0.00 0.04 0.07 0.22 0.10 0.00 0.02 0.03 0.09 0.00 0.10 0.09 0.00 0.04 0.08 0.17 0.08 0.06 0.57 0.00 0.43 0.00 0.00 0.20 0.01 0.01 0.03 0.05 0.06 0.15 0.09 0.39 0.00 0.24 0.

00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.16 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.93 .00 0.02 0.00 0.00 0.00 0.11 0. Métricas comparadas R2 J e JN JeJNP J e M4 JN e JN P JN e P JN P e P 0.00 0.00 0.00 0.CONSIDERAÇÕES FINAIS 56 Valores das métricas de comparação entre árvores geradas pelo Algoritmo 1 (A12a(90)) e pela Random Tree Tabela 5.00 0.7: Métrica J Métrica JN Métrica JNP Métrica P 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.6: Base de dados welsh-2001-GNF butte-data-set nielsen-soft-2002 prostate-outcome alizadeh-lymph MLL-completo lungcancer-ontario DLBCLOutcome pomeroy-cns-dataset-C breastCancer-completo lung-harvard ma-2003-breast aml-all-completo DLBCLTumor leung-2002-gastric lung-Michigan prostate-tumorVSNormal lungCancer-completo ovarian-61902 DLBCL-NIH-completo BCR-ABL-completo E2A-PBX1-completo Hyperdip50-completo T-ALL-completo Média Mediana Tabela 5.00 0.01 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.94 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 Valores dos coecientes de regressão.00 0.00 0.00 0.00 0.01 0.00 0.00 0.00 0.01 0.01 0.00 0.00 0.00 0.04 0.07 0.00 0.00 0.00 0.

pode ser muito interessante. o algoritmo proposto apresentou um desempenho igual ou melhor do que o classicador J48 e Random Tree e um desempenho inferior ao da Random Forest.Capítulo 6 Conclusões Após a execução dos dois experimentos preliminares explicados anteriormente foi gerada a árvore a partir de uma Random Forest. números de nós similares ao J48 e menores do que a Random Tree. J48 e Tree Random pôde-se concluir que as árvores obtidas pelo Algoritmo 1 são mais parecidas com as obtidas pelo J48. Quando comparadas as estruturas das árvores criadas pelo Algoritmo 1. No geral. a frequência considerando o erro out-of-bag estimado como métrica de escolha dos atributos que iriam compor a árvore nal e uma porcentagem desses atributos a serem considerados (100%. ou seja. Assim. uma vez que as informações obtidas por meio de cada uma são diferentes. Essa diferença nas estruturas das árvores. Tal árvore foi gerada usando Random Forests com a e 2a árvores. no geral.2). porém essa similaridade não é alta. o algoritmo aqui proposto pode fornecer informações diferentes a respeito das bases 57 . A árvore também apresentou. 90% e 70%). Foram analisadas 24 bases de expressão gênica (descritas na Seção A. nos genes utilizados por cada uma para classicar novos exemplos.

ampliando assim o conhecimento humano. maior do que o J48 e apresentou um J48 e a Random Tree rank (como esperado) e médio melhor do que o para os valores de AUC obtidos e os números de nós das árvores criadas. analisando os resultados obtidos. como por exemplo J48 e Random Tree.1007/978-3-642-31537-4_13. Outros métodos para a criação da árvore nal poderão ser desenvolvidos e seus resultados. ou seja. intitulado a Random Forest?. uma vez que apresenta desempenho melhor do que alguns classicadores já conhecidos em muitas bases de dados testadas e número de nós menores.3. Sendo assim. . 6. foi aceito no Intelligent Data Engineering and Automated Learning (IDEAL 2012) e publicado em Lecture Notes in Computer Science. assim. Este artigo tem como tema o segundo experimento.PRINCIPAIS RESULTADOS E PUBLICAÇÕES 58 de expressão gênica com relação aos algoritmos existentes até o momento. pode-se notar que a metodologia proposta neste estudo tem um bom potencial. trabalhos futuros poderão melhorar o desempenho e a estabilidade do algoritmo proposto. O primeiro artigo (Oshiro.1007/978-3-642-32639-4_87. DOI 10. intitulado Root Attribute Behavior within a Random Forest. DOI 10.1 Principais resultados e publicações O presente trabalho resultou em 2 publicações em dois congressos internacionais. elas podem fornecer informações diferentes e até novas a respeito de um determinado problema biológico. descrito na Seção B. Perez & Baranauskas 2012).2 Trabalhos Futuros Os resultados obtidos neste projeto de mestrado são promissores. Data Mining foi aceito no How Many Trees in 8th International Conference on Machine Learning and (MLDM 2012) e publicado em Lecture Notes in Computer Science. Além disso. umas vez que a árvore nal obtida apresentou uma estabilidade maior do que a Random Tree na maioria dos casos. Assim. as árvores criadas apresentaram estruturas (nós) diferentes das árvores geradas pelos demais classicadores e. 6. descrito na Seção B. O segundo artigo (Oshiro & Baranauskas 2012). árvores menores e mais simples de serem interpretadas por humanos. Este ar- tigo é referente ao primeiro experimento realizado durante o desenvolvimento do projeto de mestrado.2.

TRABALHOS FUTUROS poderão ser comparados aos obtidos neste trabalho. 59 .

(2000). I... 26. A. Bagging classiers based on kernel density estimators. M. Alberts. In Proceedings of the International Conference on New Trends in Computational Statistics with Biomedical Applications. Johnson. L.. Botstein. 60 . H. Marti. I.. & Rojas..). Weisenburger. Warnke. T. pp... 21.cn/datasets. BioInformatics Group Seville. Tran. Broad Institute. Wilson. R. C.. P. C. Moore. and 29. K. & Walter. (2010). C.. Molecular da Célula (5 ed. J. X... O. Ma. A. Nature 403 (6769). G. R. 503511. R. Citado na página 73. 343350. Porto Alegre. Cilab. Citado na página 73. Lossos. C. Distinct types of diuse large B-cell lymphoma identied by gene expression proling. Sherlock. Roberts..edu. B.. 22. L. Brown. J. Citado na pá- gina 73. D.. Greiner. P. Yang. J. 28.. Ra. J. http://cilab. M.. & Staudt.. E. A. Lu. Artes Médicas. 25..htm... (2001). B. A. Yu.. D. B. Biologia Citado nas páginas vi.. O. G. Citado na página 16. Levy. Acuna. Grever. 27. D. Tibshirani. T. Datasets. Citado na página 73... J. (1997). S. C. A. W. E.. R. Byrd.). Eisen. (2010). D. Biologia molecular da célula (3 ed. Armitage. M.. (2010). Sabet.. J. Lewis. T.Referências (2010). M. 24.. Dataset repository in ar (weka). B. Boldrick.. E..ujn.. Cancer program data sets. Powell.. Chan. W. Alizadeh. Hudson. Citado na pá- gina 29. Rosenwald. 23. Davis. 20. L. Lewis.. Alberts. R.

Staunton. T. G. M. R.-C. Lander. A. J. Gillette. 105139. Instituto de Ciências Matemáticas e de Computação. R.. Classication of human lung carcinomas by mRNA expression proling reveals distinct adenocarcinoma subclasses. Gharib. Calculating the VC-dimension of decision trees. S. Silverman.. 816824.. L. Aslan. & Alpaydin.. J. M. Citado na página 36... & Hanash. B. (2011). Y. J. W. S. S. T. Citado na página 16. S. J.. Journal of the Royal Statistical Society Series Citado na página 41. & Kohavi... R. D.. G. 4147.. Giordano. MLL translocations specify a distinct gene expression prole that distinguishes a unique leukemia. & Meyerson. (2002). Beheshti. Citado na página 77. Thomas.. E. Huang. D. (2009).61 REFERÊNCIAS Armstrong.. Brasil.. T. J. International Journal of Computer Science and Network Security 11 (5). Minden. Li. Bhattacharjee. L. S. Extração automática de conhecimento utilizando múltiplos indutores.. Construction of single classier from multiple interim classication trees. (2001). C. M.. G. Lizyness.. M. M. & Korsmeyer. E. Proceedings of the National Academy of Sciences of the . J. Bueno. Gene-expression proles predict survival of patients with lung adenocarcinoma.. Y. International Symposium on Computer and Information Sciences 09. Bauer. (1995). boosting. O. G. J. Lin.. Aziz. Hayasaka. (2001).. R. G.. E. T.. and variants. Taylor. Universidade de São Paulo. & Hochberg. J. T. E. B. P. A. Citado na página 73.. E.. Kuick. Citado na página 74. R. D. E. Weber. Johnson. R. S. Ladd. 289300. G. C. A. (2002). Golub. Benjamini... Pieters.. Controlling the false discovery rate: a practical and powerful approach to multiple testing. W.. S.. D.... Staunton. S.. Levin.. Orringer. M. Loda. L. M. M. Vasa.. Chen. M. B 57. Kardia. S. In 193198. Nat Med 8 (8). 172178.. pp. Citado na página 12. Misek. N. An empirical comparison of voting classication algorithms: Bagging. C.. Baranauskas. B. Wong. Beer. D. & Ahmed. Technical report. E. Richards. L. Golub. den Boer. D. Sallan... M. Yildiz. Sugarbaker. E.. Iannettoni. Mark. Nat Genet 30. E. J. Lander.. Machine Learning 36 (1-2). Monti. O. (1999). A. L. A.

Roth. Massimi. (2004).. 16. Golub. D. 15. L. Making and reading microarrays. 630634.edu/users/breiman/RandomForests. S. Bagging predictors. 532. Eletr. M.. Citado na página 6. R. Citado na página 30. Williams. A.. de Souto. D. Lorena. T. (2003). A. 1379013795. (2004). 14. Citado na página 73. Moon..REFERÊNCIAS United States of America 98 (24). M. (2001). A. stat. J. V. Ewan. Golda. A bayesian approach to semi-supervised learning.. Butte. Citado nas páginas 1. R. 17.. P. 123140. D. (1996). (1999). & de Andrés. 5764.edu/users/breiman. Nature genetics 21 (1 Suppl). 34. L. Breiman. 1218212186. M. Proceedings of the National Academy of Sciences of the United States of America 97 (22). Vermaas.. S. M. & de Carvalho. http://www. Cheung. Morley. Lloyd. 3. 1519. Aguilar. (2001). G. 3. K. F.. 62 Citado na página 74. J. Breiman. M.. Johnson. Luo. Machine Learning 24 (2). Bridgham.. Breiman. G. George. & Childs. 15... L. G. Johnson. and 35. Pallas. T... Mao. S. A. and 18. Discovering functional relationships between RNA expression and chemotherapeutic susceptibility using relevance networks.berkeley. Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays. Técnicas de Aprendi- .. R. S. Delbem.. S. A. looking inside the black box. Citado na página 18.. C. Random forests: Classication/clustering. Kirchner.. J. Brenner.. Citado nas páginas 2. D. Citado nas páginas 1. 14. Fearon. A. J. E. R. I. DuBridge. Foy. Citado na página 30. (2000). BMC Bioinformatics 7. McCurdy. Citado na página 18.. & Kohane. Wald lecture ii. M. and 16. Nature biotechnology 18 (6). Machine Learning 45 (1). R. K. & Corcoran. L. Díaz-Uriarte.... berkeley. (2000). (2006). A.. R. http://www. Gene selection and classication of microarray data using random forest.. S. H. P. Kucherlapati. Tamayo. Slonim. S. B.. Breiman.stat. R. Bruce. & Cutler... Random forests.. Burcham. K.. G. North.. Albrecht.

148156. edu/ml. Zelezny. A comparison of alternative tests of signicance for the problem of m rankings. Statistical comparison of classiers over multiple data sets. In Articial. J. Dubath. & Tolar. A. 130. M.. Citado nas páginas 41... J. G. (2004). P.. M.. Jan. Gaasenbeek. California. C. Bootstrap Methods: Another Look at the Jackknife. & Barcellos. (2006). Friedman... Blomme. 126. A.. Citado nas páginas 1. T. and 39. & Asuncion. E.. J. 26022617. (1996). A.uci. J. (2011). M. Hubbard. 269284. R. and 16. (1979).REFERÊNCIAS zado de Máquina para Problemas de Biologia Molecular. Tamayo. 13. I. A. F. Lebzelter. 76. Monthly Notices of the Royal Citado na página 17. Sarro. Journal of Lecture Notes in Com- Citado nas páginas 1. Statistics 7 (1). Citado na página 73. P. & Schapire. (1940). puter Science 1857. Rimoldini.. Efron. and 16.ics. UCI machine learning repository.. Journal of Citado nas páginas 3 and 84. 49.. Lavrac. Slonim. Mowlavi. 115. L. T.. Mesirov. Dem²ar. pp. BMC Genetics 11 (1). . Lecoeur. & Eyer.. L. P.. Guy. N. K. Süveges. L.. Induction of comprehensible models for gene expression datasets by subgroup discovery methodology. (2000). Goldstein. Citado nas páginas 40 and 41. 63 III Jornada de Inteligência Citado na página 29. J. P. Citado nas páginas 34. (2010). L. N. 35. Dietterich. De Cat. Random forest automated supervised classication of hipparcos periodic variable stars. and 88. M. In Proceedings of the Thirteenth International Conference on Machine Learning.. Astronomical Society 414 (3). 8692. M. T. The Annals of Mathematical Statistics 11 (1). Biomedical Informatics 37.. http://archive. Cutler. Freund. Beck. De Ridder.. J. An application of random forests to a genome-wide association dataset: Methodological considerations and new ndings. Frank. Lake Tahoe. Gamberger. A. K. (2010). R. D. Golub. Ensemble Methods in Machine Learning. 14. Nienartowicz. D.. Y.. B.. López... M. Huard. Experiments with a new boosting algorithm. Machine Learning Research 7 (1). Cuypers. L. The Annals of Citado na página 15.. B.

M. C. P. 20. Citado nas páginas 40. 31. E. Computers and Their Appli- Citado na página 2. 579.. Conceitos de Genética (9 ed. W. Loh. Newsl. 27. C.. H. I. 85. 1018. 370374. Klassen. Machine Learning 45 (2). (1901). M. 11 (1). Guindalini. E. Huang. A simple generalisation of the area under the ROC curve for multiple class classication problems. & Lander.. Holmes. The weka data mining software: an update. G. S.64 REFERÊNCIAS Coller. Hall. 22. 4963. Cancer Research 62 (17). Sao Paulo Brazil 1999 29 (4). L. Cummings. ArtMed Editora. C. L. S. J. 6469. Citado na página 9. (2010). Citado nas páginas vi.. Cummings. R. Ramaswamy. cations. V. 28. Bloomeld. D. Using AUC and accuracy in evaluating learning algorithms. P. W. R.. J. li Hsiao. and 33. (1999).. B. Gullans. & Saldaña. M. pp. J.. Molecular classication of cancer: class discovery and class prediction by gene expression monitoring. Investigation of random forest performance with cancer microarray data. 25. G. & Bueno..). S. G. Blumenstock. H. 21. (2002). 23. A. 547 Citado na página 41. Translation of microarray data into clinically relevant cancer diagnostic tests using gene expression ratios in lung cancer and mesothelioma. D. Downing. Citado na página 74.. Klug. Citado na página 74. Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining Explor. Sugarbaker. Étude comparative de la distribution orale dans une portion des Alpes et des Jura. Science 286 (5439). Hand... & Spencer. M.. X. & Till. S. C. Bulletin del la Société Vaudoise des Sciences Naturelles 37. (2008). . ISCA. R. Caligiuri. M. & Witten.. Philip (Ed. 531537. Revista brasileira de psiquiatria Citado na página 30. Gordon. (2007). M. 299310. (2001). (2005). Pfahringer. and 88.. J. G. Jaccard. Reutemann.. J. (2009).. In T.).. Frank. M. Citado na página 8. Use of microarrays in the search of gene expression patterns: application to the study of complex phenotypes. D. Palladino. & Tuk. Knowledge and Data Engineering. 171 186. E. R. Jensen. IEEE Transactions on 17 (3). Richards. & Ling. R..

Pontifícia Universidade Católica do Paraná. S. L. M. C.. Citado nas páginas 10 and 39. (2003). Ji. M. pp. Combining Pattern Classiers: Methods and Algorithms. H. Wiley- Citado na página 1. R. Park. Phospholipase a2 group iia expression in gastric adenocarcinoma is associated with prolonged survival and less frequent metastasis. M. M. Li. S. (1998).. M. Volume 2671 of Lecture Notes in Computer Science. Citado na página 6. A. & Song. K. (2007). Xiang & B. Huang. Aprendizagem de máquina baseada na combinação de classicadores em bases de dados da área de saúde. Master's thesis. Wong. Chan. J. Mittmann.. Dong.. Law. Norton. & Zhang. Classication and regression by randomforest. Citado na página 16. 14. I. C.. Liaw. Chaib-draa (Eds. Chen.-P.. Nature Citado na página 30. Y. H. Citado na página 74. & Brown.. Follettie. (2002). O.. G.REFERÊNCIAS 65 Kubat. Tu. R. I. McGraw-Hill. Mathy.. Lee. Citado na página 34. O. J. Proceedings of the National (4 ed. Botstein. Human genetics: concepts and applications education.. & Brown... (2002). L. H. Gallo. 869885. T. A review of machine learning methods... Chu. Academy of Sciences 99 (25). Byrne. So. (2004).. An extensive comparison of recent classication tools applied to microarray data. E. 16751680. In Y. Troyanskaya. Lockhart.. Ling. J. Chee. A. M. M.. Springer Berlin / Heidelberg. Lewis. R News 2 (3).. S. . Citado na página 30. Expression monitoring by hybridization to highdensity oligonucleotide arrays. V.). Kobayashi..). McGraw-Hill higher Citado na página 22.. P.. D. & Wiener. Computational Statistics Data Analysis 48 (4). I. S.. 16203. M. D. J. 1822.. (2005).. M. J. Lopes. Interscience. S. T. & Michalski. 991991. Kuncheva. J. Y. Wang. Leung. Advances in Articial Intelligence. Citado nas páginas 1. E. T. Liu. C. X. (1996). R. and 37. Yuen. S. Biotechnology 14 (13). (2001). M. Bratko.. L. Auc: A better measure than accuracy in comparing learning algorithms. S.

Morgan Kaufmann. pp. MG. (2003). S.-X. (2012). Payette. O. (2012). Statistical framework for the prediction of faultproneness. & Lumini. S. R. A theory and methodology of inductive learning. Oh. B.. Oconnell. Mitchell (Eds. Y.. Advances in machine learning applications in software engineering. & Pollack. C. Zhou.. T. Chateld. Applying decision trees to gene expression data from dna microarrays: A leukemia case study. Fero. C..REFERÊNCIAS 66 Ma. Citado na página 6. 83134.. Gaudet.. Pistone. In Intelligent Data Engineering and Automated Learning . B. K. Ma. & Cukic. A. A. The Lancet 359 (9314)... In Group. P. Knowling. R. B.. L. (1983). & Baranauskas. Intell... 13011307. 10p. J. R. Salunga. P. Alter.. A. A. pp. S. T.. Citado na página 39. McGraw-Hill Education (ISE Editions). Bioinformatics 28 (8).. & Moon. In R.. Hybrid genetic algorithms for feature selection. J.-S. (2010). Stecker.. Mach. M. M. S. & Sgroi. Y. (1997). J.. Baer. Combining multiple approaches for gene microarray classication. H. Proceedings of the National Citado na página 74. S. Nozawa. Kessler. Varnholt.. (2002). T. Pattern Anal. Smith. 115140.IDEAL 2012. Gadd. Academy of Sciences 100 (10).-R. A.-J. Monard.. Michalski. O. Horizonte. M. Citado nas páginas 6 and 76. Chapter 5. B. E. G. L. Tuggle.. Michalski. Machine Learning (Mcgraw-Hill International Edit). 26.. & T. T. 59745979. Nanni. M. West. D. Volume 1. Belo Citado nas páginas 72 and 84. J. Citado na página 73. E. Carbonell. M. Mitrowsky. M. & Baranauskas. M. R.. J.. R.. Netto. pp. G. M. (2007). (2003)... S. Brahnam. I. A. Citado na página 2. In XXX Congresso da Sociedade Brasileira de Computação. Machine learning : An articial intelligence approach. Volume . Nielsen. Macedo.. G. Zhu. (2004). R.-S. Sherlock. Enright.. J. X. Zhang. Indução de Regras e Árvores de Decisão. Guo. Citado na página 6. Gene expression proles of human breast cancer progression. Root attribute behavior within a random forest. Erlander. 14241437. Lee. Idea Citado na página 18. M. J. 11511157. Manole. A. Linn. T. Mitchell. J. M.)... T. J. McQuary. IEEE Trans. Molecular characterisation of soft tissue tumours: a gene expression study. J. Oshiro. & Baranauskas..

P. 154168.. J. G. (2012). E. M. M. 39. C. A. pp. Stolovitzky.. D.. Wright.. L. Machine Learning and Data Mining in Pattern Recognition. & Liotta. Simone.. K.. C. E. Black. M. A. Perez. J. B. M. (2011). A.. P. (2002). (2002). pp. Campo. Pathway analysis using random forests classication and regression. Prediction of central nervous system embryonal tumour outcome based on gene expression. and 71.. Floyd. L. M.. W.. B. J... R.. C.. Ardekani.. Greece. Hurt. S. Enerson. T. S.). 58. & Baranauskas. 45. Springer Berlin Heidelberg. E. Poggio. Lin. In Proceedings of the Workshop on Knowledge Discovery in Health Care and Medicine of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD KDHCM). Lau. Fisher. Mukherjee. Zagzag.. Fishman. How many trees in a random forest? In P.. Curran. H.. E. Rosenwald. J. S. E. A.. 40. A. Hitt.. G. Perez. J. Allen. S. & Baranauskas. Kim. Pomeroy. H. P. A. Citado nas páginas 39. Bioinformatics 22. The Lancet 359 (9306). Petricoin. Angelo. Levine. Analysis of decision tree pruning using windowing in medical datasets with dierent class distributions. 733742. 4055.. P. Citado nas páginas 41 and 43... S. M. J.. Oshiro. E. Califano... M. Sturla. P. D. R. M. Gascoyne. Mills. Gaasenbeek.. Goumnerova. . Muller-Hermelink.. Y... 2839. A. Connors.. Giltnane. Perner... and 71. ICDM'11.. P.. Rifkin.. Pang. pp. S. Nature 415 (6870). Steinberg.. Biegel.. (2006). P. 45.. 37. Citado na página 74. Lawton. T. J. J. E. Springer Berlin Citado nas páginas 36. H. Lecture Notes in Computer Science. E. Chan. Tamayo. 572577. & Zhao. E. Smeland. G. & Golub. 436442. M. Fusaro. 20282036. A. Wetmore... A. B. (2011). Volume 7376 of Heidelberg. V. F.. Perner (Ed. pp. J.. Lu. Berlin.. J. Springer-Verlag. Kohn. Proceedings of the 11th international conference on Advances in data mining: applications and theoretical aspects. Citado na página 74. T. Louis.. C. Citado na página 3. M. Use of proteomic patterns in serum to identify ovarian cancer. M. H. T. N.. McLaughlin.. B. I. P. R. A. M. B. R. L. Heidelberg. M. M. C.. Athens. C.. 58.. C.REFERÊNCIAS 7435 of 67 Lecture Notes in Computer Science. A. D. How to interpret decision trees? In Citado na página 77. Lander. D. Holford. L. Mesirov. Olson.

C.. Xu. D. Mesirov.. Koval. P.). S.. & Golub.. R. Lit. G. Wilson.. Ross. Gilbert. & Kumar. R. Addison Wesley. M. 19371947. national Conference on Information and Electronics Engineering 6. J. C. J. T.. S.68 REFERÊNCIAS Zhao.. Tamayo. P. (2007). (2002). Lander. N. A... I. J.. N... Powell. P. G. & Sinthupinyo. A. R. C.. X. Citado nas páginas 73 and 74. V. Marton. Witteveen.. A. J. Longo. Jackson. Reich. L. 6874. L. M. K. Lister.. Citado na página 39. Norton. M. van 't Veer. A. Cancer Cell 1 (2)... Tan. A. (2011). J. T. K. B. L.. Y. S.. L. Não citado no texto. Dai. Z. A. Inter- 194198. T... Ross. M. M. Nature Medicine 8 (1).. L. Citado na página 75. K. G.. D. D. 15291536. Angelo. M. A. R..... C. Weng. The future of genomic proling of neurological diseases using blood. D. He. Linsley. & It Et Al (2002).... Inza. van de Vijver. Sirikulviriya. P. Neuberg. Pinkus. T. n. V. Kerkhoven.. T. X. Last. H. Sharp. Steinbach. Schreiber. L. . R. W. R. cell lymphoma. J. D.. Manola. The use of molecular proling to predict survival after chemotherapy for diuse large-B- New England Journal of Medicine 346 (25). J.. Apperson. Wong. K. Duey. S. G. J.. Jae. Integration of rules from a random forest. Gene expression correlates of clinical prostate cancer behavior. A review of feature selection techniques in bioinformatics.. D. M. L. Mao. F. Liu. D'Amico. Y. van der Kooy. M.. & Larrañaga. E. Hershey. P. P.. A. 25072517. J.. Singh.. M.. M. Ladd. Liu.. Aguiar. & Ran. (2002). P. S.. Ray. Roberts. W. S. H. 203209.. Glauser..-Z.. L. Renshaw. rology 63 (11). Peterse. Bernards. Saeys. A. Febbo.. Kutok. Diuse large B-cell lymphoma outcome prediction by geneexpression proling and supervised machine learning. J. H. Archives of neu- Citado na página 30. J.. Hart.... Walker. T. Gaasenbeek. na página 1. P. M. Citado Introduction to Data Mining (1 ed. D. A. W. H. (2005). Shipp. & Friend... Simon... S. Aster.. Bioinformatics 23. H. Citado na página 74. Tamayo. (2006).. Greiner. C. A. A. Klausner. R.. E. H. (2002). L. A. D. Yang.. & Richie... R... Averett. S. Zhan. Pinter.-N. P...

I. J. Morgan Kaufmann Publishers. K. Measuring the vc-dimension of a learning Neural Computation 6. Wang-Rodriguez. C.. Velculescu. Weiss.. Science 270. Vapnik. Expert Systems with Applications 38.. I. A. M.. Darling. S. Wu.. & Kinzler. Keshavjee. Pintilie. (2001)... (2011). M. J. 59748. Witten. H. L. Volume 1. Ward. G. Sapinoso.. Watson. machine. Citado na página 74. V. G.. Woodgett. Fishman. H. Welsh. Breitkreutz. (2003). (1953). B. Moskaluk. W. & Zhao.. Citado na página 14. Citado na página 1. D. I. (1995). Jorgenson. Williams. N. Computer systems that learn : classication and prediction methods from statistics. J. Wang. M.. & Tsao. G.. K. P.. J. Winton. Research 62 (11). Morgan Kaufmann. Comparison of statistical methods for classication of ovarian cancer using a proteomics dataset. T. Liu. Rossant.. machine learning. Citado na página 29. A. 223230. Molecular Structure of Nucleic Acids: A Structure for Deoxyribose Nucleic Acid. Y. Cancer Citado na página 73. D. Abbott. & Frank.. S... neural nets. McMurray. Ma. K.. Seiden. C.. E. Citado na página 73. B. J. J. & Crick. Cancer Research 61 (16).. 851876. N.. I. Lu. (2002). W. & Kulikowski. T. Molecular proling of non-small cell lung cancer and correlation with disease-free survival. G. A.. Hao. 3005. Serial analysis of gene expression. F. S. E. D.-J... A comparative assessment of ensemble learning for credit scoring. 484487. Zhang.. J. (1999). S. D. C.. 16361643. Citado na página 20. Frierson. G. Vogelstein. Johnston.. Citado na página 76. A.. B. Citado . Shepherd. M. L. H.. & Hampton... & Jiang. M. Jurisica. (1991). and expert systems. & Cun. M. Nature 171 (4356). V. H. Stone. Mor. Analysis of gene expression identies candidate markers and pharmacological targets in prostate cancer. Citado na página 5. M. A.. Su.. B. F. Levin. C. H.. Radulovich. Bioinformatics 19 (13). E. F. (1994). 530536. 737738. L.69 REFERÊNCIAS Nature 415 (6871). Tyers. Wigle. Kern. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.

Use of serial analysis of gene expression (SAGE) technology.. Raimondi. Citado nas páginas 29 and 30. K. Cancer Cell 1 (2). A. Journal of immunological methods 250 (1-2). (2008). Shurtle. & Zhang. Citado na página 75. A. Citado na página 17.REFERÊNCIAS 70 na página 34. F. 19551959. S. Williams. Zhao. & Cheng (2002). S. T. Hada. (2001)... 4566. W.. subtype discovery. A. M.. D. R. Patel. E. Behm. 133143. J. A. G. Mahfouz. Wakatsuki. Patel. M... Advances in Space Research 41.. Y. Yamamoto.. Y. M. E. Relling. C. and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression proling.. Classication. Comparison of decision tree methods for nding active objects. . Yeoh. & Ryo. Ross. V..

As bases referentes aos experimentos estão no Apêndice A. Perez & Baranauskas 2012) e (Oshiro & Baranauskas 2012) descritos no Apêndice B e na construção da árvore nal. Lung Cancer. As bases estão ordenadas de acordo com a métrica D2 (vide Apêndice B. Breast Cancer.1. A. denidas na Seção B. Na Tabela A.1 Bases de dados usadas para os experimentos realizados Todas as bases de dados usadas representam bases médicas reais ou bases de expressão gênica e nenhuma possui valor ausente para o atributo classe. uma breve descrição de cada base é fornecida.Apêndice A Bases de Dados Neste apêndice são descritas resumidamente as bases utilizadas nos experimentos preliminares (Oshiro. 71 . obtendo assim 8 bases de baixas densidades e 21 de altas densidades. CNS (Central Nervous System Tumour Outcome).Lymphoma.1 é mostrado um resumo das bases de dados e as métricas de densidade correspondentes.1 e as referentes a construção da árvore nal estão no Apêndice A.1).2. No restante desta seção.

27 0. 22) 9 (0.69 2. 7) 8 (0. HD Cleveland.38 0. 7) 18 (3.00% 0. n WDBC Ovarian 61902.74% 0.1: Base de dados GCM (Global de c a(a# . Allhyper. 0) 4026 (4026.66 1. C. 0) 9 (2. Heart Statlog.00% 1.48 1. Method (C. as últimas 3 colunas são as métricas de densidade D1 .12 1.18% 0.25 1. onde n indica o número de exemplos.46 0. Hepatitis e Liver Disorders são uma série estão relaciona- das com doenças do fígado.24 2. mas a segunda tem seus atributos discretizados (Netto et al.54% 5.46 0. de Switzerland ) estão relacionados a doenças cardíacas e seus atributos representam dados clínicos e laboratoriais.52 1. a# e aa indica o número total de atributos.67 1.44 2.00% 0. MISS representa a porcentagem de atributos com valores ausentes.07 2.57 0. 0) 29 (7.42% 0. Method Pima Diabetes Liver Disorders H.59 1.12 2.53 1.40 0. a.00% 5. Survival 366 123 148 155 294 303 90 569 3190 270 3772 3772 3772 286 3163 7200 699 1473 768 345 306 6 5 4 2 5 5 3 2 3 2 5 4 2 2 2 3 2 3 2 2 2 34 (1. de Cardiac ). 0) 6 (6. D2 .00% 0.17 1.75 1.86 2.00% 0.21 Cancer Map).25% 0.06% 17..26 2.52 0. enquanto que C. Hypothyroid e Sick de bases relacionadas a condições da tireóide.50 0.18 2. Lymphography Hepatitis HD Hungarian HD Cleveland P. .18 1. Pima Diabetes P.50 2.36 0.97 2. vival (H.35% 6.44 2. Ar- rhythmia (C.48 0.54 0. Leukemia nom. 8) 30 (30.34 0. WBC (Wisconsin Diagnostic Breast Cancer).07% 0.50 1. respectivamente.00% 0.08 0.17 1.09% 0.34 1. o número de atributos númericos e o número de atributos nominais.BASES DE DADOS USADAS PARA OS EXPERIMENTOS REALIZADOS 72 Resumo das bases de dados utilizadas neste experimento. Sur- são todas relacionadas a cancer e seus atributos consistem de dados clínicos.70 1. (Switz. Haberman's (Wisconsin Lymphography e H.86 1.87 4.00% 5. 15) 19 (6. 22) 29 (7.46 2.97 2.25 1. Leukemia e Leukemia nom.27 0.66 2.63 1. laboratoriais e expressão gênica.40 0.28% 0. 60) 13 (13.03 2.46% 0.56 2.59 0.21 1.88 1.58 1. 0) 7129 (7129. 7) 13 (6.67 2.26 0.63 1.86 1.00% 0.91 1. 9) 25 (7.71 2.91 1. Allhypo.36 0.59 0. Patient WDBC Splice Junction Heart Statlog Allhyper Allhypo Sick Breast Cancer Hypothyroid ANN Thyroid WBC C. 0) 56 (0.73 1. 0) 15154 (15154. 13) 13 (6.44 2. Dermatology.00% 0. representam a mesma base.98 3. 56) 279 (206. sem considerar o atributo classe.00% 0. 1) 0.19 3. 0) 7129 (7129. 33) 13 (6. 7) 8 (8.16 2.00% 0. 0) 7129 (7129.22 2. Bases estão ordenadas por D2 em ordem crescente. Breast Cancer).54% 5.32 3. 0) 3 (2.28 0. 0) 60 (0. respectivamente.29 2.67% 20. ANN Thyroid. Arrhythmia 190 96 60 72 72 253 32 452 14 9 2 2 2 2 3 16 16063 (16063. 73) 0.48 2.54 1.26 5. 2010). Tabela A. Leukemia.aa ) MISS D1 D2 D3 GCM Lymphoma CNS Leukemia Leukemia nom.00% 5.82 2.16 1. 22) 29 (7.97 2.32% 0.21 2. Ovarian 61902 Lung Cancer C.60 1. HD Hungarian e HD Switz. de Postoperative ) são outras bases (Pima Indians Diabetes) e de Contraceptive ).65 4. c representa o número de classes.48 0. 18) 21 (6. 15) 9 (9. Patient (P.54% 0. D3 de cada base.92 2.58 Dermatology HD Switz.00% 0.57 2.55 0.

entre outros (Butte et al. foram obtidas em (Can 2010). • butte-data-set está relacionada com a diferenciação entre diversos tipos de câncer: mama. A seguir.1. • welsh-2001-GNF está relacionada com a classicação de amostras de tecido da próstata (Welsh et al. exceto CNS.2. A. • alizadeh-lymph está relacionada com a classicação de pacientes de acordo com a variação molecular do linfoma de células B (Alizadeh et al. 2000). • lungcancer-ontario está relacionada com a classicação de pacientes que tiveram tumor em: pacientes que apresentaram metástase local ou distante. 2002). leucemia. 2000). Leukemia e Leukemia nom. 2002).2 Bases de dados usadas para o Algoritmo 1 Foram utilizadas 24 bases de expressão gênica por microarray. 2001). As bases foram obtidas no Repositório UCI (Frank & Asuncion 2010). • prostate-outcome está relacionada com a classicação do resultado clínico em pacientes com tumor. • nielsen-soft-2002 está relacionada com a diferenciação entre os tipos de câncer: sarcoma sinovial. os quais foram avaliados com relação à recorrência da doença após a cirurgia em um período de quatro anos (Singh et al. 2002). leiomiossarcoma. . Lymphoma. descritas resumidamente na Tabela A. ovário. lipossarcoma. leucemia linfocítica aguda e leucemia de linhagem misturada (MLL) (Armstrong et al. • MLL-completo está relacionada com a diferenciação de pacientes com leucemia mieloide aguda. ECML que foram obtidas a partir de (Dat 2010). histiocitoma broso maligno e Schwannoma (Nielsen et al.BASES DE DADOS USADAS PARA O ALGORITMO 1 relacionadas a condições humanas. Splice Junction 73 está relacionado a tarefa de previsão de limites entre exons e introns. tumor estromal gastrointestinal. cuja legenda é a mesma da Tabela A. 2002). uma breve descrição de cada base utilizada. ou como livre da doença (Wigle et al. GCM Ovarian 61902 e foi obtida em (Dat 2010).

BASES DE DADOS USADAS PARA O ALGORITMO 1

74

DLBCLOutcome está relacionada com a classicação de pacientes (curados ou fatais)
com linfoma de células B quanto ao resultado clínico da doença (Shipp et al. 2002);

pomeroy-cns-dataset-C está relacionada com a classicação de pacientes com meduloblastoma em pacientes que sobreviveram ao tratamento e pacientes que não sobreviveram (Pomeroy et al. 2002);

breastCancer-completo está relacionada com a classicação de paciente com câncer de
mama (van 't Veer et al. 2002);

lung-harvard está relacionada com a diferenciação de pacientes entre os diferentes tipos
de tumores e também pacientes normais (Bhattacharjee et al. 2001);

ma-2003-breast está relacionada com a classicação de pacientes com: carcinoma ductal

in-situ, carcinoma

ductal invasivo e hiperplasia ductal atípica (Ma et al. 2003);

aml-all-completo está relacionada com a classicação de pacientes com: leucemia mieloide aguda (AML) ou leucemia linfoblástica aguda (ALL) (Golub et al. 1999);

DLBCLTumor está relacionada com a classicação da morfologia das amostras em
linfoma de células B e linfoma folicular (Shipp et al. 2002);

leung-2002-gastric está relacionada com a classicação de pacientes em: tumor gástrico
primário, tumor com metástase e mucosa normal (Leung et al. 2002);

lung-Michigan está relacionada com a classicação de pacientes em tendo adenocarcinoma primário de pulmão ou não tendo (Beer et al. 2002);

prostate-tumorVSNormal está relacionada com a diferenciação entre amostra normal
e amostra com tumor (Singh et al. 2002);

lungCancer-completo está relacionada com a classicação de câncer de pulmão entre
mesotelioma pleural maligno e adenocarcinoma (Gordon et al. 2002);

ovarian-61902 está relacionada com a distinção entre pacientes com câncer e pacientes
normais (Petricoin et al. 2002);

BASES DE DADOS USADAS PARA O ALGORITMO 1

75

DLBCL-NIH-completo está relacionada com a classicação de pacientes com linfoma
de células B em: óbito ou sobrevivência (Rosenwald et al. 2002);

BCR-ABL-completo está relacionada com a classicação de subtipos de leucemia linfoblástica pediátrica (Yeoh et al. 2002);

E2A-PBX1-completo, Hyperdip50-completo e T-ALL-completo estão relacionados com
a classicação de subtipos de leucemia linfoblástica pediátrica (Yeoh et al. 2002).

Tabela A.2:

Resumo das bases de dados utilizadas neste experimento.

Base de dados
welsh-2001-GNF
butte-data-set
nielsen-soft-2002
prostate-outcome
alizadeh-lymph
MLL-completo
lungcancer-ontario
DLBCLOutcome
pomeroy-cns-dataset-C
breastCancer-completo
lung-harvard
ma-2003-breast
aml-all-completo
DLBCLTumor
leung-2002-gastric
lung-Michigan
prostate-tumorVSNormal
lungCancer-completo
ovarian-61902
DLBCL-NIH-completo
BCR-ABL-completo
E2A-PBX1-completo
Hyperdip50-completo
T-ALL-completo

n

c

a(a# ,aa )

55
68
46
21
96
72
39
58
60
97
203
61
72
77
126
96
136
181
253
240
327
327
327
327

14
9
6
2
9
3
2
2
2
2
5
3
2
2
3
2
2
2
2
2
2
2
2
2

12626 (12626,0)
7245 (7245,0)
5520 (5520,0)
12600 (12600,0)
4026 (4026,0)
12582 (12582,0)
2880 (2880,0)
7129 (7129,0)
7129 (7129,0)
24481 (24481,0)
12600 (12600,0)
1946 (1941,5)
7129 (7129,0)
7129 (7129,0)
6688 (6688,0)
7129 (7129,0)
12600 (12600,0)
12533 (12533,0)
15154 (15154,0)
7399 (7399,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)
12558 (12558,0)

MISS

D1

D2

D3

0,00%
0,00%
0,00%
0,00%
5,09%
0,00%
5,96%
0,00%
0,00%
0,00%
0,00%
0,30%
0,00%
0,00%
5,87%
0,00%
0,00%
0,00%
0,00%
10,30%
0,00%
0,00%
0,00%
0,00%

0,42
0,47
0,44
0,32
0,55
0,45
0,46
0,46
0,46
0,45
0,56
0,54
0,48
0,49
0,55
0,51
0,52
0,55
0,57
0,62
0,61
0,61
0,61
0,61

0,14
0,23
0,24
0,25
0,29
0,34
0,37
0,38
0,38
0,38
0,39
0,40
0,40
0,41
0,42
0,44
0,45
0,48
0,50
0,54
0,54
0,54
0,54
0,54

0,14
0,22
0,22
0,21
0,27
0,31
0,33
0,34
0,34
0,34
0,37
0,36
0,36
0,37
0,39
0,39
0,40
0,44
0,46
0,49
0,50
0,50
0,50
0,50

Apêndice

B

Experimentos Realizados
As bases utilizadas nestes experimentos preliminares encontram-se descritas na Seção A.1.
Na Seção B.1, são discutidas algumas métricas de densidade propostas nesta pesquisa e utilizadas na execução do primeiro experimento. Nas Seções B.2 e B.3 são discutidos os resultados
obtidos nos experimentos preliminares 1 e 2, respectivamente.
A m de analisar se os resultados são signicativamente diferentes, aplicou-se o teste
de Friedman (Friedman 1940), considerando um nível de signicância de 5%, assim como
explicado na Seção 4.2.

B.1

Métricas de densidade

É sabido a partir da teoria do aprendizado computacional que, dado um espaço de hipóteses (neste caso, denido pela

Random Forest), é possível determinar a complexidade do

conjunto de treinamento (tamanho) para um classicador convergir (com maior probabilidade) para uma hipótese bem sucedida (Mitchell 1997, Chap. 7). Isto requer conhecimento
do tamanho do espaço de hipóteses (ou seja, sua cardinalidade) ou sua capacidade fornecida pela dimensão VC (Vapnik, Levin & Cun 1994). Na prática, encontrar o tamanho do

76

resultando em (B. quais conjuntos de treinamento parecem ter um volume suciente para que o aprendizado possa ser bem sucedido. Uma vez que. Estas métricas foram projetadas usando as seguintes ideias. métricas de bases de dados (espaço de exemplos) são muito menos discutidas na literatura. enquanto que o padrão ouro deveria ser denido em termos do espaço de exemplos. a atributos e n c exemplos. a densidade D é sua massa dividida pelo seu volume.1). estes números variam consideravelmente. mostradas em (B. uma vez que o espaço de hipóteses é xado (mas seu tamanho ou sua dimensão VC são ambos desconhecidos ou innitos). Por outro lado. um melhor modo de olhar para eles foi usando ambos números na escala logarítmica natural. Uma vez que neste estudo foram usadas bases de dados com diferentes números de classes. onde cada base de dados tem classes. ou seja. seu volume foi dado por seus atributos. foi conside- rada sua massa como o número de exemplos. uma vez que esta abordagem foi denida em termos de subárvores direta e esquerda (Aslan. elas não podem ser agrupadas em algum sentido intuitivo usando essas três dimensões. D.MÉTRICAS DE DENSIDADE 77 espaço de hipóteses ou a capacidade é difícil e apenas recentemente uma abordagem deniu a dimensão VC para árvores de decisão binárias. Na ln a próxima métrica. Nosso interesse é.2) e a última métrica engloba bases de dados vazias (sem exemplos) e bases sem o rótulo da classe (aprendizado não supervisionado).2) e (B. foi considerado que o número de exemplos (massa) torna-se rarefeito pelo número de classes. Aqui considera-se o conceito de volume de um objeto (base de dados) como sua capacidade. Em um trabalho relacionado. Para um objeto físico.1). são propostas três diferentes métricas. tem-se D . a em geral. Yildiz & Alpaydin 2009). Sob estas considerações. (B. a quantidade de uido (atributos) que o objeto pode conter. pelo menos parcialmente. . Para uma base de dados. Com base nisso. n . ln n o qual nos leva a (B.3). algumas métricas de balanceamento de classe foram propostas (Perez & Baranauskas 2011). em vez de a quantidade de espaço que o objeto desloca. exemplos e atributos.

loga n (B. usaram-se 10 repetições de validação cruzada com 10-folds.EXPERIMENTO 1 D1 . sob o ponto de vista computacional. loga c+1 D2 . contrariando o esperado. descritas no Apêndice A.2) D3 (B. e somente as 21 bases com alta densidade. c ≤ n. Considera-se que se Di < 1. Para avaliar o desempenho deste experimento. Experimento 1 Neste experimento foram utilizadas duas medidas para analisar os resultados: a área média ponderada sob a curva ROC (AUC) e a porcentagem de atributos usados em cada Random Forest. Analisando o grupo usando todas as bases e as 8 com baixa densidade.3) Considerando a hipótese comum em aprendizado de máquina que para cada métrica 78 Di . Média. 3.1) n c n+1 . Caso contrário. Outro resultado interessante é que os valores de mé- . mediana e o rank rank médio obtido no teste de médio são apresentados para os seguintes grupos: todas as bases. Di ≥ 0. em todos os grupos (todos/8 baixa-densidade/ 21 alta-densidade) a oresta com 4096 árvores tem o menor (melhor) rank de todos. i = 1. a densidade é alta e o aprendizado pode ser mais fácil.1) e cada número de árvores usadas na Random Forest são mostrados na Tabela B. Os valores de AUC obtidos para cada base (29 bases. A média de todas as repetições para uma dada oresta em uma determinada base foi tomada como o valor do desempenho (AUC e porcentagem) para o par. Como pode ser observado.2 Di ≥ 1. é óbvio que. somente as 8 bases com baixa densidade.1. no grupo das 21 alta-densidade. loga (B. a densidade é baixa e talvez o aprendizado a partir dessa base pode ser difícil. Também são mostrados os valores da média e da mediana assim como o Friedman. 2. Além disso. pode-se notar que a oresta com 512 árvores tem um rank melhor do que a oresta com 1024 árvores. B. pode-se observar que as orestas com 2048 e 4096 árvores apresentam o mesmo rank.

5 e B. entre 2 e 4. Considerando as 21 bases com alta densidade. exigem um poder de expressão maior (orestas maiores) do que bases com alta densidade. as diferenças do AUC (média e mediana) entre 32 e 64 árvores na oresta estão abaixo de 1%. somente as 8 com baixa densidade e somente as 21 bases com alta densidade. Isto pode sugerir que bases com baixa densidade.1 e B. nas Figuras B.3 considerando todas as bases. Estes resultados são apresentados nas Figuras B. pode ser expressa como o tamanho do espaço da Random Forest (hipótese) ou sua dimensão VC.4 foi feito um ajuste dos valores de média e mediana por meio dos mínimos quadrados para curva AUC (ganho) e g = aLb . são maiores do que os valores das bases com baixa densidade. podemos notar que usando todas as bases e as 8 com baixa densidade. onde um aumento nos valores do AUC são difíceis de se obter.1).83 com coeciente de correlação R2 = 0. usando todas as bases e o valor da mediana da diferença do AUC a = 6.99 e usando a média da diferença do AUC correlação R2 = 0. a média e a mediana não apresentam maiores mudanças a partir de 32 e 16 árvores.EXPERIMENTO 1 79 dia e mediana das bases com alta densidade para cada uma das três primeiras iterações.4. mas além de 64 árvores estas guras não apresentam grandes mudanças. Com estes resultados pode-se observar um comportamento assintótico. etc.99% antes de 4096 árvores (valores em negrito na Tabela B.6 para todas as bases. . B. Como pode ser visto.65 com coeciente de .3. Na Figura B. Analisando a Figura B.). mesmo dobrando o número de árvores dentro da oresta. .98.06 e b = −0. Obteve-se. Um modo de compreender este comportamento assintótico é computando a diferença entre o AUC de uma iteração com a próxima (por exemplo. A m de obter um melhor entendimento. 4096. respectivamente.42 e b = −0. . . 8 baixa densidade e 21 alta densidade.2 e B. é possível aproximar para g w L7 % com coeciente de a = 6. ambas média e mediana aumentam conforme o número de árvores aumenta.3% entre 32 e 64 árvores. de fato. Para ns práticos. nós excluimos as diferenças dos AUC das bases que atingiram o valor de AUC igual a 99. Para esta análise. B. respectivamente. 4. os valores AUC também são apresentados nas Figuras B.2. Esta potência expressiva. o oposto é ver- dadeiro para L = 16. Analisando esta tabela. naturalmente. respectivamente. estas diferenças estão abaixo de 1% entre 16 e 32 árvores na oresta e abaixo de 0. 8.1. onde g representa a porcentagem da diferença do L é o número de árvores dentro da oresta. 4 e 8. L = 2.

99 1.99 0.00 Sick 0.98 0.90 0.93 0.00 1.65 0.93 0.87 0.88 0.81 0.99 0.66 0.89 0.92 0.00 1.46 0.76 0.66 0.90 0.00 1.78 0.87 0.64 0.90 Allhyper 0.00 1.64 0.93 Hepatitis 0.98 0.37 2.00 1.00 1.64 0.97 0.99 0.00 1.62 0.93 0.67 0.91 0.66 0.90 0.00 1.99 0.58 0.99 0.80 0.86 0.00 1.64 Média 0.00 1. 0.00 1.00 1.12 4.66 0.77 0.00 1.24 4.92 0.45 0.98 0.72 0.87 0.95 0.63 0.99 1.99 0.45 WDBC 0.00 1.45 0.89 0.87 0.90 0.00 1.61 0.88 0.98 0.66 4.47 5.81 5.82 0.87 0.98 0.88 5.45 0.60 0.98 0.89 0.99 0.89 0.93 0.82 0.85 0.95 0.99 0.95 0.99 1.45 0.97 0.90 0.00 Heart Statlog 0.76 0.72 0.00 Breast Cancer 0.84 0.90 0.97 0.87 0.77 0.83 Liver Disorders 0.66 0.85 0.91 0.85 0.99 0.92 0.89 0.00 1.59 0.60 0.00 1.00 1.85 0.61 0.77 0.99 0.99 1.56 16 32 64 128 256 0.98 1.79 0.58 0.88 0.00 1.76 10.87 0.66 0.87 0.60 Leukemia 0.89 0.00 1.86 0.96 0.91 0.00 1.79 0.87 0.99 0.99 0.89 0.84 0.00 1.58 0.00 WBC 0.93 11.00 HD Switz.82 0.87 0.82 0.86 0.94 0.66 4.99 0.65 0.83 10.89 0.89 0.63 0.69 3.89 0.88 0.90 11.00 1.72 0.90 0.60 0.94 6.05 6.83 0.89 0.00 1.58 0.12 Todas Rank médio 8 baixa-densidade Rank médio 21 alta-densidade Rank médio .98 0.00 1.00 1.99 0.89 Dermatology 0.85 0.EXPERIMENTO 1 80 Valores AUC.91 0.77 0.99 0.99 ANN Thyroid 0.97 0.99 0.90 0.99 1.50 0.88 0.84 0.86 0.62 8.47 7.99 0.80 0. Arrhythmia 0.99 0.68 0.92 0.90 0.79 0.83 0.68 0.00 1.92 0.77 H.99 1.99 0.87 0.80 0.99 0.85 0.79 8.12 4.88 0.00 1.68 0.99 0. média.60 0.96 0.99 0.69 0.00 1.93 0.58 512 1024 0.99 0.89 0.90 0.99 0.89 Mediana 0.62 0.60 0.00 1. Dados em negrito representam valores excluidos da análise da diferença do AUC.99 0.66 0.99 C.96 12.45 0. Method 0. Tabela B.00 1.00 1.89 0.81 0.89 0.99 0.85 0.84 0.00 1.87 Mediana 0.00 1.88 0.86 0.64 0.89 0.31 4.00 1.77 0.37 3.99 0.45 0.00 1.85 0.00 1.52 0.82 0.88 0.88 0.81 7.90 0.99 0.92 0.84 0.59 0.82 0.74 0.45 0.86 0.93 0.46 0.93 0.90 0.55 0.69 Média 0.86 0.99 0.00 1.60 0.68 0.87 0.55 0.88 HD Cleveland 0.66 Hypothyroid 0.72 0.60 0.80 0.39 3.88 0.44 3.00 1.67 0.90 0.99 0.00 Ovarian 61902 0.83 Lymphoma 0.00 1.00 1.61 Lymphography 0.71 0.00 1.83 0.60 0.99 0.00 Leukemia nom.89 0.86 0.00 Allhypo 0.00 1.89 0.00 1.90 P.67 0.87 0.69 C.00 1.76 0.00 1.89 0.76 0.76 6.89 0.96 0.81 0.86 0.64 0. mediana e rank médio obtidos nos experimentos.63 0.99 1.84 0.68 0.66 0.00 11.82 0.58 0.99 0.64 0. 0.77 0.99 0.64 0.89 0.00 1.64 5.87 0.81 4.00 9.97 0.96 0.96 0.80 0.98 0.91 0.77 0.99 0.68 Pima Diabetes 0.82 0.99 0.1: Número de árvores Bases 2 4 8 GCM 0.45 0.99 0.85 0.99 0.99 1.86 0.98 0.86 Mediana 0.00 1.70 0.66 0.00 Lung Cancer 0.99 0.99 0. Patient 0.86 0.99 0.66 0.00 1.96 0.99 0.61 0.85 0.84 0.93 0.61 0.91 0.00 1.93 0.98 0.45 0.72 0.65 0.90 0.00 1.75 0.86 0.99 0.84 0.67 0.96 0.88 0.93 0.97 0.00 1.55 8.00 1.89 0.72 0.00 1.81 0.76 0.91 3.00 1.59 2048 4096 0.99 0.85 0.25 4.60 0.86 0.88 0.88 0.93 0.93 0.80 0.68 0.92 0.87 0.00 1.69 4.00 1.93 0.62 4.92 0.92 0.64 0.86 HD Hungarian 0.88 0.72 Média 0. Survival 0.38 8.99 Splice Junction 0.66 0.68 0.96 CNS 0.65 0.

07%. as 8 bases com baixa densidade e as 21 bases com alta densidade. respectivamente.91% e 99. usando árvores com AUC igual a 0. respectivamente. Quando há uma diferença signicativa. o ganho esperado no AUC para uma oresta com 200 árvores é 0. B. j pode-se observar que não há diferença signicativa entre um dado número de árvores (2 ) j+1 e seu dobro (2 ).90 × (1 + 7/8 ) 100 w 0. Porém.2. como pode ser visto. é possível notar que mesmo com 4096 árvores na oresta. Na Tabela B. não há mais diferença árvores. Quando analisam-se as 8 bases com baixa densidade na Figura B. os boxplots deste experimento são mostrados nas Figuras B. O triângulo inferior desta tabela não é mostrado pois ele apresenta resultados opostos ao triângulo superior por simetria. esta curva tem um formato diferente (sigmoidal) das demais curvas nas Figuras B. Certamente.8. somente quando a Random Forest cresceu sessenta e quatro vezes.2 são representados os resultados do teste post-hoc após o teste de Friedman e a rejeição da hipótese nula. os valores de média e mediana da oresta usando 128 árvores corresponde a 80. nem todos os atributos foram usados. Segunda observação importante é que a partir de signicativa foi encontrada apenas em uma diferença 4096 = 212 . Considerando a Figura B. considerando uma oresta com 100 árvores.90. Nela são mostrados os resultados usando todas as bases. em todos os casos.64% dos atributos.7. Nesta tabela M (N) indica que a Random Forest na linha especicada é melhor (signicativamente) do que a Random Forest na coluna especicada. o qual indica que este é um bom ajuste também. Algumas observações importantes podem ser feitas a partir da Tabela B. isto somente j aparece quando é comparado o número de árvores (2 ) com pelo menos quatro vezes este j+2 número (2 ). Terceiro ponto. ◦ indica nenhuma diferença.9 (exponencial). Além disso.91. que a O (H) a Random Forest na coluna especicada é pior (signicativamente) do Random Forest na coluna especicada. esta fórmula pode ser usada com qualquer número positivo de árvores.EXPERIMENTO 1 correlação L=8 L). Primeiro. Visando analisar a porcentagem de atributos usados. g w 78 % e o valor do AUC esperado para 16 árvores é 0. por exemplo.99. a partir de signicativa entre as orestas até 64 = 26 4096 128 = 27 árvores. as 8 com baixa densidade e as 21 com alta densidade. a curva sigmoidal parece crescer até .7.7 e B. é possível estimar o AUC para 16 árvores (dobrando assim. 81 R2 = 0.9 para todas as bases.8 e B. Por exemplo.

Número de árvores 2 4 8 16 32 64 128 256 512 1024 2048 4096 Tabela B.2: ◦ 2 O ◦ /O/H /O/O O H /O/O ◦ 8 4 H ◦ /O/H /O/H O / O / O H 16 H ◦ /O/H /O/H O / O / O O / O / O H 32 H ◦ /H/H /H/H H / O / H H / O / O O / O / O H 64 H ◦ /H/H /H/H H / H / H H / O / H O / O / O O / O / O H 128 H ◦ /H/H /H/H H / H / H H / H / H H / O / O O / O / O O / O / O H 256 H ◦ /H/H /H/H H / H / H H / H / H H / H / O O / O / O O / O / O O / O / O H 512 H ◦ /H/H /H/H H / H / H H / H / H H / H / O O / O / O O / O / O O / O / O M / M / ◦ H 1024 H ◦ /H/H /H/H H / H / H H / H / H H / H / O O / O / O O / O / O O / O / O O / ◦ / O O / O / O H 2048 H ◦ /H/H /H/H H / H / H H / H / H H / H / O H / O / O O / O / O O / O / O O / O / O O / O / O O / O / ◦ H 4096 Resultados do teste de Friedman para os valores AUC usando todas bases/8 baixa densidade/21 alta densidade EXPERIMENTO 1 82 .

7: .1: Valor AUC em todas as bases de Figura B.2: Valor AUC nas 8 bases com baixa dados (29 bases) densidade Figura B. Figura B.5: Porcentagem de atributos usados em Figura B.EXPERIMENTO 1 83 seu máximo em 100%.3: densidade Valor AUC nas 21 bases com alta Figura B.8: Porcentagem de atributos usados todas as bases nas 8 bases com baixa densidade Figura B.4: Diferenças do valor AUC em todas as bases Diferenças do valor AUC nas 8 bases Figura B.6: Diferenças do valor AUC nas 21 bacom baixa densidade ses com alta densidade Figura B.

. pode-se notar que a mediana alcança o conjunto inteiro de atributos com 128 árvores na oresta. 512. Utilizando esses números de árvores é possível obter um bom balanço entre AUC. é possível sugerir. Outra observação é que não há diferença signicativa entre o uso de um número de árvores dentro de uma Random Forest e o seu dobro. 2048 e 4096 árvores. Nozawa. um número maior de árvores em uma oresta somente aumenta o custo computacional e não apresenta ganho de desempenho signicativo. Gamberger. tempo de processamento e uso de memória. Os valores da média e mediana do AUC não apresentam maiores mudanças a partir de 64 árvores. Lavrac. Eles também indicam que a média e mediana do AUC tende a convergir assintoticamente. Zelezny & Tolar 2004). Também foi descoberta uma relação experimental (inversamente proporcional) para o ganho do AUC quando dobra-se o número de árvores em qualquer oresta. Macedo & Baranauskas 2010.EXPERIMENTO 1 Figura B. Os resultados obtidos neste experimento mostram que. por exemplo em bases com muitos atributos (ou seja. Mitrowsky. 1024. Portanto. bases de expressão gênica). Analisando a porcentagem de atributos usados. baseado neste experimento. uma vez que nem todos são importantes para o aprendizado do conceito (Netto. A análise de 29 bases de dados mostra que a partir de 128 árvores não há mais diferença signicativa entre as orestas usando 256. Assim. as vezes. um intervalo entre 64 e 128 árvores na oresta. assintoticamente a tendência indica que a Random Forest vai usar todos os atributos e isso não é interessante em alguns casos.9: 84 Porcentagem de atributos usados nas 21 bases com alta densidade Conclusão Este primeiro experimento preliminar analisou o número de árvores para serem geradas por uma Random Forest.

escolhido para ser o nó raiz (vezesRaiz ). por exemplo. foi realizada validação cruzada com 10-folds. o qual começa no zero) como seu ID. Porém. Então. de fato. os experimentos utilizando essa quantidade de árvores não apresentaram estabilidade no subconjunto dos atributos mais utilizados. Nesta etapa do experimento. novamente sem estabilidade. mais árvores podem ser necessárias para encontrar outras métricas que não desempenho. Duas medidas foram usadas na realização desta etapa: o número de vezes que um atributo estava entre os m atributos selecionados aleatoriamente pelas árvores no nível da raiz (vezesSelecionado) e o número de vezes que este atributo foi. orestas contendo a e 2a a é o número de atributos de uma árvores apresentaram resultados estáveis. ou seja. Reutemann & Witten 2009). os resultados de cada etapa deste experimento serão apresentados. Pfahringer. pois foram analisadas somente as bases que apresentavam número de atributos maior do que 25. o índice do atributo na base de acordo com o Weka (Hall. usou-se a razão entre eles (F requencia = vezesRaiz /vezesSelecionado) . Porém. buscou-se pela frequência média dos atributos no nível da raiz. a m de melhor analisar a estabilidade dos atributos mais usados. Também foram testadas orestas utilizando a árvores. Todas as etapas deste experimento utilizam a posição do atributo (ou seja. Finalmente. este ponto de vista vê a Random Forest fatores especícos dentro de uma Random Forest.3 85 Experimento 2 Após a realização do Experimento 1 e a descoberta de que um intervalo entre 64 e 128 árvores em uma oresta é o mais indicado para uma estimativa de precisão. Holmes. Frank. A seguir. seriam geradas orestas muito pequenas (com no máximo 6 árvores). analisando uma caixa branca. uma vez que existiam bases com 3 atributos e assim. Para avaliar o desempenho.1. Foram utilizadas 14 bases das 29 descritas no Apêndice A. Etapa 1. tentou-se gerar orestas contendo 128 árvores para vericar a frequência que os atributos aparecem nas raízes das árvores. analisando a Random Forest como como uma caixa preta. onde 2 base.EXPERIMENTO 2 B. Com isso é possível observar que uma boa precisão pode ser alcançada rapidamente com 64128 árvores. se os atributos aparecem uniformemente ou se existe um subconjunto deles que é mais frequentemente usado.

Embora todos os eixos y tenham cado em um intervalo de 0 e 1. nas bases Lymphoma e Leukemia. Na Figura B. foi possível notar que elas apresentaram um comportamento exponencial. há um subconjunto de atributos mais frequentemente usados (por exemplo. suponha que existem três atributos na subconjunto de atributos mais usados: A. nas bases Allhyper e Allhypo. ambas contendo um grande número de atributos). é possível observar que em alguns casos há um único atributo que sobressai (por exemplo. B igual a 0. Figura B. este intervalo varia em alguns grácos para melhor visualização. porém o atributo A tem erro out-of-bag estimado igual a 0. Por exemplo.90.65 e C igual a 0. vericou-se que haviam atributos que apre- sentavam frequências muito próximas. Após a realização da Etapa 1. B e C. A questão que surge é como estimar o erro out-of-bag para . ambas contendo poucos atributos) e em outros casos. uma vez que seu desempenho é o melhor. O eixo x corresponde ao número do atributo e o eixo y corresponde à frequência. Após ordenar as frequências de todos os atributos de cada base. Assumindo que todos eles possuem a mesma frequência. Neste caso.20. A partir desta gura.86 EXPERIMENTO 2 Frequência dos 10 atributos mais usados em todas bases.10 somente as dez maiores frequências são mostradas. assume-se que o atributo C é o melhor do subconjunto. Etapa 2.10: para analisar a frequência dos atributos. Há quatro linhas em cada gráco representando a média e a mediana das frequências para orestas utilizando árvores (ordenadas pelas frequências médias da oresta usando a a e 2a árvores).

Como mencionado anteriormente. Analisando os resultados. embora as árvores dentro delas crescem sem poda. foi realizada a segunda etapa do experimento. Tal parâmetro . usando o erro out-of-bag estimado. Random Forests não super-ajustam. Com estas modicações.EXPERIMENTO 2 Figura B. Etapa 3. Sabe-se que o atributo do nível de raiz é o mais importante na árvore e portanto. Neste experimento.11. utilizou-se o erro out-of-bag da árvore quando o atributo uma estimativa do desempenho do atributo α está no nível da raiz como α.11: estimado. o parâmetro Random Forest. na qual as frequências foram alteradas para F requencia(1 − OOB). Deste modo. Baseado nessa suposição. Frequência dos 10 atributos mais usados em todas bases usando o erro 87 out-of-bag um dado atributo. pode-se observar que em todas as bases a frequência tem um comportamento exponencial ou similar. foi analisado o comportamento da pré-poda. pode-se assumir que ele determina o desempenho da árvore. Os resultados deste experimento são mostrados na Figura B. uma vez que isto pode acelerar a indução da pré-poda das árvores da Random Forest. há geralmente um único atributo que sobressai em cada base. minN um Para realizar a foi usado. onde OOB corresponde ao erro out-of-bag médio de um atributo como explicado anteriormente. mesmo nas bases que apresentaram um comportamento linear na primeira etapa.

os valores AUC foram usados e o teste de Friedman (Friedman 1940) foi aplicado.2 Pode-se observar que o tempo de execução diminui conforme o valor de minN um au- menta.30 6.15 4. um tempo de execução mais curto.91 determina o número mínimo de exemplos em uma folha.3 são apresentados os resultados do teste e a rejeição da hipótese nula. para a estimação da precisão um intervalo de 64128 árvores é suciente. rank post-hoc após o teste de Friedman médio e a porcentagem do tempo médio de execução Nesta tabela.0.36 66. 17. considerando um nível de signicância de 5%. 13. rank médio para cada valor de minN um e a porcentagem do tempo médio de execução. devido ao processo de pré-poda que interrompe o crescimento das árvores.39 7.49 5. 7.2. Tabela B. 2. Desse modo. o de cada valor de minN um.79 69. Como explicado na Seção B. Embora não há diferenças signicativas.18 100. ou seja.80 5. 5. 19 e 23. visto que para valores maiores de minN um o tempo é menor.93 73. é possível notar a partir da Tabela B.04 4. Usando este valor. Para analisar os diversos valores de minN um. o tempo de execução para induzir esta oresta foi tomado como 100% e as porcentagens restantes foram calculadas baseadas nesta. o que gera árvores muito grandes.22 4. Frank.64 95. foram utilizados dez valores diferentes de minN um: 1.39 85. 3.3 que o melhor rank minN um = 5 parece ser um valor interessante com médio. Também foi observado o tempo médio de execução para induzir a oresta usando cada diferente valor de minN um. Esta medida foi utilizada com base no tempo médio de execução para induzir a oresta usando minN um = 1. Baseado nisso. Na Tabela B.25 70. os passos da segunda etapa foram repetidos e os . foram construídas orestas com 128 árvores. Pfahringer. Reutemann & Witten 2009) é 1.46 92. o que é esperado uma vez que valores maiores representam uma árvore menor e portanto.EXPERIMENTO 2 88 Resultados do teste de Friedman para os valores AUC usando 128 árvores e considerando um nível de signicância de 5%. 11.64 6.00 4. a legenda é a mesma da Tabela B.54 76. Holmes. onde o valor defaut na Weka (Hall.3: minN um 1 2 3 5 7 11 13 17 19 23 Rank Médio Tempo(%) 1 2 3 5 7 11 13 17 19 23 ◦ O ◦ O O ◦ O O O ◦ M M M M ◦ M M M M M ◦ O M M M O O ◦ M M M M M M M ◦ M M M M M M M M ◦ M M M M M M M M M ◦ 5.46 81.

mas este último é quase 15% mais rápido do que o primeiro. em seis bases (Allhyper. Como é possível notar. pode ser observado que a Random Forest escolhe um subconjunto de atributos . Dermatology. Sick. em outras quatro bases (Arrhythmia. Por exemplo. e Lung Cancer) alguns atributos apareceram em ambas etapas (na mesma ordem e em ordem diferente) e houve alguns atributos diferentes entre elas. Foram construídas usando a e 2a árvores. CNS. Splice e Thyroid) as sequências dos dez atributos mais usados foram as mesmas em ambas etapas. 89 out-of-bag resultados são mostrados na Figura B.11 e B. houve diferenças em alguns subconjuntos dos dez atributos mais usados.12: Frequência dos 10 atributos mais usados em todas bases usando o erro estimado e minN um = 5. em quatro bases (Leukemia. onde é a Random Forests é o número de atributos da base de dados. Lymphoma. Analizando os resultados. Por outro lado.12. Contudo. não houve diferenças signicativas entre os comportamentos das frequências mostrados nas Figuras B.12.EXPERIMENTO 2 Figura B. Leukemia nom. Conclusão Este segundo experimento preliminar visou analisar a frequência que os atributos aparecem nas raízes das árvores de uma Random Forest. Ovarian e WDBC) os dez atributos mais usados foram os mesmos em ambas etapas. porém a sequência deles foi diferente. Allhypo.

90 EXPERIMENTO 2 mais utilizados ou um único atributo em cada base. Pode-se também observar que nem sempre que um atributo é usado mais do que outro. Parece que quando usa-se a e 2a árvores. encontrar um subconjunto ou um único melhor atributo pode facilitar a descoberta de conhecimento e melhorar o desempenho da classicação. É interessante notar que em bases de dados de expressão gênica. pode-se notar que em todas as bases. a frequência que os atributos aparecem na raiz tem um comportamento exponencial. este atributo ca a frente do primeiro. Usando o erro out-of-bag estimado como um complemento. seu desempenho é melhor. Além disso. As vezes outro atributo apresenta um erro out-of-bag estimado menor e quando essa métrica é usada. o subconjunto de atributos é estável. . um atributo sobressaiu.