You are on page 1of 104

Universidade Federal do ABC

Centro de Matemática, Computação e Cognição (CMCC)


Pós-Graduação em Ciência da Computação

Gabriela Martins Gonçalves de Oliveira

AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE


MÁQUINA UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO

Dissertação de Mestrado

Santo André - SP
2014
Gabriela Martins Gonçalves de Oliveira

AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE


MÁQUINA UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO

Dissertação de Mestrado

Dissertação de Mestrado apresentada ao Curso de Pós-Graduação da Universidade


Federal do ABC como requisito parcial para obtenção do grau de Mestre em Ciência da
Computação

Orientador: Prof. Dr. Ronaldo Cristiano Prati

Santo André - SP
2014
Declaração de atendimento às observações

Este exemplar foi revisado e alterado em relação à versão original, de acordo


com as observações levantadas pela banca no dia da defesa, sob responsabilidade
única do autor e com a anuência de seu orientador.
Santo André, 28 de Agosto de 2014.

Assinatura do autor:

Assinatura do orientador:
Resumo

Aprendizado de Máquina (AM) estuda maneiras de construir algoritmos que melhoram


o seu desempenho conforme a experiência, e possue aplicações em muitas áreas. Apesar
dessa aplicabilidade, os algoritmos de AM possuem limitações que podem dificultar seu
uso em escala. O ajuste dos parâmetros livres, por exemplo, é uma tarefa geralmente feita
de maneira ad hoc, e que afeta diretamente o desempenho do algoritmo. Para que um bom
desempenho seja obtido é necessário que o usuário tenha algum conhecimento tácito e di-
ferentes configurações de parâmetros devem ser testadas. Em muitas situações, o número
de configurações a ser testadas é grande, o que demanda muito tempo. Uma alternativa
é definir o problema como uma busca no espaço de parâmetros, o que pode ser compu-
tacionalmente caro e demorado de realizar. Além disso, para aplicar o algoritmo a um
problema diferente, todo o trabalho deve ser refeito, sem reaproveitar nada de experiên-
cias anteriores. Uma das alternativas para minimizar esse retrabalho de um domı́nio para
outro é a transferência de aprendizado (do inglês transfer learning), que objetiva melhorar
a função preditiva de um domı́nio de destino a partir de algum conhecimento do domı́nio
de origem. Neste trabalho investigamos o ganho de esforço em ajuste de parâmetros ao
diminuir o espaço de busca das possibilidades a partir da transferência de aprendizado. Os
resultados obtidos com esta abordagem foram comparados com algumas variações do Grid
Search, comumente utilizadas nestes casos. Observou-se um desempenho competitivo e,
em alguns experimentos, superiores com significância estatı́stica.
Abstract

Machine learning studies algorithms that improves its performance with experience in a
given task. It has numerous applications in different areas. Despite this applicability, Ma-
chine Learning algorithms have limitations that can hinder their use in large scale without
a considerable effort. The tuning of the free parameters, for instance, is a task usually
carried out on an ad hoc manner, which directly affects the performance of the algorithm.
To obtain a good performance it is necessary that the use of some tacit knowledge and
different combinations of parameters must be tested. In many situations, the number of
configurations that needs to be tested is so large that the task become very time consu-
ming. An alternative approach is to define the problem as a search in the parameters
space. However, this approach can be computationally expensive and time consuming.
Furthermore, to apply the algorithm on a different problem, all work must be restarted
from scratch without any reuse of previous experiences. An alternative to minimize this
rework from a task to another is the use transfer of learning, whose goal is to improve the
predictive function of a target domain by reusing some knowledge of the origin domain. In
this dissertation we investigate the gain of effort in setting parameters to reduce the search
space of possibilities from the transfer of learning. The results from this approach were
compared with Grid Search, commonly used in these cases. We observed a competitive
performance and, in some cases an improvement with statistical significance.
Sumário

Sumário i

Lista de Figuras v

Lista de Tabelas vii

1 Introdução 1

1.1 Objetivos e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Referencial Teórico 5

2.1 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Avaliação de Classificadores . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2 Testes Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.1 Teoria do Aprendizado Estatı́stico . . . . . . . . . . . . . . . . . . . 12

2.2.2 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3 SVMs com Margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . 14

2.2.4 SVMs com Margens Suaves . . . . . . . . . . . . . . . . . . . . . . 15

2.2.5 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.6 SVMs em Outros Problemas . . . . . . . . . . . . . . . . . . . . . . 17

2.2.7 Vantagens e Desvantagens das SVMs . . . . . . . . . . . . . . . . . 17

2.3 Seleção do Modelo e Ajuste de Parâmetros . . . . . . . . . . . . . . . . . . 18

i
2.3.1 Ajuste de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.3.2 Ajuste de Parâmetros de SVMs . . . . . . . . . . . . . . . . . . . . 19

2.4 Transferência de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.1 Configurações de Transferência de Aprendizado . . . . . . . . . . . 22

2.5 Trabalhos Relacionados - Ajuste de Parâmetros com Transferência de Co-


nhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.6 Medidas de Complexidade de Domı́nios . . . . . . . . . . . . . . . . . . . . 26

2.6.1 Medidas de sobreposição . . . . . . . . . . . . . . . . . . . . . . . . 26

2.6.2 Medidas de separabilidade das classes . . . . . . . . . . . . . . . . . 27

2.6.3 Medidas de geometria e densidade . . . . . . . . . . . . . . . . . . . 29

2.6.4 Medidas Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Abordagem Proposta 33

3.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Resultados e Discussões 37

4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2.1 Transferência de Aprendizado versus Grid Search . . . . . . . . . . 42

4.2.2 Grid Search versus Grid Search com Transfer Learning . . . . . . . 45

4.2.3 Grid Search versus Transfer Learning versus Multi-Objetivo . . . . 45

4.2.4 Grid Search com Multi-Objetivo versus Multi-Objetivo . . . . . . . 48

4.2.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 Considerações Finais 57

Referências Bibliográficas 59

A Lista de Acrônimos 63

ii
B Distância entre as bases de dados 65

C Resultados Numéricos dos Algoritmos 71

iii
iv
Lista de Figuras

2.1 Geração e utilização de um modelo classificador . . . . . . . . . . . . . . . 6

2.2 Espaço ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Exemplo de gráfico ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5 Ideia de hiperplano ótimo para exemplos linearmente separáveis . . . . . . 14

2.6 SVM com margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.7 SVM com margens suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.8 Transformação linear com a função de Kernel . . . . . . . . . . . . . . . . 16

2.9 Conferências com trabalhos sobre transferência de aprendizado . . . . . . . 21

2.10 Visão Geral das configurações da Transferência de Aprendizado . . . . . . 23

2.11 Exemplo de Configuração de Transferência de Aprendizado . . . . . . . . . 25

3.1 Etapas da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2 Visualização da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . 36

4.1 Transferência de aprendizado versus Grid Search - Desempenho por base


de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Transferência de Aprendizado versus Grid Search - Diagrama de diferenças


crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3 Grid Search versus Grid Search com Transferência de Aprendizado - De-
sempenho por base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4 Grid Search versus Grid Search com Transferência de Aprendizado - Dia-
grama de diferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5 Grid Search versus Transfer Learning versus Multi-Objetivo - Desempenho


por base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

v
4.6 Grid Search versus Transfer Learning versus Multi-Objetivo - Diagrama
de diferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7 Grid Search com Multi-Objetivo versus Multi-Objetivo - Desempenho por
base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.8 Grid Search com Multi-Objetivo versus Multi-Objetivo - Diagrama de di-
ferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.9 Normalized Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

vi
Lista de Tabelas

2.1 Conjunto de dados para o diagnóstico da saúde de paciente . . . . . . . . . 5


2.2 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1 Resumo das caracterı́sticas dos conjuntos de dados utilizados nos experi-
mentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Domı́nios de origem e destino, de acordo com a metodologia proposta . . . 40
4.3 Posição da melhor configuração de parâmetros na abordagem proposta . . 53

B.1 Distância entre as Bases de Dados - Parte 1 . . . . . . . . . . . . . . . . . 65


B.2 Distância entre as Bases de Dados - Parte 2 . . . . . . . . . . . . . . . . . 66
B.3 Distância entre as Bases de Dados - Parte 3 . . . . . . . . . . . . . . . . . 67
B.4 Distância entre as Bases de Dados - Parte 4 . . . . . . . . . . . . . . . . . 68
B.5 Distância entre as Bases de Dados - Parte 5 . . . . . . . . . . . . . . . . . 69
B.6 Distância entre as Bases de Dados - Parte 6 . . . . . . . . . . . . . . . . . 70

C.1 Resultados Numéricos - Ótimo Global . . . . . . . . . . . . . . . . . . . . . 73


C.2 Resultados Numéricos - Transferência de Aprendizado . . . . . . . . . . . . 76
C.3 Resultados Numéricos - Grid Search . . . . . . . . . . . . . . . . . . . . . . 79
C.4 Resultados Numéricos - Grid Search com Transferência de Aprendizado . . 81
C.5 Resultados Numéricos - Multi-Objetivo . . . . . . . . . . . . . . . . . . . . 84
C.6 Resultados Numéricos - Multi-objetivo com Grid Search . . . . . . . . . . 86

vii
viii
Capı́tulo 1

Introdução

Aprendizado de Máquina (AM) é uma sub-área de pesquisa da inteligência computacio-


nal que estuda como desenvolver sistemas capazes de adquirir conhecimento de maneira
automática, ou seja, sistemas que melhoram automaticamente seu desempenho com a
experiência (Mitchell, 1997). Os algoritmos de AM constroem sistemas capazes de inferir
um modelo a partir de um conjunto de dados de treinamento. Esse modelo pode então
ser aplicado a dados não vistos na etapa de treinamento, para realizar previsões a respeito
desses dados.
O aprendizado indutivo pode ser classificado como aprendizado supervisionado, não-
supervisionado e parcialmente supervisionado, ou semi-supervisionado. No aprendizado
supervisionado cada exemplo possui um atributo especial (ou um conjunto de atributos,
no caso de AM multirrótulo), o qual desejamos prever. Se os rótulos forem discretos, o
problema é conhecido como classificação; e se forem contı́nuos, como regressão (Mitchell,
1997). No aprendizado não supervisionado, também chamado de agrupamento, o algo-
ritmo não conhece as classes reais dos exemplos, e por isso o agrupamento é feito por meio
da extração de padrões de seus atributos (Bandyopadhyay and Saha, 2012). No apren-
dizado parcialmente supervisionado há exemplos rotulados e exemplos não rotulados, e
ambos são utilizados durante a etapa de aprendizado (Chapelle et al., 2010).
Uma famı́lia de algoritmos de aprendizado de máquina que vem ganhando interesse nos
últimos anos são as Máquinas de Vetores de Suporte (Support Vector Machines (SVM)),
devido aos resultados, na maioria das vezes competitivos ou superiores a outras aborda-
gens, em diferentes áreas de aplicação de tarefas especı́ficas, com destaque para Bioinfor-
mática, Categorização de Texto, Reconhecimento de Fala e Mineração de Dados (Rossi,
2009; Faceli et al., 2011).
As SVMs são fundamentadas na Teoria do Aprendizado Estatı́stico (TAE) e possuem
uma série de ajustes que devem ser realizados para que seja construı́do um modelo com
boa capacidade de generalização. A partir de um mesmo algoritmo de SVM é possı́vel

1
gerar diferentes modelos, modificando as suas configurações de parâmetros. O problema
de escolher o melhor entre os diversos modelos disponı́veis é chamado de seleção de modelo.
Em geral, o objetivo é minimizar o erro de generalização, ou outra função de perda, para
novos exemplos. Minimizar o erro de treinamento pode causar overfitting, ou seja, o
modelo pode memorizar os exemplos do conjunto de treinamento em vez de extrair suas
caracterı́sticas gerais, o que, por exemplo, prejudica o desempenho para novos exemplos.
Na prática, o problema de seleção de modelo para o mesmo algoritmo pode ser reduzido
ao ajuste dos valores de parâmetros.
Grande parte dos algoritmos de AM possuem parâmetros cujos valores devem ser
especificados pelo usuário. Esses valores para os parâmetros livres, em geral, influenciam
diretamente o desempenho de modelos induzidos, o que pode ser entendido como uma
limitação das técnicas de AM (Rossi, 2009). O objetivo do processo de ajuste desses
parâmetros pode ser visto como encontrar os valores mais adequados dos parâmetros
livres para um determinado conjunto de dados. O ajuste de parâmetros com o intuito
de obter melhor desempenho e maior robustez dessas técnicas é uma tarefa que exige
conhecimento tácito, e pode consumir muito tempo e recursos computacionais.
Por essa razão, técnicas alternativas de otimização, baseadas em busca heurı́stica, têm
sido aplicadas para ajustar, de forma automática, os parâmetros livres dos algoritmos
de AM. Algumas dessas técnicas têm obtido resultados promissores, como Algoritmos
Genéticos (AG) (Linden, 2012), Simulated Annealing (Kirkpatrick et al., 1983), Tabu
Search (Glover, 1997) e Particle Swarm Optimization (PSO) (Blum and Merkle, 2008).
Porém, neste caso, além do trabalho desempenhado para construir o classificador, tam-
bém se tem o trabalho de construir um novo algoritmo que ajuste os parâmetros de forma
automática. Na maioria dos casos, esses algoritmos introduzem novos parâmetros que
devem ser ajustados (por exemplo, o tamanho da população em algoritmos genéticos).
Além disso, ao tentar solucionar um novo problema de domı́nio diferente, todo o trabalho
precisa ser refeito para o novo problema. Em outras palavras, nada é aproveitado. Nesses
contexto, a transferência de aprendizado, se feita com sucesso, pode melhorar muito o
desempenho do aprendizado, evitando esforços muito caros com ajustes de parâmetros.
Transferência de aprendizado é uma técnica que objetiva melhorar o desempenho da fun-
ção de aprendizagem de um domı́nio de destino utilizando conhecimento de um domı́nio
de origem (Pan and Yang, 2010). Nos últimos anos, a transferência de aprendizado tem
emergido como uma nova estrutura de aprendizagem.
Neste trabalho investigamos o uso de técnicas de tranferência de aprendizado para o
problema de ajuste e otimização de parâmetros em algoritmos de aprendizado de máquina,
em especial para SVMs. O propósito do trabalho consistiu em investigar maneiras de
transferir conhecimento, na forma de boas configurações de parâmetros, de um domı́nio
origem para um domı́nio alvo, com o intuito de diminiur o custo do processo de ajuste de

2
parâmetros no domı́nio alvo.
A abordagem utilizada construiu uma meta-base com diversos domı́nios de origem e
extraiu meta-informação a respeito desses domı́nios. Nos domı́nios de origem foi feita
uma busca mais completa, armazenando-se possı́veis configurações de parâmetros mais
promissoras. Para realizar uma busca em um domı́nio de destino, compararou-se a meta-
informação contida no domı́nio de destino com todas as meta-informações contidas nos
domı́nios de origem, a fim de encontrar a base de origem mais similar à base de destino.
Assim, usamos as configurações de parâmetros mais promissoras do domı́nio de origem
para iniciar a busca no domı́nio alvo. Essa foi a estratégia de ação adotada neste trabalho.

1.1 Objetivos e Hipótese

O objetivo geral deste trabalho é verificar se há ganhos de desempenho a partir da mini-
mização do espaço de busca obtida através da transferência de aprendizado de parâmetros
entre algoritmos de AM. Como objetivos especı́ficos, investigamos maneiras de transfe-
rir conhecimento para o ajuste de parâmetros, bem como identificar situações em que a
transferência de aprendizado pode ser vantajosa neste cenário.
A hipótese do trabalho é que a transferência de conhecimento, na forma de parâme-
tros com um bom desempenho de um domı́nio de origem para um domı́nio de destino,
possa trazer ganhos de desempenho com menor esforço para o aprendizado do domı́nio
de destino, no que se refere ao ajuste de parâmetros desses algoritmos para o domı́nio de
destino.
Para verificar a hipótese foram realizados experimentos em que melhores configurações
de parâmetros em uma base de dados (a base de dados de origem) foram transferidos
para uma outra base de dados (destino). A escolha da base de dados de origem foi feita
verificando-se a similaridade entre bases por meio de medidas de complexidade dessas
bases. Os experimentos foram realizados com dez mil combinações de parâmetros do
algoritmo SVMs para vinte e quatro bases de dados.
Resultados preliminares deste trabalho foram publicados no X Encontro Nacional de
Inteligência Artificial e Computacional (ENIAC). Esse trabalho também foi convidado
para submissão de versão expandida para o Journal of Intelligent & Robotic Systems,
ainda em avaliação na finalização desta dissertação.

3
1.2 Organização da Monografia

O restante desta monografia está organizado da seguinte maneira: no Capı́tulo 2 é apre-


sentada a revisão bibliográfica relacionada a este prejeto. No Capı́tulo 3 é apresentada a
ideia geral e abordagem deste trabalho. No Capı́tulo 4 é apresentada a metodologia, os
resultados obtidos e as comparações com outras técnicas. No Capı́tulo 5 é apresentada
uma discussão final dos resultados gerados por este trabalho.

1.3 Considerações Finais

Neste capı́tulo foi abordado, de forma introdutória, o problema tratado neste trabalho.
Tópicos como a importância dos algoritmos de aprendizado de máquina, a ascensão das
SVMs, suas limitações e possı́veis formas de minimizar essas limitações foram vistas de
forma superficial. Nos próximos capı́tulos, cada um desses tópicos será tratado de maneira
mais abrangente, a fim de consolidar as teorias que envolvem este trabalho.

4
Capı́tulo 2

Referencial Teórico

Neste capı́tulo são apresentados os principais conceitos sobre as áreas envolvidas neste tra-
balho. Foram estudados conceitos como Classificação, Aprendizado de Máquina, Trans-
ferência de Aprendizado e Medidas de Complexidade em problemas de classificação.

2.1 Classificação

Em um problema de classificação os dados de entrada são descritos por um conjunto de


atributos, sendo um deles o rótulo da classe à qual o exemplo pertence1 . Na Tabela 2.1
é exemplificado um conjunto de dados para a classificação de diagnóstico de saúde de
um paciente. Cada linha representa um paciente e cada coluna um atributo. O atributo
diagnóstico é especial por representar o rótulo a qual um exemplo pertence, que neste
caso pode assumir os valores saudável ou doente.

Exemplo Febre Enjôo Manchas Dor Diagnóstico


E1 Sim Sim Pequenas Sim Doente
E2 Não Não Grandes Não Saudável
E3 Sim Sim Pequenas Não Saudável
E4 Sim Não Grandes Sim Doente
E5 Sim Não Pequenas Sim Saudável
E6 Não Não Grandes Sim Doente

Tabela 2.1: Conjunto de dados para o diagnóstico da saúde de paciente. Adaptado de


(Rossi, 2009).

As técnicas de Aprendizado de Máquina (AM) utilizam algoritmos de aprendizado


para construir um modelo de classificação, que relaciona os atributos e os rótulos das
classes. Um desafio importante dos algoritmos de aprendizado é construir modelos que
1
Alguns problemas contêm mais de um rótulo a ser predito. Esses problemas são conhecidos como
problemas de classificação multirrótulo.

5
possuam boa capacidade de generalização e, em alguns casos, interpretabilidade humana.
Os algoritmos que possuem boa capacidade de generalização são aqueles que conseguem
predizer, com alta taxa de acerto, as classes de exemplos não vistos durante a construção
do modelo. Os algoritmos que não possuem boa interpretabilidade são chamados de
caixa-preta e como exemplo pode-se citar as Redes Neurais Artificiaiss (RNAs). Como
contraexemplo pode-se citar as Árvores de Decisão e os Sistemas Fuzzy, conhecidos como
caixa-branca.
Na Figura 2.1 é ilustrado o processo de geração e uso de um modelo classificador. Os
exemplos rotulados são induzidos para geração do modelo e a dedução é feita em exemplos
ainda não rotulados.

Figura 2.1: Geração e utilização de um modelo classificador. Adaptado de (Rossi, 2009).

Na realização de experimentos, o rótulo dos exemplos usados no conjunto de teste


é conhecido, porém, este atributo é omitido para simular as aplicações reais da técnica.
Como todos os dados possuem todos os atributos, a divisão entre conjunto de treinamento
e conjunto de teste poderia ser feita de diversas maneiras, mas, para tentar ter uma
estimativa mais realista de seu desempenho, se utiliza os métodos de amostragem que
serão detalhados na Subsecção 2.1.1.

2.1.1 Avaliação de Classificadores

Existem diferentes técnicas de AM, mas não existe uma que apresente melhor desempenho
para todos os casos. Esse problema é conhecido como no free lunch theorem (Wolpert,
1996). Um ponto importante ao estudar técnicas de AM é o método de amostragem utili-
zado para indução do classificador (Rossi, 2009). O objetivo dos métodos de amostragem
é constituir os conjuntos de treinamento (dados usados para o aprendizado) e teste (dados
usados para avaliar o desempenho do classificador) a partir de uma única base, a fim de

6
obter estimativas confiáveis a respeito do desempenho dos classificadores. Como exemplo
pode-se citar as técnicas:
Holdout - Divide o conjunto de dados em uma porcentagem fixa para treinamento e
teste (2/3 e 1/3, respectivamente, são valores bastante utilizados).
Amostragem Aleatória - Consiste em repetir a técnica holdout várias vezes. São ge-
rados conjuntos de treinamento e teste aleatoriamente e então, são induzidos modelos a
partir de cada conjunto de treinamento. Esses modelos são avaliados no conjunto de teste.
A estimativa final do erro é a média dos erros dos modelos para os conjuntos de testes.
Validação Cruzada (Cross-Validation (CV)) - Divide-se os exemplos em partições dis-
juntas, chamadas de folds. O número k de folds utilizados pode variar conforme a quan-
tidade de exemplos e a proporção de exemplos em cada classe, sendo 10 um valor tı́pico.
Um fold é utilizado para teste e o resto para treinamento. Este processo é repetido k
vezes até que todos os folds tenham sido utilizados para teste.
Leave-One-Out - Esta técnica é semelhante à Validação Cruzada, em que cada exemplo
é um fold. Um exemplo é usado para teste e o restante para treinamento. O processo é
repetido n vezes, em que n é o número de exemplos, até que todos os exemplos tenham
sido usados para teste. Este processo tem um alto custo já que ele precisa ser repetido
para cada exemplo.
Bootstrap - Repete-se o processo de classificação diversas vezes. Em cada repetição
um novo conjunto de treinamento é obtido por amostragem com reposição a partir dos
exemplos originais, e os exemplos que não foram amostrados compõem o conjunto de teste.
Uma vez escolhido um método de amostragem, deve-se definir as métricas para avaliar
o desempenho dos classificadores. Uma maneira é basear-se no número correto e incorreto
de predições realizadas pelo classificador. Isso é feito organizando os dados em uma tabela,
chamada matriz de confusão, como mostrado na Tabela 2.2 para um problema de duas
classes.

Classe Predita
Classe Verdadeira Positiva Negativa
Positiva VP FN
Negativa FP VN

Tabela 2.2: Matriz de Confusão

Os elementos que compõem a Tabela 2.2 estão descritos a seguir:


Verdadeiro Positivo (VP): Total de exemplos preditos como pertencentes à classe
positiva e que realmente pertencem à classe positiva;
Verdadeiro Negativo (VN): Total de exemplos preditos como pertencentes à classe
negativa e que realmente pertencem à classe negativa;

7
Falso Positivo (FP): Total de exemplos preditos como pertencentes à classe posi-
tiva, mas que pertencem à classe negativa;
Falso Negativo (FN): Total de exemplos preditos como pertencentes à classe ne-
gativa, mas que pertencem à classe positiva;
Utilizando a matriz de confusão é possı́vel calcular a taxa de acerto, também chamada
de acurácua (do inglês Accuracy (ACC)) (proporção de exemplos classificados correta-
mente), taxa de erro (proporção de exemplos classificados incorretamente), como mostrado
nas Equações 2.1 e 2.2, respectivamente.

VP +VN
Taxa de acerto = (2.1)
V P + V N + FP + FN

Taxa de erro = 1 − Taxa de acerto (2.2)

Também é possı́vel calcular a taxa de verdadeiros positivos (proporção de um exemplo


pertencente à classe positiva ser predito como positivo), também conhecida como sensibi-
lidade ou revocação (do inglês recall ), taxa de falsos positivos (proporção de um exemplo
pertencente à classe negativa ser predito como positivo), a especificidade (proporção de
um exemplo pertencente à classe negativa ser predito como negativo) e a medida de preci-
são (proporção da predição positiva estar correta) como mostrado nas Equações 2.3, 2.4,
2.5 e 2.6 respectivamente.

VP
TV P = (2.3)
V P + FN

FP
TFP = (2.4)
FP + V N

VN
Especificidade = (2.5)
V N + FP

VP
Precisão = (2.6)
V P + FP
A matriz de confusão também permite calcular a Medida F1, que combina de maneira
balanceada as medidas de precisão e taxa de verdadeiros positivos, como mostrado na
Equação 2.7.

2
Medida F1 = 1 1 (2.7)
Precisão + Revocação

8
Além disso, também é possı́vel construir o gráfico Receiver Operating Characteris-
tics (ROC) (Prati et al., 2008), que têm sido muito utilizadas em AM para avaliar classi-
ficadores. Um gráfico ROC apresenta os possı́veis compromissos entre erros (falsos posi-
tivos) e acertos (verdadeiros positivos) com relação à classe positiva e pode ser utilizado
para comparar, visualizar, organizar e selecionar classificadores binários que produzem
como saı́da valores de confidência de classificação (Prati et al., 2011). Na Figura 2.2 é
ilustrado o espaço ROC. Qualquer classificador que fique abaixo da diagonal principal
possui desempenho pior que o aleatório, ou seja, não é um bom classificador.

Figura 2.2: Espaço ROC. Adaptado de (Flach, 2004)

Um modelo de classificação é representado por um ponto no espaço ROC. Na Figura


2.3 é exemplificada a comparação entre cinco classificadores (A, B, C, D e E). Um clas-
sificador mais próximo a origem do gráfico é considerado conservador, pois aceita poucos
falsos positivos, mas consequentemente penaliza bastante o desempenho dos verdadeiros
positivos. Já um classificador mais próximo à outra extremidade é considerado liberal,
pois aceita bastante falsos positivos, mas possui bom desempenho com os verdadeiros
positivos.
O fecho convexo (do inglês Convex Hull ) é o menor polı́gono convexo que consegue
abrangir, com o menor número de arestas, todos os classificadores dispersos no espaço
ROC. Os classificadores internos ao polı́gono não podem ter taxa de acerto maior que os
classificadores que estão exatamente sobre uma aresta do polı́gono. Mais de um classifi-
cador pode ficar sobre uma aresta do polı́gono, em diferentes pontos. Neste caso, a taxa
de acerto desses classificadores pode ser diferente, dependendo da proporção de exemplos

9
Figura 2.3: Exemplo de gráfico ROC. Adaptado de (Flach, 2004)

entre as classes positiva e negativa.


Alguns algoritmos prevêem um valor contı́nuo em vez da classe e, portanto, é preciso
definir um limiar que divide todos os valores abaixo desse limiar como pertencentes a uma
classe e todos os valores acima desse limiar como pertencentes a outra classe. Também é
possı́vel simular o desempenho do classificador com vários limiares, e não apenas em um
como descrito no exemplo anterior. Nesse caso, o desempenho do classificador pode ser
representado por uma curva no espaço ROC - a curva ROC. Na Figura 2.4 é ilustrado
o desempenho de dois classificadores com a curva ROC. Nesse caso, o desempenho do
classificador ilustrado em vermelho possui desempenho superior ao ilustrado em azul para
todos os valores dos possı́veis limiares.
Uma medida para sumarizar essa curva é a área abaixo da curva (Area Under Curve
(AUC)) ROC, que pode variar entre zero e um. Uma área grande é um bom indicativo
de boa separação de exemplos entre as classes positiva e negativa e, consequentemente,
de um um classificador com melhor desempenho.
Outro recurso utilizado é a curva Precision-Recall (PR). A curva PR, assim como
a curva ROC, é uma ferramenta de avaliação para classificação binária que permite a
visualização do desempenho do classificador com diferentes limiares. A curva PR mostra
o compromisso entre precisão e revocação, e está sendo cada vez mais usada pela comu-
nidade de aprendizado de máquina para bases de dados desbalanceadas, onde uma classe
é observada com mais frequência que a outra classe. Nesses casos, a curva PR é uma

10
Figura 2.4: Exemplo de curva ROC. Adaptado de (Prati et al., 2008)

alternativa à curva ROC por realçar a diferença de desempenho entre as configurações,


que é perdida na curva ROC. Além da curva PR, também podemos usar a área abaixo
da curva PR (AUPR). AUPR é uma medida geral independente do desempenho de um
limiar em particular (Boyd et al., 2013).

2.1.2 Testes Estatı́sticos

A taxa de acerto, ou qualquer outra medida de desempenho, pode ser utilizada para
comparar dois algoritmos de aprendizagem em um mesmo conjunto de dados utilizando
um teste de hipóteses t-pareado (Mitchell, 1997). Com esse teste, é possı́vel avaliar se
houve diferença significativa entre o desempenho dos algoritmos para um determinado
conjunto de dados.
Para testes com múltiplos algoritmos e múltiplos conjuntos de dados utiliza-se o teste
não paramétrico de Friedman (Demšar, 2006), e com ele é possı́vel verificar se há ou
não diferenças significativas entre os diferentes classificadores para todos os conjuntos de
dados e algoritmos.
Caso o teste de Friedman rejeite a hipótese de que o desempenho dos classificadores
são equivalentes, é possı́vel usar testes post hoc para detectar essas diferenças, como o
teste de Nemeryi (Demšar, 2006).

11
2.2 Máquinas de Vetores de Suporte

As Máquinas de Vetores de Suporte (do inglês Support Vector Machiness (SVMs)) são
baseadas na Teoria do Aprendizado Estatı́stico (TAE), mais especificamente na Teoria
da Minimização do Risco Estrutural, como é descrito na Seção 2.2.1. Os vetores de
suporte utilizados pelas SVMs são exemplos que estão próximos da superfı́cie de decisão
e, portanto, são os mais difı́ceis de serem classificados. São esses exemplos que influenciam
diretamente na localização da superfı́cie de decisão.
As SVMs podem ser aplicadas em fronteiras linearmente separáveis (com margens
rı́gidas ou margens suaves) e não linearmente separáveis, como é descrito nas Seções 2.2.2
e 2.2.5.

2.2.1 Teoria do Aprendizado Estatı́stico

A TAE estabelece condições matemáticas que auxiliam na escolha de um classificador


dentre todos aqueles que poderiam ser induzidos. Essa escolha se baseia na complexidade
e no desempenho diante de um conjunto de treinamento, objetivando um bom desempenho
diante de novos exemplos.
Na TAE assume-se que os dados são gerados de maneira independente e identicamente
distribuı́da (i.i.d.) de acordo com uma distribuição de probabilidade que descreve a relação
entre o objeto e seu rótulo.
O erro e a função risco de um classificador são medidas baseadas em uma função
de perda (loss function). Segundo (Faceli et al., 2011) o erro de um classificador pode
ser medido através da sua capacidade de generalização. Por exemplo, em um problema
de classificação binária quando um exemplo é classificado erroneamente é contabilizada
uma perda de 1, caso contrário, não há penalidade. Desta maneira não se faz distinção
entre as diferentes classes e tipos de erros (falso positivo ou negativo), como mostra as
Equações 2.8 e 2.9 respectivamente.

(
0 se a classe real é igual a classe predita
Custo = (2.8)
1 se a classe real é diferente da classe predita

X
Erro = Custo (2.9)

Uma extensão pode ser feita variando a função que representa a dependência de en-
trada, neste caso chamada de risco. O princı́pio da indução pode ser usado para inferir
uma função que minimize o erro nos dados de treinamento e também o erro sobre no-
vos dados. Esse procedimento constitui o princı́pio de minimização do risco empı́rico

12
(medida de desempenho do classificador nos dados de treinamento, por meio da taxa de
classificações incorretas).
Para conjuntos de dados suficientemente grandes é possı́vel estabelecer condições para
que o algoritmo de aprendizado possibilite a geração de classificadores cujos valores de
risco empı́rico convergem para o risco esperado, também conhecido como risco estrutural,
(medida de desempenho do classificador nos dados de teste, por meio da taxa de classifi-
cações incorretas). Isso é possı́vel, pois a TAE provê diversos limites no risco esperado de
uma função de classificação, os quais podem ser utilizados na escolha do classificador (Fa-
celi et al., 2011).
A relação entre risco esperado, risco empı́rico e um terceiro termo de capacidade de
generalização é um limite importante fornecido pela TAE. Sua principal contribuição está
em afirmar a importância de se controlar a capacidade do conjunto de funções do qual o
classificador é induzido. Assim, define-se o princı́pio de indução chamado minimização do
risco estrutural, que busca a função de menor complexidade possı́vel que tenha um baixo
erro para os dados de treinamento.
Na prática encontrar este limite não é uma tarefa trivial, por isso existem algumas
alternativas. Para funções de decisões lineares, por exemplo, há resultados que relacionam
o risco esperado ao conceito de margem, também chamada de margem de confiança. A
margem de confiança tem relação com a sua distância à fronteira de decisão induzida, e é
uma medida da confiança da previsão do classificador. Assim, também é possı́vel calcular
o risco, ou erro marginal, de uma função sobre um conjunto de treinamento. O erro vai
fornecer a proporção de exemplos de treinamento cuja margem de confiança é inferior a
uma determinada constante.

2.2.2 SVMs Lineares

Para o problema da classificação binária, o princı́pio das SVMs está em encontrar um


hiperplano ótimo que separe satisfatoriamente os dados de entrada. O hiperplano ótimo
é definido como aquele para o qual a margem de separação entre as classes é maximizada.
Utilizando o hiperplano as SVMs são capazes de classificar apenas conjuntos de entrada
linearmente separáveis. Um exemplo de hiperplano ótimo e os vetores de suporte para
exemplos linearmente separáveis estão ilustrados na Figura 2.5.
Quando essas classes não podem ser separadas satisfatoriamente por um hiperplano, as
SVMs podem ser generalizadas. Isso pode ser feito com o uso de funções de mapeamento
no domı́nio do espaço de entrada. Por meio dessas funções, cada exemplo do conjunto de
treinamento é mapeado para um novo espaço, o espaço de caracterı́sticas. Nesse espaço
os exemplos podem se tornar linearmente separáveis e então um hiperplano ótimo pode

13
Figura 2.5: Ideia de hiperplano ótimo para exemplos linearmente separáveis. Adaptado
de (Rossi, 2009).

ser encontrado, como será descrito na Seção 2.2.5.

2.2.3 SVMs com Margens Rı́gidas

As SVMs lineares com margens rı́gidas definem fronteiras lineares a partir de dados line-
armente separáveis. Elas possuem esse nome pois impõem restrições que asseguram que
não haja dados de treinamento entre as margens de separação das classes. Na Figura 2.6
é mostrada uma SVM linear com margens rı́gidas.

Figura 2.6: SVM com margens rı́gidas. Nenhum dos pontos, independente da classe,
ultrapassam as margens da região que separa as classes. Adaptado de (Faceli et al.,
2011).

14
O problema de otimização das margens é quadrático e pode ser resolvido com a intro-
dução de uma função lagrangiana (Cristianini and Shawe-Taylor, 2010). Essa formulação
é denominada forma dual, enquanto que o problema original é referenciado como forma
primal.
Classificadores que separam os dados por meio de um hiperplano são denominados
lineares, mas em situações reais é difı́cil encontrar aplicações cujos dados sejam linearmente
separáveis, devido a ruı́dos, outliers ou mesmo pela própria natureza do problema. Para
contornar esse problema, podemos usar SVMs com margens suaves, descritas a seguir.

2.2.4 SVMs com Margens Suaves

As SVMs com margens suaves são uma extensão das SVMs com margens rı́gidas, criadas
para lidar com conjuntos de treinamentos mais complexos. Para isso, permite-se que
alguns objetos possam violar as restrições que existem nas SVMs com margens rı́gidas.
Isso é feito com a introdução das variáveis de folga, que relaxam as restrições impostas
ao problema de otimização primal.
A aplicação desse procedimento suaviza as margens do classificador linear, permitindo
que alguns objetos permaneçam entre os hiperplanos e também a ocorrência de alguns
erros de classificação no conjunto de treinamento. Na Figura 2.7 é mostrada uma SVM
linear com margens suaves.

Figura 2.7: SVM com margens suaves. Alguns pontos, de ambas as classes, podem
ultrapassar a margem definida. A quantidade de pontos que podem ultrapassar a margem
é definida pela variável de folga, um parâmetro livre ajustado pelo usuário. Adaptado de
(Faceli et al., 2011).

Novamente, o problema de otimização das margens para esse caso é quadrático e a sua

15
solução também se dá através da introdução de uma função lagrangiana de otimização.
No entanto, o processo de otimização se torna mais custoso, e a definição das variáveis
de folga introduz outro parâmetro a ser ajustado. Esse parâmetro controla o número de
exemplos que podem violar as restrições criada pelos vetores de suporte.

2.2.5 SVMs Não Lineares

As SVMs lidam com problemas não lineares mapeando o conjunto de treinamento do seu
espaço original, referenciado como de entradas, para um novo espaço denominado espaço
de caracterı́sticas, de modo que o conjunto de treinamento no espaço de caracterı́sticas
possa, eventualmente, ser separado por SVMs lineares. Para isso é preciso que duas
condições sejam satisfeitas. A primeira é que a transformação seja não linear, enquanto
que a segunda é que a dimensão do espaço de caracterı́sticas, geralmente alta, permita
que os dados sejam linearmente separáveis. Na Figura 2.8 é mostrado um exemplo de
trasformação não linear gerada por uma função de kernel.

Figura 2.8: Transformação linear com a função de Kernel. A - Conjunto de dados não
linear, B - Fronfeira não linear no espaço de entradas, C - Fronteira linear no espaço de
caracterı́sticas. Adaptado de (Faceli et al., 2011).

Essa dimensão do espaço de caracterı́sticas pode acabar sendo muito alta, ou até
mesmo infinita, e a computação pode ser extremamente custosa e inviável. Além disso, a
escolha da função de mapeamento apropriada varia com o problema estudado. Porém, a
única informação necessária sobre o mapeamento é o cálculo de produtos escalares entre
os objetos no espaço de caracterı́sticas, como é mostrado na Equação 2.10. Isso é obtido
por meio das funções denominadas kernels que realizam esse cálculo. É comum utilizar a
função de kernel sem conhecer o mapeamento, que é gerado implicitamente. A utilidade
dos kernels está, portanto, na facilidade de seu cálculo e em sua capacidade de representar
espaços abstratos.

K(Xi, Xj) = Φ(Xi) • Φ(Xj) (2.10)

16
Dentre os kernels mais utilizados estão o linear, o polinomial, os de funções de base
radial (Radial Basis Function (RBF)) ou gaussiano e o sigmoidal. Cada kernel possui um
conjunto de parâmetros livres, ou seja, parâmetros cujos valores devem ser especificados
pelo usuário. Além disso, como descrito anteriormente, o parâmetro que controla a rigidez
das margens também precisa ser especificado. Esse é um parâmetro regulador que controla
o equilı́brio entre a complexidade do modelo e o número de exemplos não separáveis. A
escolha do kernel e dos parâmetros afeta o desempenho do classificador obtido, pois eles
influenciam na definição da fronteira de decisão induzida.

2.2.6 SVMs em Outros Problemas

As SVMs também podem ser utilizadas na solução de problemas de regressão e em agru-


pamento de dados (aprendizado não-supervisionado), entre outros. Contudo, o problema
de otimização para o seu treinamento deve ser reformulado para lidar com caracterı́sticas
e objetivos desses problemas.
O algoritmo Support Vector Regression (SVR) tem como objetivo encontrar uma fun-
ção que produza saı́das contı́nuas para os dados de treinamento que desviem no máximo
um valor constante do seu rótulo desejado (Perea, 2012). Essa função deve também ser
o mais uniforme e regular possı́vel. Ela deve aproximar os pares de treinamento com uma
precisão constante de tal modo que os dados de treinamento fiquem dentro da margem.
Analogamente ao caso das SVMs de margens suaves, esse problema pode ser relaxado
com a introdução de variáveis de folga, permitindo assim lidar com ruı́dos e outliers nos
objetos.
Como no caso das SVMs para classificação, monta-se o problema dual equivalente ao
anterior pelo uso da função lagrangiana. O resultado das derivações parciais é nulo e
substitui-se as expressões resultantes na equação lagrangiana inicial. O problema dual
obtido é descrito em termos de produtos internos entre objetos. Pode-se também recorrer
ao uso de kernels para realizar regressões não lineares.
As SVMs também podem ser utilizadas em problemas de aprendizagem não-supervi-
sionada. Neste caso, na primeira fase os vetores de suporte são gerados a partir da base
de dados e na segunda fase os vetores gerados são utilizados para criar os agrupamentos
(clusters) de dados (Burges, 1998).

2.2.7 Vantagens e Desvantagens das SVMs

Com princı́pios embasados na (TAE), as SVMs caracterizam-se por apresentar uma boa
capacidade de generalização. Elas também são robustas diante de conjuntos de dados
de grande dimensão, sobre os quais outras técnicas de aprendizado comumente obtêm

17
classificadores super ou subajustados. Outra caracterı́stica atrativa é a convexidade do
problema de otimização formulado em seu treinamento, que implica a existência de um
único mı́nimo global. Além disso, o uso das funções de kernel na linearização das SVMs
torna o algoritmo flexı́vel e eficiente, pois permite a construção de hiperplanos em um
espaço de alta dimensão de forma tratável do ponto de vista computacional.
Entre as principais limitações das SVMs encontram-se a sua sensibilidade a escolhas de
valores de parâmetros e a dificuldade de interpretação do modelo gerado por essa técnica.

2.3 Seleção do Modelo e Ajuste de Parâmetros

O problema de escolher o melhor entre os diversos modelos disponı́veis é chamado de


seleção de modelo. Para todos os casos, o objetivo é minimizar o erro de generalização,
pois minimizar o erro de treinamento pode causar overfitting, ou seja, o modelo pode
memorizar os exemplos do conjunto de treinamento ao invés de extrair suas caracterı́sticas
gerais, o que, por exemplo, prejudica o desempenho para novos exemplos. Na prática,
o problema de seleção de modelo pode ser reduzido ao ajuste dos valores de parâmetros
quando se tem algum conhecimento prévio do problema.

2.3.1 Ajuste de Parâmetros

Grande parte dos algoritmos de AM possuem parâmetros cujos valores devem ser espe-
cificados pelo usuário. Esses valores para os parâmetros livres, em geral, influenciam
diretamente no desempenho de modelos induzidos, o que pode ser entendido como uma
limitação das técnicas de AM. O objetivo do processo de ajuste desses parâmetros pode
ser visto como encontrar os valores mais adequados dos parâmetros livres para um de-
terminado conjunto de dados. O ajuste de parâmetros com o intuito de obter melhor
desempenho e maior robustez dessas técnicas é uma tarefa que exige conhecimento tácito,
e pode consumir muito tempo.
Para definir um conjunto de valores, as atuais técnicas de ajuste normalmente consi-
deram a interação entre o viés (bias) do algoritmo de indução e o conjunto de treinamento
disponı́vel. A melhor estratégia é obter valores dos parâmetros que funcionam bem para
o conjunto particular de dados que está sendo analisado ou pela utilização de técnicas de
amostragem (como a validação cruzada).
Uma abordagem bastante utilizada para definir os valores dos parâmetros livres é por
tentativa e erro, a qual exige conhecimento tácito. Além disso, a busca pelos melhores
valores para os parâmetros, geralmente, envolve a otimização por um grande espaço de
busca, o que torna esse problema muito custoso computacionalmente.

18
Um algoritmo de grid search pode ser usado para selecionar a melhor configuração
de parâmetros, dado um conjunto de possı́veis valores. Basicamente, os parâmetros são
organizados em grade, é usado a CV no conjunto de treinamento para encontrar a confi-
guração com melhores resultados. Porém, se o espaço de possibilidades for muito grande,
o custo computacional continua sendo alto.
Por essa razão, técnicas alternativas de otimização têm sido aplicadas para ajustar
de forma automática os parâmetros livres dos algoritmos de AM. Algumas dessas téc-
nicas têm obtidos resultados promissores, como Algoritmos Genéticos (AG), Simulated
Annealing (Kirkpatrick et al., 1983), Tabu Search (Glover, 1997) e Particle Swarm
Optimization (PSO).

2.3.2 Ajuste de Parâmetros de SVMs

O desempenho das SVMs é diretamente influenciado pela escolha da função de kernel e


os valores de seus parâmetros. O conhecimento sobre o domı́nio pode auxiliar na escolha
da função de kernel apropriada, reduzindo o problema de seleção de modelo para o ajuste
de parâmetros.
Para o ajuste de parâmetros de SVMs, métodos de otimização baseados no gradiente
são muito utilizados (Imbault and Lebart, 2004). Segundo os autores, esses métodos não
resolvem totalmente o problema, a menos que um ponto inicial seja conhecido. O problema
de ajuste de parâmetros apresenta mı́nimo local e se comparam a métodos clássicos de
ajuste que utilizam busca local com AGs e Simulated Annealing, que são métodos de
minimização global. Os resultados mostraram que os dois métodos citados obtiveram
soluções próximas da ótima de forma mais robusta e eficiente.
AGs também foram utilizados em (Lorena and de Carvalho, 2006), para ajustar os
parâmetros de SVMs multiclasses com kernel gaussiano. Foram obtidas maiores taxas
de acerto utilizando AGs se comparado aos resultados obtidos utilizando-se valores fixos
para os parâmetros.
Em (Huang and Wang, 2006) e (de Souza and de Carvalho, 2004) os AGs também
foram utilizados para selecionar caracterı́sticas (atributos) de conjuntos de dados e ajustar
parâmetros de SVMs simultaneamente. No primeiro caso, foram realizados testes utili-
zando vários conjuntos de dados e a abordagem baseada em AGs teve boa taxa de acerto
se comparada com a técnica grid search. No segundo caso, foi utilizado um conjunto de
dados de expressão gênica e os resultados obtidos foram equivalentes a outros encontrados
na literatura.
A técnica PSO foi utilizada em (de Souza et al., 2006) para ajustar parâmetros de
SVMs multiclasses com kernel gaussiano. Foram testadas quatro bases de dados e os

19
resultados obtidos foram comparados com os obtidos por outras técnicas de ajuste. Essas
técnicas foram denominadas grid search, que usa a busca exaustiva; Naive, que usa os
mesmos valores padrões da biblioteca LIBSVM para todas as SVMs binárias; e Global,
que usa um conjunto de validação para estimar o erro de generalização. As técnicas PSO e
Global conseguiram os menores erros de classificação para uma base, enquanto que a grid
search obteve melhores resultados para as outras duas bases. Apesar disso, os resultados
obtidos pela PSO ficaram próximos aos melhores alcançados e não foi possı́vel determinar
o melhor método para todas as bases de dados testadas.

2.4 Transferência de Aprendizado

Pesquisas sobre transferência de aprendizado têm atraı́do cada vez mais atenção nas últi-
mas décadas com diferentes nomes: aprender a aprender, aprendizagem ao longo da vida,
transferência do conhecimento, transferência supervisionada, aprendizagem multitarefa,
consolidação do conhecimento, aprendizagem sensı́vel ao contexto, viés indutivo baseada
no conhecimento, meta-aprendizagem e aprendizagem incremental/cumulativa. Entre es-
ses, uma técnica de aprendizagem relacionada de perto à transferência de aprendizado é
a estrutura de aprendizagem multitarefa, que tenta aprender várias tarefas simultanea-
mente, mesmo quando elas são diferentes (mas com alguma semelhança entre si). Uma
abordagem tı́pica para aprendizagem multitarefa é descobrir as caracterı́sticas em comum
(latentes) que podem beneficiar cada tarefa individualmente.
Apesar de ser uma área de pesquisa que começou a ser explorada recentemente, na
Figura 2.9 é ilustrado o crescimento de trabalhos publicados sobre o assunto em diversas
conferências de áreas relacionadas. Os gráficos foram criados a partir da lista disponibili-
zada no site de um autor da área2 , que compila trabalhos relacionados à transferência de
aprendizado.
Segundo (Pan and Yang, 2010), em transferência de aprendizado são abordados três
principais questões: o que transferir, como transferir, e quando transferir. Podemos cate-
gorizar a transferência de aprendizado em três subconfigurações: transferência de apren-
dizado supervisionada, transferência de aprendizado semi-supervisionada e transferência
de aprendizado não supervisionada. As abordagens para transferir o aprendizado nas
três configurações diferentes mostradas acima podem ser resumidas em quatro casos com
base em “O que transferir”: transferindo conhecimento dos exemplos, transferindo conhe-
cimento da representação de caracterı́sticas, transferindo conhecimento de parâmetros e
transferindo conhecimento relacional.
“O que transferir” corresponde a que parte do conhecimento que pode ser transferida
2
http://www1.i2r.a-star.edu.sg/~jspan/conferenceTL.htm, consultado em Outubro de 2013

20
(a) Aprendizado de Máquina e Inteligência Artificial

(b) Mineração de Dados (c) Aplicações Web

(d) Aplicações de Processamento de Lı́ngua (e) Aplicações de Imagem/Vı́deo


Natural

(f) Aplicações em Bioinformática (g) Outras

Figura 2.9: Conferências com trabalhos sobre transferência de aprendizado

através de domı́nios ou tarefas. Alguns conhecimentos são especı́ficos para domı́nios ou


tarefas individuais, e alguns conhecimentos podem ser comuns entre diferentes domı́nios

21
de tal modo que eles podem ajudar a melhorar o desempenho do domı́nio ou tarefa des-
tino. Depois de descobrir qual o conhecimento que pode ser transferido, os algoritmos de
aprendizagem precisam ser desenvolvidos para transferir o conhecimento, que corresponde
a questão de “Como Transferir”.
“Quando Transferir” pergunta em que situações a transferência de habilidades deve
ser feita. Também é interessante saber em quais situações o conhecimento NÃO deve
ser transferido. Em algumas situações, quando o domı́nio de origem e destino não estão
relacionados um com o outro, a transferência por força bruta pode não ser bem sucedida.
No pior dos casos, isso pode prejudicar o desempenho do aprendizado do domı́nio destino,
uma situação que é muitas vezes referida como transferência negativa. A maioria dos
trabalhos em curso sobre transferência de aprendizado centra-se em “O que transferir” e
“Como Transferir”, assumindo implicitamente que o domı́nio de origem e destino devem
estar relacionados um com o outro. Entretanto, como evitar a transferência negativa é
uma importante questão em aberto que está atraindo mais e mais atenção.

2.4.1 Configurações de Transferência de Aprendizado

Baseado na definição de transferência de aprendizado há três configurações: transferên-


cia de aprendizado supervisionada, transferência de aprendizado semi-supervisionada e
transferência de aprendizado não supervisionada. Basicamente, com relação à transfe-
rência de parâmetros, a maioria das abordagens assume que os modelos individuais para
tarefas relacionadas devem compartilhar alguns parâmetros ou distribuições a priori de
hiperparâmetros, como por exemplo o Kernel. A maioria dessas abordagens é baseada no
conceito de multitarefa (Multi-Task Learning (MTL)), que tenta aprender conjuntamente
os modelos para o domı́nio origem e o domı́nio destino, enquanto que em transferência
de aprendizado o objetivo é incrementar o desempenho do domı́nio destino utilizando in-
formação a respeito do domı́nio origem. Na Figura 2.10 é mostrada a visão geral dessas
configurações que serão detalhadas a seguir.

1. Na transferência de aprendizado supervisionado a tarefa destino é diferente da tarefa


de origem, não importa quanto origem e destino são semelhantes ou não. Nesse caso,
alguns dados rotulados no domı́nio origem são requeridos para induzir o modelo
preditivo objetivo para uso no domı́nio destino. Adicionalmente, de acordo com
diferentes situações de dados rotulados e não rotulados do domı́nio origem, foram
categorizados dois casos de configuração de transferência de aprendizado:

(a) Muitos dados rotulados no domı́nio origem estão disponı́veis. Nesse caso, a
configuração de transferência de aprendizado supervisionada é similar à con-
figuração de transferência de aprendizado multitarefas. Entretanto, a trans-

22
Figura 2.10: Visão Geral das configurações da Transferência de Aprendizado

ferência de aprendizado supervisionada somente visa atingir alto desempenho


na tarefa de destino através da transferência de aprendizado a partir da tarefa
origem, enquanto a aprendizagem multitarefa visa aprender a tarefa de origem
e destino simultaneamente.
(b) Não há dados rotulados no domı́nio de origem. No caso dessa configuração,
a transferência de conhecimento indutivo é similar à configuração do aprendi-
zado autodidata. Na configuração de aprendizado autodidata, os espaços de
rótulos entre domı́nio de origem e domı́nio de destino podem ser diferentes, o
que implica em informação lateral do domı́nio origem não pode ser usada dire-
tamente. Assim, é semelhante à configuração de transferência de aprendizado
supervisionada onde os dados rotulados no domı́nio origem estão disponı́veis.

2. Na configuração de transferência de aprendizado semi-supervisionada, as tarefas de


origem e destino são as mesmas, enquanto que o domı́nio de origem e destino são
diferentes. Nessa situação, os dados não rotulados do domı́nio de destino estão
disponı́veis, enquanto muitos dados rotulados do domı́nio de origem também estão
disponı́veis. Além disso, de acordo com as diferentes situações entre os domı́nios de
origem e destino, pode-se ainda classificar a definição de transferência de aprendi-
zado semi-supervisionada em dois casos.

(a) Os espaços de caracterı́sticas entre os domı́nios de origem e destino são dife-


rentes.

23
(b) Os espaços de caracterı́sticas entre os domı́nios são os mesmos, mas as distri-
buições de probabilidade marginais dos dados de entrada são diferentes.

3. Finalmente, na transferência não supervisionada, a definição de aprendizagem é


semelhante à de transferência de aprendizagem supervisionada. A tarefa destino é
diferente, mas relacionada com a tarefa de origem. No entanto, o foco na transferên-
cia não supervisionada é a resolução de tarefas de aprendizagem não supervisionadas
no domı́nio destino, como clusterização, redução de dimensionalidade e estimativa
de densidade. Neste caso, não existem dados rotulados disponı́veis em ambos os
domı́nios, de origem e destino, de formação.

Na Figura 2.11 é ilustrada uma das possı́veis configurações de transferência de apren-


dizado. Neste caso, um exemplo de transferência de aprendizado não supervisionado
adaptado de uma vı́deo aula do projeto Cha Learn3 disponı́vel no Youtube4 , no qual
no domı́nio de origem temos um conjunto de imagens de gatos e a tarefa respectiva a
esse domı́nio é identificar gatos em diferentes fotos. Para realizar essa tarefa, pequenas
caracterı́sticas das imagens do domı́nio de origem são extraı́das e um processador (P) é
criado. O reconstrutor (R) é construı́do unindo as pequenas caracterı́sticas que, juntas,
representam esse felino. Assim, é possı́vel analisar diferentes imagens e tentar reconhecer
as caracterı́sticas dos gatos nelas. A transferência de aprendizado ocorre quando o pro-
cessador (P) com as pequenas caracterı́sticas encontradas nos gatos é usado no segundo
domı́nio, que contém um conjunto de imagens de outros felinos (por exemplo, tigres) e
a tarefa respectiva a este domı́nio é identificar tigres em diferentes fotos. Como ambos
os domı́nios tratam imagens de felinos, assume-se que existe similaridade entre eles e
que, portanto, as pequenas caracterı́sticas podem ser compartilhadas. Assim, poupa-se o
tempo de extração de pequenas caracterı́sticas dos tigres e a classificação continua sendo
viável.
Neste trabalho investigamos os possı́veis ganhos que a transferência de parâmetros
pode proporcionar para um algoritmo de AM. A maioria das abordagens de transfe-
rência de parâmetros em transferência de aprendizagem supervisionada assume que os
modelos individuais para tarefas relacionadas devem compartilhar alguns parâmetros ou
distribuições de fronteiras de decisão similares. A maior parte das abordagens descritas
na litetura para este caso de transferência é projetada para trabalhar sob aprendizagem
multitarefa (Pan and Yang, 2010), em que o objetivo é descobrir os requisitos em co-
mum (latentes) que podem beneficiar cada tarefa individualmente. Dessa maneira, a
aprendizagem multitarefa tenta aprender simultaneamente a tarefa tanto do domı́nio de
origem, como de destino, enquanto a transferência de aprendizagem só visa impulsionar
a aprendizagem usando o conhecimento do domı́nio de origem para o domı́nio de destino.
3
http://www.chalearn.org/
4
http://www.youtube.com/watch?v=9ChVn3xVNDI

24
Figura 2.11: Exemplo de Configuração de Transferência de Aprendizado Não-
Supervisionada

2.5 Trabalhos Relacionados - Ajuste de Parâmetros


com Transferência de Conhecimento

Nesta Seção são apresentados alguns trabalhos que envolvem algum tipo de aproveita-
mento e/ou transferência de aprendizado entre domı́nios para o ajuste de parâmetros.
Em (Ali and Smith-Miles, 2006) foi introduzido um novo método para seleção automá-
tica de kernel, com resultados empı́ricos baseados em classificação. O estudo empı́rico foi
conduzido utilizando-se 5 kernels com 112 problemas de classificação diferentes. Foi ava-
liado o desempenho dos kernels em termos de medida de acurácia. Também foi utilizado
meta-aprendizado baseado em regras para selecionar o kernel mais apropriado para um
problema de classificação. As regras são geradas por um algoritmo de árvore de decisão
C5.0 e avaliados com 10 folds de validação cruzada.
Em (de Miranda et al., 2012) foi utilizado PSO aplicado ao problema de seleção de
parâmetros de SVMs. Como os sistemas de aprendizagem são essencialmente problemas
multi-objetivo, o PSO multi-objetivo (MOPSO) foi utilizado para maximizar a taxa de
sucesso e minimizar o número de modelos dos vetores de suporte. Eles usam a combi-
nação de meta-aprendizagem com o MOPSO com o mecanismo de distância acumulada
(MOPSO-CDR). Nessa combinação, as soluções fornecidas pela meta-aprendizagem es-
tão possivelmente localizadas em boas regiões no espaço de busca. Consequentemente,
utilizando um número reduzido de candidatos, o processo de pesquisa converge mais ra-
pidamente e é menos dispendioso. Os resultados do algoritmo foram comparados com e
sem a inicialização da meta-aprendizagem em 40 problemas de classificação.
Em (Reif et al., 2012) foram utilizadas ideias de meta-aprendizagem e raciocı́nio

25
baseado em casos para fornecer bons pontos de partida para o algoritmo genético para
encontrar bons parâmetros para SVMs e Random Forest. A abordagem apresentada atinge
a acurácia do Grid Search a um custo computacional significativamente mais baixo. Os
resultados experimentais com 100 bases de dados mostram que o método obteve a maior
precisão média para ambos os classificadores.

2.6 Medidas de Complexidade de Domı́nios

O comportamento dos classificadores é fortemente dependente da complexidade dos da-


dos (Sotoca et al., 2006), por isso vários trabalhos recentes tem introduzido o uso de
medidas de complexidade de dados para caracterizar o desempenho de classificadores.
Nesta monografia, as medidas de complexidade são usadas para medir a similaridade
entre bases de dados. Em outras palavras, para medir indiretamente o quão duas bases
de dados são similares entre si. Dessa maneira, é possı́vel identificar, a partir de um
repositório de bases de dados, candidatas a domı́nio de origem, com o intuito de transferir
as melhores configurações de parâmetros para o domı́nio de destino.
A maioria das medidas que serão descritas são definidas apenas para duas classes, em-
bora em muitos casos é possı́vel generalizar o problema para muitas classes. Uma medida
natural da complexidade de um problema é a taxa do erro associada ao classificador. En-
tretanto, essa medida depende da execução do algoritmo para a indução do classificador,
de maneira que também é importante a utilização de outras medidas que são menos de-
pendentes do classificador escolhido. Essas medidas alternativas podem ser usadas como
um guia para selecionar um classificador particular para um dado problema.
As medidas usadas neste trabalho serão descritas a seguir.

2.6.1 Medidas de sobreposição

Essas medidas focam principalmente na eficácia de uma única dimensão de caracterı́sticas


que separa as classes. Essa medida examina o alcance e a propagação de valores na
configuração de dados correspondente a cada caracterı́stica, e verifica sobreposições entre
diferentes classes.
Como exemplo, pode-se citar a relação entre os discriminantes de Fisher (F1), que cal-
cula quão separadas são duas classes de acordo com uma caracterı́stica especı́fica, como
mostra a Equação 2.11, em que µ1 , µ2 , σ1 e σ2 , são as médias e as variâncias da caracte-

26
rı́stica para cada classe, respectivamente.

(µ1 − µ2 )2
F1 = (2.11)
σ12 + σ22

Outro exemplo é a volume da região sobreposta (F2), que calcula, para cada caracte-
rı́stica, o comprimento da sobreposição propagada normalizada pelo comprimento total da
propagação de todos os valores que ambas as classes estão distribuı́das. Em seguida, o vo-
lume da região de sobreposição é obtido com o produto normalizado dos comprimentos de
propagação de sobreposições para todas as caracterı́sticas, como mostra a Equação 2.12,
onde K varia de 1 ao número de dimensões do problema e

minmaxk = min{max(FK , C1 ), max(FK , C2 )}


maxmink = max{min(FK , C1 ), min(FK , C2 )}
maxmaxk = max{max(FK , C1 ), max(FK , C2 )}
minmink = min{min(FK , C1 ), min(FK , C2 )}

em que max(FK , Cl ) (min(FK , Cl )) é o valor máximo (mı́nimo) da caracterı́stica FK da


classe Cl . Assim

Y minmaxk − maxmink
F2 = (2.12)
K
maxmaxk − minmink

Outro exemplo é a eficácia da caracterı́stica (F3). Em problemas de alta dimensão, é


importante saber quanta informação discriminatória está distribuı́da sobre as caracterı́s-
ticas. Neste contexto, tem que ser usada a medida de eficácia individual de caracterı́sticas
que descreve quanto cada caracterı́stica contribui para a separação em duas classes.
Pode-se usar um procedimento que progressivamente remove pontos que não se re-
petem e que caı́ram fora da região de sobreposição de cada dimensão. A eficácia da
caracterı́stica é definida como uma fração de todos os pontos remanescentes que podem
separar a caracterı́stica. Para um problema de duas classes, a eficácia máxima de carac-
terı́stica (isto é, a maior fração de pontos distintos usados em apenas uma caracterı́stica)
é usada como uma medida de sobreposição. Mais detalhes sobre a medida F3 pode ser
encontrada em (Ho and Baird, 1998).

2.6.2 Medidas de separabilidade das classes

Essas medidas avaliam até que ponto duas classes são separáveis examinando a existência
e a forma da fronteira das classes.

27
Como exemplo, pode-se citar as medidas de distância probabilı́stica. O erro de Bayes
é teoricamente tido como a melhor estimativa para descrever a separabilidade de classes.
Entretanto, ele é difı́cil de se usar na prática porque é computacionalmente complexo
de calcular e muitas vezes é empiricamente e não analiticamente derivado. Nessas situa-
ções, algumas distâncias de probabilidades estatı́sticas tais como Bhattacharya, Chernoff,
Mahalanobis e Matusita, proporcionam um limite superior e inferior para o erro de Bayes.
Outro exemplo é a separação linear, a probabilidade máxima da classificação correta
quando use-sa um hiperplano para separar as classes. Nos problemas de duas classes,
essas medidas representam a probabilidade de sobreposição se cada classe é distrubuı́da
em uma região convexa. Classificadores lineares podem ser obtidos por programação
linear, maximizando a soma das distâncias dos pontos de erros para o hiperplano de
separação (subtraindo uma margem constante):
minimize at .t
sujeito a Z t .w + t− ≥ b
t-≥0
onde a e b são vetores de constantes arbitrárias, w é o peso do vetor, t é o erro do vetor
e Z é uma matriz onde cada coluna z é definida como um vetor x de entrada e c (com
valor c1 ou c2 ) é a classe, como mostrado nas Equações 2.13 e 2.14:

z = +x se c = c1 (2.13)

z = −x se c = c2 (2.14)

O valor objetivo é utilizado como uma medida de separabilidade da classe (L1). Ele é
igual a zero para o problemas linearmente separáveis. Nota-se que esta medida pode ser
fortemente influenciada pela presença de outliers no conjunto de dados. Por outro lado,
a segunda medida (L2) simplesmente corresponde à taxa de erro do classificador linear
(que é definido por L1) sobre o conjunto de treino inicial.
Outro exemplo é a fração do limite de pontos da classe (N1). Em (Friedman and
Rafsky, 1979) foi proposto um teste para avaliar se duas amostras são da mesma dis-
tribuição. Ele é útil para decidir se os pontos rotulados como duas classes diferentes
formam distribuições separáveis. Este método é baseado na construção da árvore gera-
dora mı́nima (Minimum Spanning Tree (MST)), conectando todos os pontos no conjunto
de dados aos seus vizinhos mais próximos. Para se calcular N1, computa-se o número de
arestas conectadas a dois pontos de classes diferentes. Estes pontos são considerados por
estarem próximos à fronteira da classe. N1 é computada como uma fração de tais pontos

28
na fronteira sobre o total de pontos nos dados.
Outro exemplo é a separabilidade não-paramétricas das classes. A primeira medida
(N2) é a razão entre a distância média para a o vizinho mais próximo intraclasse e a
distância média para o vizinho mais próximo interclasse. Ela compara a dispersão intra-
classes com a separabilidade interclasse. Valores menores sugerem mais discriminação de
dados.
Seja N1= (xi ) e N16= (xi ) o vizinho mais próximo intraclasse e o vizinho mais próximo
interclasse de um dado exemplo xi , respectivamente. Então, N2 pode ser calculado como
é mostrado na Equação 2.15:

Pn
δ(N1= (xi ), xi )
N 2 = Pni=1 (2.15)
i=1 δ(N16= (xi ), xi )

onde δ é a medida de distância (geralmente Euclidiana).


A proximidade de pontos na classe oposta afeta a taxa de erro do classificador do
vizinho mais próximo. Então, N3 corresponde simplesmente a taxa estimada de erro da
regra de decisão do vizinho mais próximo pelo método de amostragem leaving-one-out.

2.6.3 Medidas de geometria e densidade

Essas medidas destinam-se a descrever a geometria das variadas formas abrangidas por
cada classe.
Como exemplo, pode-se citar E-Vizinhança (T1), que contam o número de cı́rculos
necessários para cobrir cada classe, sendo cada cı́rculo centrado no ponto de treinamento e
crescendo ao tamanho máximo (em unidades de E) antes dele alcançar um ponto de outra
classe. Cı́rculos redundantes localizados completamente no interior de outros cı́rculos são
removidos. Essa contagem é normalizada pelo total de número de pontos. Isso provê
uma descrição interior em vez de uma descrição de fronteira, como é dada por medidas
baseadas em MST.
Outro exemplo é o número médio de pontos por dimensão (T2), que contribui para
entender o comportamento de alguns problemas de classificação. Assim T2 descreve a
densidade de distribuições espaciais de amostra pela computação do número de exemplos
no conjunto de dados sobre o número de dimensões:

n
T2 = (2.16)
d
no qual n é o número de pontos e d é a dimensão do espaço de caracterı́sticas.

29
Outro exemplo é a densidade (D1), que representa o volume médio ocupado por k
vizinhos mais próximos de cada exemplo de treino. Dado Nk (xi ) ser o conjunto de k
vizinhos mais próximos de um dado exemplo (xi ,wi ), então o volume pode ser definido,
como mostrado na Equação 2.17:

d
Y
Vi = (max(fh , Nk (xi )) − min(fh , Nk (xi ))) (2.17)
h=1

onde max(fh , Nk (xi )) e min(fh , Nk (xi )) representam os valores máximos e mı́nimos da


caracterı́stica fh entre os k vizinhos mais próximos do exemplo xi .
A partir disso, o volume da vizinhança local pode ser expresso como o valor médio de
Vi para n exemplos de treinamento, como mostrado na Equação 2.18.

n
1X
D2 = Vi (2.18)
n i=1

Outra medida é a densidade da região de sobreposição das classes (D3), que determina
a densidade de cada classe nas regiões de sobreposição. No geral, regiões de sobreposição
contêm os casos mais crı́ticos para tarefas de classificação e consequentemente resultam
nos maiores erros de classificação. Tendo isso em conta, foi proposto uma nova medida
de densidade de classes em regiões de sobreposição, a D3.
D3 pode ser medida contando, para cada classe, o número de pontos localizados na
região de algumas classes diferentes. Para este fim, primeiro encontra-se os vizinhos
próximos de cada exemplo (xi ,wi ). Então se a maioria desses k vizinhos pertence a
classe diferente de wi , podemos considerar que (xi ,wi ) está localizado em uma região de
sobreposição. Quanto maior o valor de D3 para uma dada classe, menor o número de
exemplos de cada classe na região de sobreposição.
Outros dois exemplos de medidas (L3,N4) são baseados na não-linearilidade. Em (Ho-
ekstra and Duin, 1996) foi proposto uma medida para não-linearidade de um classificador
que respeita um determinado conjunto de dados. A primeira medida trabalha com um
classificador linear e a segunda com o algoritmo KNN. Para o conjunto de treinamento,
o primeiro método gera um teste por interpolação entre pares de pontos selecionados
aleatoriamente pertencentes a mesma classe. Então, a taxa de erro do classificador é
mensurada.

30
2.6.4 Medidas Estatı́sticas

No projeto Statlog (King et al., 1995), várias técnicas de classificação foram aplicadas em
22 conjuntos de dados. Esses conjuntos foram descritos em termos de várias estatı́sticas,
tentando predizer a aplicabilidade de um classificador baseado em certos dados caracte-
rı́sticos. (Statlog é um acrônimo para o projeto ESPRIT (1990-1993) envolvido em testes
de comparações de estatı́sticas e algoritmos de aprendizado de máquinas lógicas).
Entre outros, as seguintes estatı́sticas descritivas e multi-variáveis foram usadas para
sumarizar os conjuntos de dados no projeto Statlog: número total de exemplos em todo
um conjunto de dados, número de padrões de treinamento, número de atributos binários,
número de classes, coeficiente médio de correlação absoluta entre duas caracterı́sticas,
média assimétrica de caracterı́sticas, curtose média de caracterı́sticas, entropia média de
caracterı́sticas discretos e informação mútua de classe e caracterı́stica.
Essas e outras medidas descritivas e estatı́sticas ainda podem ser aplicadas a caracte-
rização de dados como ferramenta para predizer os classificadores mais apropriados para
um problema particular.

2.7 Considerações Finais

Neste capı́tulo foi abordado os principais tópicos da teoria envolvida neste trabalho. Tópi-
cos como o Problema de Classificação, Teoria do Aprendizado Estatı́stico, SVMs, Seleção
de Modelo, Ajuste de Parâmetros, Transferência de Aprendizado e Medidas de Comple-
xidade foram descritos e referenciados em trabalhos relevantes. No próximo capı́tulo será
apresentado a abordagem proposta para o desenvolvimento deste trabalho.

31
32
Capı́tulo 3

Abordagem Proposta

3.1 Motivação

Como descrito anteriormente, o ajuste de parâmetros em algoritmos de AM pode ter


um grande impacto no desempenho desses algoritmos. Além disso, o trabalho de ajuste
de parâmetros é normalmente custoso computacionalmente e pode requerer conhecimento
tácito do domı́nio de aplicação para direcionar a busca pelo espaço de parâmetros. Apesar
do relativo sucesso de técnicas de busca informada e não informada para o ajuste de
parâmetros, essa abordagem ainda é dependente do domı́nio, sendo necessário um ajuste
de parâmetros para cada novo domı́nio a ser aplicado. Além disso, métodos informados
de busca podem requerer o ajuste de novos parâmetros dos métodos de busca para ter
sucesso.
É interessante, portanto, investigar métodos que possam aproveitar o conhecimento e
esforço utilizados para o ajuste de parâmetros em um domı́nio para um outro domı́nio
semelhante. Neste trabalho investigamos o uso de técnicas de tranferência de aprendizado
para o problema de ajuste e otimização de parâmetros em algoritmos de aprendizado
de máquina, em especial para SVMs. O propósito do trabalho consiste em investigar
maneiras de transferir conhecimento de um domı́nio origem para um domı́nio alvo, com
o intuito de diminiur o custo do processo de ajuste de parâmetros no domı́nio alvo.
Uma possı́vel abordagem é construir uma meta-base com diversos domı́nios de origem
e extrair meta-informação a respeito desses domı́nios. Nesses domı́nios seriam feitas bus-
cas mais completas a priori, armazenando-se possı́veis configurações de parâmetros mais
promissoras. Assim, quando quisermos realizar busca por parâmetros em um domı́nio
alvo, farı́amos uma busca na base de domı́nios de origem pelos domı́nios mais similares
com respeito à meta-informação contida na base, e usarı́amos as configurações de parâ-
metros mais promissoras para iniciar a busca no domı́nio alvo. Essa é a estratégia de ação
adotada neste trabalho.

33
A fim de avaliar a viabilidade da proposta, criamos um repositório com diversas bases
dados. Para uma determinada base de dados destino, vasculhamos o repositório em busca
da base de dados mais similar. As mesmas bases foram submetidas ao algoritmo SVM,
cada uma com uma grande variação de parâmetros pré-calculados anteriormente, para
que o desempenho de cada combinação em cada base de dados pudesse ser avaliado. O
parâmetro referente ao Kernel foi fixado com o RBF (valor default do parâmetro neste
algoritmo) para todos os testes executados.
Uma vez identificada a base mais semelhante por meio dos meta-atributos, avalia-se
as melhores configurações de parâmetros da base mais semelhante provê informação útil
para encontrar as melhores configurações de parâmetros na base alvo. O procedimento
descrito é ilustrado na Figura 3.1 no qual os parâmetros a serem ajustados são C e σ para
o Kernel Gaussiano (RBF), e será melhor detalhado a seguir.
Como é mostrado na Figura 3.1, dado um conjunto de bases de dados disponı́veis em
um repositório e uma base de dados de destino, procura-se pela base de dados de origem
no repositório. A escolha da base origem é feita por meio da base mais similar, de acordo
com os meta-atributos que descrevem a complexidade das bases de dados.
O desempenho de diversas configurações de parâmetros para a SVM já estão pré-
calculados. Na figura estão representadas as configurações dos parâmetros custo C e
amplitude do kernel σ, com três possı́veis valores (arbitrários, apenas para ilustração)
para cada um desses parâmetros. Para fins de explicação, foi adotado um esquema do
coloração em que os melhores desempenhos estão em tons mais avermelhados, e os piores
em azulados, em um degrade passando pelo branco.
As cofigurações de parâmetros são ordenadas de acordo com o desempenho no conjunto
origem, e são transferidas nessa ordem para o conjunto de destino. Essa ordem é usada
como sugestão para guiar a busca das melhores configurações no conjunto de destino. Em
outras palavras, os parâmetros que obtiveram os melhores resultados na base de dados de
origem serão testados na base de dados de destino. Como mostrado na figura, espera-se
que as melhores configurações no conjunto de origem possam sugerir boas configurações
no conjunto de destino.
Uma possı́vel visualização da aplicação desta ideia pode vista na Figura 3.2, na qual o
desempenho do classificador em cada uma das combinações de parâmetros C e σ foi plo-
tado em gráficos individuais para cada base de dados e para cada medida de desempenho
dos classificadores gerados. No gráfico do tipo “mapa de calor” os eixos x e y representam
a variação dos parâmetros σ e C, respectivamente, e a escala de cores representa o de-
sempenho do classificador gerado com SVM para aquela configuração de parâmetros para
uma certa medida de desempenho (neste caso, as medidas AUC, ACC, F1 e AUPR da
base de dados Bupa). Tons avermelhados indicam melhor desempenho, branco indica de-

34
Figura 3.1: Etapas da Abordagem Proposta

sempenho intermediário e tons azulados os piores desempenhos para cada configuração de


parâmetros. É possı́vel observar que o desempenho da base de dados Bupa é semelhante
ao desempenho da base de dados Credit-g (a base de dados mais similar no repositório)

35
para as quatro medidas de desempenho. Porém, o desempenho da base de dados Bupa
é menos semelhante ao desempenho da base de dados Breast-cancer-w (a base de dados
menos similar no repositório), nas quatro medidas de desempenho.

Figura 3.2: Visualização da Abordagem Proposta

3.2 Considerações Finais

Neste capı́tulo foram discutidos os principais aspectos que motivaram o desenvovlimento


deste trabalho. Como pôde ser visto no mapa de calor da Figura 3.2 em que mostramos
uma possı́vel realização da abordagem, dentre as combinações de parâmetros testadas para
cada base de dados, as configurações mais promissoras da base de origem coincidem, em
grande parte, com a base de destino. Assim, a transferência de parâmetros é promissora
para esse exemplo. No próximo capı́tulo serão apresentados a metodologia e os resultados
deste trabalho.

36
Capı́tulo 4

Resultados e Discussões

Nesta capı́tulo serão apresentados em detalhes os passos que compõem a metodologia


deste trabalho, bem como os resultados e suas respectivas discussões.

4.1 Metodologia

Para execução dos experimentos foi utilizado o pacote R1 . R é um sistema usado princi-
palmente para cálculos estatı́sticos, e que dispõe, além de outras funcionalidades, de uma
linguagem e facilidades para a geração de gráficos de alto nı́vel. A sintaxe da lingua-
gem tem uma similaridade superficial com a linguagem C, porém a semântica é de uma
linguagem de programação funcional. Com isso é possı́vel escrever funções que recebam
expressões, o que é muito usado em estatı́stica. Além de ser uma linguagem gratuita
e de código aberto, existe uma comunidade ativa empenhada em responder dúvidas de
novos usuários, resolver problemas propostos e que desenvolve bibliotecas com funções
pré-programadas, o que a torna atraente para ser utilizada neste trabalho. Além disso,
existem literalmente milhares de pacotes que provêem funcionalidades extras para a lin-
guagem, com diversos pacotes especı́ficos para aprendizado de máquina2 .
Para medir a similaridade entre domı́nios foram utilizadas métricas normalmente uti-
lizadas em meta-aprendizado (Sotoca et al., 2006; Brazdil et al., 2010) descritas na Se-
ção 2.6. Para cada fold, a similaridade entre as bases foi calculada utilizando-se apenas
o conjunto de treinamento. Para calcular as medidas de complexidade das bases de da-
dos foi utilizado a biblioteca Dcol3 , que fornece um conjunto de medidas que avaliam
a complexidade de problemas de classificação. Mais especificamente, as medidas imple-
mentadas nessa biblioteca focam a complexidade da classe, suas fronteiras de decisão e
1
http://www.r-project.org
2
http://cran.r-project.org/web/views/MachineLearning.html
3
http://dcol.sourceforge.net

37
estimativas de sobreposições nos valores de recursos de diferentes classes, a separabilidade
da classe, e a geometria, topologia e densidade de mani-folds (sub-estruturas presentes nos
dados). O nome dessas medidas é listado a seguir. Mais detalhes podem ser encontrados
em (Orriols-Puig et al., 2010) e na Seção 2.6.

• Máximo entre os discriminadores de Fisher (F1);

• O vetor direcional dos discriminadores de Fisher (F1V);

• O volume da região sobreposta (F2);

• O valor máximo entre a eficácia das caracterı́sticas (F3);

• A eficácia coletiva das caracterı́sticas (F4);

• A soma minimizada da distância de erro de um classificador linear (L1)

• O erro de treino de um classificador linear (L2);

• A não linearidade de um classificador linear (L3);

• A fração de pontos no limite entre classe (N1);

• A razão média das distâncias intra/inter classe da vizinha mais próxima (N2);

• A taxa de erro leave-one-out do classificador vizinho mais próximo (N3);

• A não linearidade do classificador vizinho mais próximo (N4);

• A fração de cobertura máxima por cı́rculos (T1);

• O número médio de pontos por dimensão (T2);

Foram utilizadas bases de dados disponı́veis em repositórios públicos, como o repositó-


rio da UCI (Frank and Asuncion, 2010). Para se estimar o desempenho dos algoritmos, os
experimentos foram realizados com validação cruzada de dez folds para melhorar a repro-
ducibilidade dos experimentos (Bouckaert and Frank, 2004). Para a avaliação dos mode-
los foram considerados diversos aspectos referentes ao desempenho dos algoritmos (Prati
et al., 2011), como a área abaixo da curva ROC (AUC), acurácia (ACC), a medida F1 que
é a média harmônica entre precisão e revocação dos modelos induzidos, e a área abaico
da curva precision/recall (AUPR).
Primeiramente, foi selecionado um conjunto de 24 bases de dados com classes biná-
rias. Embora a abordagem proposta possa lidar com problemas de múltiplas classes, os
experimentos foram restringidos em problemas de classificação binária por dois motivos:
primeiro, a formulação original das SVMs é para conjuntos de dados binários. Embora

38
hajam algumas adaptações ou extensões para a configuração multi classe, não há um
consenso para um único método (Duan and Keerthi, 2005). Em segundo ligar algumas
das medidas de complexidade de dados são bem estudadas para problemas de classifica-
ção binária (Sotoca et al., 2006). Usando conjuntos de dados não-binários nesta situação
poderia prejudicar os resultados. Uma extensão do estudo para conjuntos de dados multi-
classes é um trabalho interessante para pesquisas futuras. Na Tabela 4.1 são mostradas
as principais caracterı́sticas das 24 bases utilizadas durante os experimentos. A primeira
coluna indica o nome da base, seguida pela quantidade de atributos nominais e numéri-
cos, pelo total de exemplos na base de dados e pela porcentagem de exemplos da classe
predominante.

Tabela 4.1: Resumo das caracterı́sticas dos conjuntos de dados utilizados nos experimentos
Base # Nominal # Numérico # Exemplos % Classe Majoritária
australian 9 6 690 55,51
bands 16 24 540 57,8
breast-w 1 10 699 65,5
bupa 1 6 345 57,97
credit-a 10 6 690 55,51
credit-g 13 7 1000 70,0
diabetes 1 8 768 65,10
german 14 7 1000 70,00
haberman 1 3 306 73,5
heart-statlog 1 13 270 55,6
hepatitis 14 6 155 54,8
house-votes-84 18 0 435 61,38
ionosphere 1 34 351 64,1
kr-vs-kp 37 0 3196 52,2
labor 9 8 57 64,91
monks1 7 0 556 51,08
monks2 7 0 601 50,08
monks3 7 0 554 50,36
pima 1 8 768 65,1
sick 24 6 3772 93,88
sonar 1 60 208 53,4
spect 23 0 267 58,80
tic-tac-toe 10 0 958 65,3
vote 17 0 435 61,4

Os experimentos foram realizados em modo “off-line”, ou seja, os resultados de cada


configuração de parâmetro foram pré-calculadas e armazenadas. Para cada conjunto de
dados, avaliamos dez mil combinações dos parâmetros C e σ, que controlam a suavidade da
margem e a largura do kernel Gaussiano, respectivamente. Intuitivamente, o parâmetro
C equilibra os erros de classificação do conjunto de treinamento e a simplicidade da
superfı́cie de decisão. Um baixo valor para o parâmetro C torna a superfı́cie de decisão
suave, enquanto que um alto valor de C visa classificar todos os exemplos de treinamento
corretamente. Em outras palavras, quando o valor de C é alto, há um aumento da
variância (tenta se ajustar o máximo possı́vel para o conjunto de treinamento), com isso
aumenta o risco de overfitting. Por outro lado, um valor baixo para o parâmetro C
aumenta o risco de underfitting. Para o kernel Gaussiano (RBF), o parâmetro σ define
o quão distante alcança a influência de um único exemplo de treinamento, valores baixos
significam influência “distante” e valores altos significam influência “próxima”.

39
Tais combinações foram geradas a partir de uma variação log-espaçada de uma cen-
tena de pontos entre 10−7 até 105 para C, e 10−2 até 102 para σ, através da geração de
todas as combinações dos dois parâmetros. Essas faixas são comumente usados em expe-
rimentos de ajustes de parâmetros (Caruana et al., 2008). Na Tabela 4.2 é apresentada,
para cada conjunto de dados, o seu respectivo vizinho mais próximo de acordo com as
meta-caracterı́sticas. A primeira coluna representa os domı́nios alvo e a segunda coluna
representa os domı́nios de origem.

Tabela 4.2: Domı́nios de origem e destino, de acordo com a metodologia proposta


Base de Dados de Destino Mais Similar (Base de Dados de Origem)
australian credit-a
bands heart-statlog
breast-cancer-w ionosphere
bupa credit-g
credit-a australian
credit-g german
diabetes pima-indians-diabetes
german credit-g
haberman tic-tac-toe
heart-statlog australian
hepatitis credit-g
house-votes-84 vote
ionosphere labor
kr-vs-kp credit-a
labor bands
monks1 monks3
monks2 tic-tac-toe
monks3 monks1
pima-indians-diabetes diabetes
sick labor
sonar heart-statlog
spect credit-g
tic-tac-toe monks2
vote house-votes-84

A avaliação foi realizada da seguinte maneira: para cada simulação, um conjunto de


dados foi usado como base de dados de destino e os restantes são deixados no repositório
para definir conjunto de bases de dados de origem. A distância da base de dados alvo
em relação aos outros conjuntos de dados no repositório foi calculado usando a regra 1
vizinho mais próximo (do inglês 1-Nearest-Neighbor 1NN) com distância Euclidiana como
medida de distância. Todos os meta-atributos são dimensionados de forma independente
no intervalo 0-1, antes do cálculo de distância.
O conjunto de dados mais próximo foi usado como o domı́nio de origem. Para o
domı́nio de destino, e para cada medida de desempenho, uma lista ordenada (em ordem

40
decrescente) das melhores configurações de parâmetros do domı́nio de origem foi criada.
Esta ordem foi utilizada para classificar os resultados de domı́nio de destino, avaliando se
a ordem obtida a partir do domı́nio de origem é uma boa maneira de testar ajustes de
parâmetros no domı́nio de destino. Com a ordem obtida a partir do domı́nio de origem,
foram testadas as 100, 300 e 500 melhores configurações de parâmetros recomendados
para o domı́nio de destino.

4.2 Resultados

Os resultados numéricos produzidos por esta abordagem encontram-se disponı́veis nos


anexos deste trabalho. Para se ter uma ideia geral do desempenho de cada abordagem,
foram calculados quatro medidas de desempenho de classificação diferentes: área sob a
curva ROC (AUC), acurácia (ACC), medida F1 e a área sob a curva Precison-Recall
(AUPR).
A fim de analisar se existem diferenças entre os métodos, foi aplicado o teste estatı́stico
de Friedman, com nı́vel de confiança de 95%. O teste de Friedman é o equivalente não
paramétrico ANOVA das medidas repetidas. Quando a hipótese nula é rejeitada pelo
teste de Friedman, podemos prosseguir com um teste de post-hoc para detectar quais as
diferenças entre os métodos são significativas (Demšar, 2006). Para este propósito, nós
usamos o teste Nemenyi, que é um teste não-paramétrico semelhante ao do teste de Tukey
para ANOVA e é utilizado quando todos os métodos são comparados uns com os outros.
Os resultados são apresentados sob a forma de diagramas de diferenças crı́ticas. Nes-
ses diagramas, os resultados foram ordenados por desempenho decrescente, no qual os
melhores algoritmos são colocados à esquerda da figura. Uma linha que une dois ou mais
métodos indica que não há nenhuma diferença com significância estatı́stica entre esses
métodos. Além disso, também serão apresentados gráficos que mostram o desempenho
das técnicas em cada uma das medidas de desempenho utilizadas e para cada uma das
bases de dados utilizadas.
Os resultados obtidos com a proposta deste trabalho foram comparados com os re-
sultados obtido por outras técnicas comumente utilizadas para ajuste de parâmetros. Na
Subsecção 4.2.1 são apresentados os resultados da comparação entre a Transferência
de Aprendizado e o Grid Search. Na Subsecção 4.2.2 são apresentados os resultados da
comparação entre o Grid Search e o Grid Search alimentado com os resultados da Transfe-
rência de Aprendizado. Na Subsecção 4.2.3 são apresentados os resultados da comparação
entre o Grid Search, a Transferência de Aprendizado e a Transferência de Aprendizado
Multi-Objetivo. Na Subsecção 4.2.4 são apresentados os resultados da comparação entre
o Grid Search alimentado pelo resultado da Transferência de Aprendizado com agregação

41
Multi-Objetivo e a Transferência de Aprendizado com agregação Multi-Objetivo.

4.2.1 Transferência de Aprendizado versus Grid Search

Para comparar os resultados da abordagem proposta, foi utilizado um procedimento Grid


Search. Grid Search gera combinações candidatas exaustivamente a partir de uma grade
de valores de parâmetros e, em seguida, usa internamente (usando o conjunto de trei-
namento apenas) a validação cruzada para encontrar os melhores parâmetros da grade.
Esse procedimento retorna a melhor configuração de parâmetros com a validação cruzada
no conjunto de treinamento. Nós selecionamos o Grid Search por sua simplicidade e por
ser uma das técnicas mais utilizadas para ajustar os parâmetros. Experimentamos duas
configurações diferentes de Grid Search. A primeira (GS1) usa a faixa de intervalo 10−7
até 105 para C, e 10−2 até 102 para σ (o mesmo intervalo utilizado nos experimentos do
método proposto). A segunda (GS2) usa um intervalo de 10−5 até 1015 para C, e 10−15 até
103 para σ, que também são valores normalmente recomendados na literatura (Hsu et al.,
2003). Foi usada a implementação do Grid Search do Pacote R e10714 . A configuração
de parâmetros das técnicas de Grid Search foram ajustadas no conjunto de treinamento
de cada fold. A abordagem de transferência de apredizado foi avaliada transferindo-se as
100, 300 e 500 melhores configurações de experimentos.
Na Figura 4.1 é mostrado o desempenho de cada abordagem em cada uma das 24 bases
de dados usadas nos experimentos. Para cada base de dados e para cada medida, as três
primeiras barras (rosa, verde claro e verde escuro) indicam o desempenho da abordagem de
transferência de aprendizado com as 100, 300 e 500 melhores configurações (TL100, TL300
e TL500) respectivamente. A quarta e quita barras (azul e roxo) indicam o desempenho
das duas versões de Grid Search usadas na comparação (GS1 e GS2, respectivamente).
Na Figura 4.2 são apresentados os diagramas de diferenças crı́ticas desses experimentos
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser obser-
vado nesses diagramas, a abordagem de transferência de aprendizado se mostrou bastante
competitiva com a técnica de Grid Search, para as quatro medidas de desempenho conside-
radas. Os experimentos com a transferência de 300 e 500 configurações (TL300 e TL500)
obtiveram resultados estatisticamente melhoers para todas as medidas quando compa-
rado com as duas configurações de Grid Search (GS1 e GS2), e os experimentos com a
transferência das 100 melhores configurações (TL100) obteve resultados comparáveis com
a segunda configuração de Grid Search (GS2).

4
Disponı́vel em http://cran.r-project.org/web/packages/e1071/index.html

42
43
Figura 4.1: Transferência de aprendizado versus Grid Search - Desempenho por base de dados
(a) AUC (b) ACC

44
(c) F1 (d) AUPR
Figura 4.2: Transferência de Aprendizado versus Grid Search - Diagrama de diferenças crı́ticas
4.2.2 Grid Search versus Grid Search com Transfer Learning

Os resultados apresentados anteriormente podem ser considerados, de alguma forma, ten-


denciosos, pois são baseadas no melhor resultado da nossa abordagem proposta com as
100, 300 dos 500 melhores configurações com base no domı́nio de origem. Para fazer
uma comparação justa, o procedimento de validação cruzada do Grid Search também foi
usado para procurar uma recomendação de parâmetro entre as 100, 300 e 500 melhores
configurações obtidas com abordagem proposta.
Na Figura 4.3 é mostrado o desempenho de cada abordagem em cada uma das 24 bases
de dados usadas nos experimentos. As duas primeiras barras (rosa e verde claro) indicam
o desempenho das duas versões do Grid Search usadas na comparação (Grid Search 1 e
Grid Search 2), respectivamente. A terceira, quarta e quinta barra (verde escuro, azul e
roxo) indicam o desempenho do Grid Search alimentado com o resultado da Transferência
de Aprendizado com as 100, 300 e 500 melhores configurações de parâmetros (GSTL100,
GSTL300 e GSTL500).
Na Figura 4.4 são apresentados os diagramas de diferenças crı́ticas desses experimentos
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser observado
nesses diagramas, a abordagem da segunda versão do Grid Search e o Grid Search alimen-
tado com a transferência de aprendizado com as 100, 300 e 500 melhores configurações de
parâmetros (GS2, GSTL100, GSTL300 e GSTL500, respectivamente) obtiveram resulta-
dos estatisticamente melhoers para todas as medidas quando comparado com a primeira
versão do Grid Search (GS1), e comparáveis com a segunda versão do Grid Search 2
(GS2), para as quatro medidas de desempenho consideradas.

4.2.3 Grid Search versus Transfer Learning versus Multi-Objetivo

Outro possı́vel viés é que as técnicas de Grid Search otimizam em termos de acurácia,
e estamos sugerindo configurações com base no desempenho do domı́nio de origem de
cada medida de desempenho de forma independente. Para superar isso, investigamos
uma abordagem de agregação multi-objetivo, usando uma técnica de rankings agregados,
onde as posições médias de classificação dadas pelas quatro medidas de desempenho são
agregados em um ranking final, como em (Prati, 2012).
Na Figura 4.5 é mostrado o desempenho de cada abordagem em cada uma das 24
bases de dados usadas nos experimentos. As duas primeiras barras (rosa e laranja) indi-
cam o desempenho do das duas versões do Grid Search usadas nas comparações (GS1 e
GS2). A terceira, quarta e quinta barra (verde claro, verde escuro e azul claro) indicam
o desempenho da Transferência de Aprendizado com as 100, 300 e 500 melhores confi-
gurações de parâmetros (TL100, TL300 e TL500). A sexta, sétima e oitava barra (azul

45
46
Figura 4.3: Grid Search versus Grid Search com Transferência de Aprendizado - Desempenho por base de dados
(a) AUC (b) ACC

47
(c) F1 (d) AUPR

Figura 4.4: Grid Search versus Grid Search com Transferência de Aprendizado - Diagrama de diferenças crı́ticas
escuro, roxo escuro e roxo claro) indicam o desempenho da Transferência de Aprendizado
Multi-Objetivo com as 100, 300 e 500 melhores configurações de parâmetros (MO100,
MO300 e MO500).
Na Figura 4.6 são apresentados os diagramas de diferenças crı́ticas desses experimentos
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser observado
nesses diagramas, a abordagem da segunda versão do Grid Search (GS2) obteve resultados
estatisticamente melhores que as demais abordagens. A transferência de aprendizado
multi-objetivo com as 100 e 300 melhores configurações, e a transferência de aprendizado
com as 100 e 300 melhores configurações (MO100, MO300, TL100 e TL300) obtiveram
resultados competitivos com a transferência de aprendizado com agregação multi-objetivo
com as 500 melhores configurações de parâmetros e com a transferência de aprendizado
com as 500 melhores configurações de parâmetros (MO500 e TL500).

4.2.4 Grid Search com Multi-Objetivo versus Multi-Objetivo

Investigamos também uma abordagem de agregação multi-objetivo, usando uma técnica


de rankings agregados, como mostrado na Seção anterior, e o resultado desta técnica é
usado para alimentar o Grid Search. A abordagem descrita é comparada com a abordagem
multi-objetivo.
Na Figura 4.7 é mostrado o desempenho de cada abordagem em cada uma das 24 ba-
ses de dados usadas nos experimentos. As três primeiras barras (rosa, verde claro e verde
escuro) indicam o desempenho do Grid Search alimentado com o resultado da Transfe-
rência de Aprendizado com agregação Multi-Objetivo com as 100, 300 e 500 melhores
configurações. A quarta, quinta e sexta barra (azul claro, azul escuro e roxo) indicam
o desempenho da Transferência de Aprendizado Multi-Objetivo com as 100, 300 e 500
melhores configurações.
Na Figura 4.8 são apresentados os diagramas de diferenças crı́ticas desses experimentos
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser obser-
vado nesses diagramas, a abordagem Grid Search com agregação multi-objetivo com as
100, 300 e 500 melhores configurações (MOGS100, MOGS300 e MOGS500) obtiveram
resultados competitivos com a abordagem multi-objetivo com as 100, 300 e 500 melhores
configurações (MO100, MO300 e MO500).

4.2.5 Discussão

Para ter mais um ponto de vista do desempenho da abordagem proposta, nós também
avaliamos que extensão do topo do rank de recomendações incluem as melhores configu-
rações de parâmetros entre os 10.000 testados. Na Tabela 4.3 é apresentada a posição da

48
49
Figura 4.5: Grid Search versus Transfer Learning versus Multi-Objetivo - Desempenho por base de dados
(a) AUC (b) ACC

50
(c) F1 (d) AUPR
Figura 4.6: Grid Search versus Transfer Learning versus Multi-Objetivo - Diagrama de diferenças crı́ticas
51
Figura 4.7: Grid Search com Multi-Objetivo versus Multi-Objetivo - Desempenho por base de dados
(a) AUC (b) ACC

52
(c) F1 (d) AUPR
Figura 4.8: Grid Search com Multi-Objetivo versus Multi-Objetivo - Diagrama de diferenças crı́ticas
melhor configuração. As listas que incluem a melhor configuração entre as 100, 300 ou 500
primeiras posições, estão hachuradas em azul, vermelho e verde, respectivamente. Vale
a pena notar que em 35% dos casos (34 de 96), a melhor configuração está entre as 100
primeiras posições recomendadas e em 58% dos casos (66 de 96) a melhor configuração
está entre as 300 primeiras posições recomendadas.

Tabela 4.3: Posição da melhor configuração de parâmetros na abordagem proposta


BASE AUC ACC AUPR F1
australian 13 80 80 37
bands 513 53 53 538
breast-cancer-w 2149 6840 6840 2505
bupa 777 3028 3028 150
credit-a 202 67 67 112
credit-g 200 7 7 9596
diabetes 46 5 5 110
german 101 26 26 1246
haberman 2075 4739 4739 9058
heart-statlog 135 12 12 357
hepatitis 123 680 680 2230
house-votes-84 320 172 172 845
ionosphere 1602 4340 4340 1602
kr-vs-kp 899 1474 1474 912
labor 53 1 1 268
monks1 5374 4293 4293 88
monks2 161 61 61 866
monks3 4 4783 4783 758
pima-indians-diabetes 188 17 17 156
sick 253 70 70 685
sonar 3 190 190 21
spect 131 939 939 3193
tic-tac-toe 1 1 1 8
vote 229 153 153 241

Para algumas bases de dados, entretanto, a melhor configuração está em algum lu-
gar no meio das 10.000 testadas. Isso não significa, necessariamente, que a abordagem
proposta falhou completamente para esses casos, pois um resultado muito perto da me-
lhor configuração pode ser encontrado. Para analisar o quão distante estamos da melhor
configuração, foi calculada uma “perda normalizada”, que calcula a diferença entre o re-
sultado oferecido pela abordagem proposta e o resultado máximo global, dividido pelo
resultado máximo global. Na Figura 4.9 é mostrada: (a) a perda entre a Transferência de
Aprendizado com as 100 melhores configurações e o Grid Search 1; e (b) a perda entre a
Transferência de Aprendizado com as 500 melhores configurações e o Grid Search 2;
Os valores perto da origem — ponto (0, 0) — indicam que os dois métodos alcançaram
um desempenho muito próximo ao ótimo global. Valores próximos a diagonal principal

53
(a) Transfer learning 100 best configurations versus Grid Search 1

(b) Transfer learning 500 best configurations versus Grid Search 2

Figura 4.9: Normalized Loss

indicam que ambos os métodos tiveram desempenho similar. Valores próximos ao eixo x
indicam que a Transferência de Aprendizado obteve um desempenho superior e os valores
próximos ao eixo y indicam que o Grid Search obteve um desempenho superior. Como
pode ser observado nos gráficos, muitos resultados estão próximos a origem. Além disso,
muitos resultados aparecem abaixo da diagonal principal, indicando uma vantagem da
Transferência de Aprendizado sobre o Grid Search. Na maioria dos casos, as 100 melhores
configurações sugerem uma perda normalizada máxima de 10%, quando comparada com
a melhor configuração encontrada na combinação de 10.000 parâmetros.
Como pode ser visto a partir dos resultados, a abordagem proposta é bem sucedida
na transferência de parâmetros a partir do domı́nio de origem para o domı́nio de destino,
e que é muito competitiva com os procedimentos baseados em Grid Search. A abordagem
multi-objetivo testada é simples, mas aponta uma direção de investigação promissora para
alcançar a configurações de parâmetros equilibras entre as quatro medidas de desempenho
estudadas neste trabalho.

54
Apesar dos resultados animadores com a abordagem proposta, nós sabemos que é
computacionalmente inviável aplicar essa metodologia no dia-a-dia sem um repositório
pré-criado, pois temos de avaliar um grande número de parâmetro em todos os conjuntos
de dados no repositório. No entanto, este problema pode ser atenuado com a criação de
um repositório para consulta.
Portanto, dado um novo domı́nio de destino, o problema é reduzido para calcular as
medidas de complexidade deste domı́nio, determinando qual o melhor domı́nio de origem
disponı́vel no repositório, e testar as melhores configurações sugeridas pela transferência
de aprendizagem.

4.3 Considerações Finais

Neste capı́tulo foram apresentados e discutidos os procedimentos experimentais que com-


puseram este trabalho, bem como os resultados alcançados e as respectivas discussões
sobre eles. Para avaliar a viavilidade da proposta, os resultados obtidos foram compara-
dos com outras abordagens comumente utilizadas para ajustar parâmetros em algoritmos
de aprendizado de máquina. Como pôde ser visto, a abordagem deste trabalho é compe-
titivo ou superior aos outros métodos. No próximo capı́tulo será apresentado a conclusão
de todo o trabalho apresentado.

55
56
Capı́tulo 5

Considerações Finais

Ajuste dos parâmetros livres em algoritmos de aprendizado de máquina é uma tarefa


importante, pois eles afetam diretamente o desempenho dos algoritmos de aprendizagem.
Embora algumas técnicas como o Grid Search, AG, PSO e Simulated Annealing, tenham
obtido bons resultados na tarefa de ajustar esses parâmetros, ainda não são a melhor
abordagem, pois todo o trabalho precisa ser refeito a partir do zero quando se tem um
novo problema para aplicar um algoritmo de aprendizagem.
Neste trabalho, propomos e avaliamos uma abordagem de transferência de aprendiza-
gem para a tarefa de ajuste de parâmetros. A abordagem proposta assumiu a hipótese
de que o espaço de busca do domı́nio de destino (possı́veis configurações de parâmetros
da SVM para uma base de dados) seria reduzido ao utilizar as melhores configurações do
domı́nio de origem (configurações que obtiveram bom desempenho em uma base de dados
similar à base de dados de destino). A escolha do domı́nio de origem é feita com base na
similaridade entre as bases de dados, calculadas com base em medidas de complexidade
entre os domı́nios.
Os resultados empı́ricos de um experimento com 24 bases de dados com problemas de
classificação binária, 10.000 configuração de parâmetros (C e σ) para cada base de dados,
e quatro diferentes medidas de desempenho (AUC, ACC, AUPR e F1) mostraram que
o método proposto é comparável ou melhor do que uma técnica de Grid Search, que é
comumente utilizada para resolver o problema de ajuste de parâmetros.
Os resultados preliminares deste foram publicados na forma de um artigo para o X
Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Este artigo foi
selecionado e convidado para submissão de versão expandida m uma edição especial no
Journal of Intelligent & Robotic Systems, ainda em avaliação na data da finalização desta
monografia.
Apesar dos bons resultados obtidos com a abordagem proposta, existem limitações

57
para utilização da técnica no a partir do zero, pois ela é computacionalmente custosa.
Afinal, temos de avaliar um grande número de parâmetros para a base de dados de origem.
No entanto, esse problema pode ser atenuado com a criação de um repositório, cujas
configurações esteja pré-calculadas para todos os domı́nios do repositório. Assim, dado um
novo domı́nio de destino, o problema é reduzido em calcular as medidas de complexidade
deste domı́nio, determinando qual o melhor domı́nio de origem disponı́vel no repositório,
e testar as melhores configurações sugeridas pela transferência de aprendizagem.
O trabalho pode ser continuado com a exploração de extensões dessa abordagem. Por
exemplo, utilizando outros métodos pra a seleção da base de dados de origem, como refe-
rências e modelo baseado em caracterı́sticas. Algumas medidas de complexidade têm mais
influência do que outras, por isso é importante explorar outras medidas de complexidade
de base de dados. Também é importante explorar outros kernels (como, por exemplo,
usando o kernel como outro hyper parâmetro), algoritmos e bases de dados multi-classes.
Outro possibilidade é instigar outras maneiras para escolher o domı́nio de origem, ou in-
vestigar se é possı́vel usar informações de mais de um domı́nio de origem. Por último, mas
não menos importante, vale a pena investigar mais outras abordagens para o problema
multi-objetivo agregação.

58
Referências Bibliográficas

Ali, S. and Smith-Miles, K. A. (2006). A meta-learning approach to automatic kernel


selection for Support Vector Machines. Neurocomputing, 70(1-3):173–186. Citado na
página 25.

Bandyopadhyay, S. and Saha, S. (2012). Unsupervised Classification: Similarity Measu-


res, Classical and Metaheuristic Approaches, and Applications. Springer. Citado na
página 1.

Blum, C. and Merkle, D. (2008). Swarm Intelligence. Springer. Citado na página 2.

Bouckaert, R. R. and Frank, E. (2004). Evaluating the replicability of significance tests


for comparing learning algorithms. In Dai, H., Srikant, R., and Zhang, C., editors,
8th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining
(PAKDD 2004), volume 3056 of Lecture Notes in Computer Science, pages 3–12. Sprin-
ger. Citado na página 38.

Boyd, K., Eng, K. H., and Jr., C. D. P. (2013). Erratum: Area under the Precision-
Recall curve: Point estimates and confidence intervals. In Blockeel, H., Kersting, K.,
Nijssen, S., and Zelezný, F., editors, ECML/PKDD (3), volume 8190 of Lecture Notes
in Computer Science. Springer. Citado na página 11.

Brazdil, P., Carrier, C. G., Soares, C., and Vilalta, R. (2010). Metalearning: Applications
to Data Mining. Springer. Citado na página 37.

Burges, C. J. C. (1998). A tutorial on Support Vector Machines for pattern recognition.


Data Min. Knowl. Discov., 2(2):121–167. Citado na página 17.

Caruana, R., Karampatziakis, N., and Yessenalina, A. (2008). An empirical evaluation of


supervised learning in high dimensions. In Cohen, W. W., McCallum, A., and Roweis,
S. T., editors, ICML, volume 307 of ACM International Conference Proceeding Series,
pages 96–103. ACM. Citado na página 40.

Chapelle, O., Schölkopf, B., and Zien, A., editors (2010). Semi-Supervised Learning (Adap-
tive Computation and Machine Learning series). The MIT Press. Citado na página 1.

59
Cristianini, N. and Shawe-Taylor, J. (2010). An Introduction to Support Vector Machines
and Other Kernel-based Learning Methods. Cambridge University Press. Citado na
página 15.

de Miranda, P. B. C., Prudêncio, R. B. C., de Carvalho, A. C. P. L. F., and Soares, C.


(2012). Combining a multi-objective optimization approach with meta-learning for svm
parameter selection. In International Conference on Systems, Man, and Cybernetics -
SMC, pages 2909–2914. IEEE. Citado na página 25.

de Souza, B. F. and de Carvalho, A. C. P. L. F. (2004). Gene selection based on multi-class


svms and genetic algorithms. In Martins, N. F., Walter, M. E. T., Telles, G. P., and
Brigido, M. M., editors, Wide Open Business Conference - WOB, pages 89–96. Citado
na página 19.

de Souza, B. F., de Carvalho, A. C. P. L. F., Calvo, R., and Ishii, R. P. (2006). Multiclass
svm model selection using particle swarm optimization. In Kasabov, N., Köppen, M.,
König, A., Abraham, A., and Song, Q., editors, Hybrid Intelligent Systems - HIS,
page 31. IEEE Computer Society. Citado na página 19.

Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. J. Mach.
Learn. Res., 7:1–30. Citado nas páginas 11 e 41.

Duan, K. and Keerthi, S. S. (2005). Which is the best multiclass svm method? an
empirical study. In Oza, N. C., Polikar, R., Kittler, J., and Roli, F., editors, Multiple
Classifier Systems, volume 3541 of Lecture Notes in Computer Science, pages 278–285.
Springer. Citado na página 39.

Faceli, K., Lorena, A. C., Gama, J., and de Carvalho, A. C. P. L. F. (2011). Inteligência
Artificial: Uma Abordagem de Aprendizado de Máquina. LTC. Citado nas páginas 1,
12, 13, 14, 15, e 16.

Flach, P. A. (2004). The many faces of ROC analysis in machine learning. In-
ternational Conference on Machine Learning. http://www.cs.bris.ac.uk/~flach/
ICML04tutorial/ROCtutorialPartI.pdf. Citado nas páginas 9 e 10.

Frank, A. and Asuncion, A. (2010). UCI machine learning repository. http://archive.


ics.uci.edu/ml. Citado na página 38.

Friedman, J. H. and Rafsky, L. C. (1979). Multivariate generations of the wald-wolfowitz


and smirnov two-sample tests. In The Annals of Statistics. Citado na página 28.

Glover, F. & Laguna, F. (1997). Tabu Search. Norwell. Citado nas páginas 2 e 19.

Ho, T. K. and Baird, H. S. (1998). Pattern classification with compact distribution maps.
Computer Vision and Image Understanding, 70(1):101–110. Citado na página 27.

60
Hoekstra, A. and Duin, R. P. W. (1996). On the nonlinearity of pattern classifiers. In
Conference on Pattern Recognition. Citado na página 30.

Hsu, C.-W., Chang, C.-C., and Lin, C.-J. (2003). A practical guide to support vector
classification. Technical report, Department of Computer Science, National Taiwan
University. Citado na página 42.

Huang, C.-L. and Wang, C.-J. (2006). A GA-based feature selection and parameters
optimizationfor support vector machines. Expert Syst. Appl., 31(2):231–240. Citado
na página 19.

Imbault, F. and Lebart, K. (2004). A stochastic optimization approach for parameter


tuning of support vector machines. In ICPR (4), pages 597–600. Citado na página 19.

King, R. D., Feng, C., and Sutherland, A. (1995). Stalog: Comparison of classification
algorithms on large real-world problems. Applied Artificial Intelligence, 9(3):289–333.
Citado na página 31.

Kirkpatrick, S., Gelatt Jr., C. D., and Vecchi, M. P. (1983). Optimization by simulated
annealing. Science, 220(4598). Citado nas páginas 2 e 19.

Linden, R. (2012). Algoritmos Genéticos. Brasport. Citado na página 2.

Lorena, A. C. and de Carvalho, A. C. P. L. F. (2006). Multiclass SVM design and


parameter selection with genetic algorithms. In Canuto, A. M. P., de Souto, M. C. P.,
and da Silva, A. C. R., editors, SBRN, pages 131–136. IEEE Computer Society. Citado
na página 19.

Mitchell, T. M. (1997). Machine Learning. McGraw Hill. Citado nas páginas 1 e 11.

Orriols-Puig, A., Macià, N., and Ho, T. K. (2010). Documentation for the data complexity
library in C++. Technical report, La Salle - Universitat Ramon Llull. Citado na
página 38.

Pan, S. J. and Yang, Q. (2010). A survey on transfer learning. IEEE Trans. Knowl. Data
Eng., 22(10). Citado nas páginas 2, 20, e 24.

Perea, P. R. (2012). Algorithms for training large-scale linear programming Support Vector
Regression and classification. ProQuest. Citado na página 17.

Prati, R. C. (2012). Combining feature ranking algorithms through rank aggregation. In


IJCNN, pages 1–8. IEEE. Citado na página 45.

Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. (2008). A study with class
imbalance and random sampling for a decision tree learning system. In Bramer, M.,

61
editor, IFIP AI, volume 276 of IFIP, pages 131–140. Springer. Citado nas páginas 9
e 11.

Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. (2011). A survey on graphical


methods for classification predictive performance evaluation. IEEE Trans. Knowl. Data
Eng., 23(11):1601–1618. Citado nas páginas 9 e 38.

Reif, M., Shafait, F., and Dengel, A. (2012). Meta-learning for evolutionary parameter
optimization of classifiers. Machine Learning, 87(3):357–380. Citado na página 25.

Rossi, A. L. D. (2009). Ajuste de parâmetros de técnicas de classificação por algoritmos


bioinspitados. Disertação de mestrado, ICMC-USP. Citado nas páginas 1, 2, 5, 6, e 14.

Sotoca, J. M., Mollineda, R. A., and Sánchez, J. S. (2006). A meta-learning framework


for pattern classification by means of data complexity measures. Inteligencia Artificial,
Revista Iberoamericana de Inteligencia Artificial, 10(29):31–38. Citado nas páginas 26,
37, e 39.

Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms.


Citado na página 6.

62
Apêndice A

Lista de Acrônimos

AG Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

AM Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

AUC Area Under Curve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

ACC Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

CV Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

MTL Multi-Task Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

MST Minimum Spanning Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

PSO Particle Swarm Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

RBF Radial Basis Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

RNA Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

ROC Receiver Operating Characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

63
SVM Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

SVR Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

TAE Teoria do Aprendizado Estatı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

PR Precision-Recall. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

64
Apêndice B

Distância entre as bases de dados

Tabela B.1: Distância entre as Bases de Dados - Parte 1


BASE australian bands breast-cancer-w bupa
australian 0 3,69861500 4,80633900 5,17186100
bands 3,69861500 0 5,94529600 5,09421200
breast-cancer-w 4,80633900 5,94529600 0 7,98015200
bupa 5,17186100 5,09421200 7,98015200 0
credit-a 0,35498500 3,60821800 4,89521400 5,27514800
credit-g 4,14583300 4,67633400 7,31228000 2,22963100
diabetes 4,29519500 4,59356500 6,91881500 2,51728700
german 4,08311100 4,45421600 7,25305400 2,45708200
haberman 5,22396000 6,44846900 6,47740100 3,94892500
heart-statlog 2,37318400 2,71953100 5,45603500 5,22719900
hepatitis 3,52779400 3,96239400 6,48496300 2,34890800
house-votes-84 3,06601900 5,46233600 5,66948500 6,88320800
ionosphere 4,31741900 4,71823600 3,83477100 6,71253600
kr-vs-kp 4,02086400 4,39409800 6,17554700 5,51585100
labor 4,59993200 3,46820300 5,33854000 6,34313100
monks1 6,79302400 6,76296000 9,46143500 2,45979500
monks2 6,10712100 6,67076200 8,66654700 2,50922400
monks3 6,89445300 6,90798900 9,52778100 2,46411800
pima-indians-diabetes 4,31937200 4,65248500 6,92921800 2,48358400
sick 3,84518600 4,10361400 4,55804900 7,28970900
sonar 4,15197800 3,68834400 6,12447900 5,76735300
spect 4,47769800 4,71970800 7,71542100 3,37085200
tic-tac-toe 5,54400400 6,30933600 8,33395700 2,35847200
vote 3,06659200 5,46272400 5,67221300 6,88442800

65
Tabela B.2: Distância entre as Bases de Dados - Parte 2
BASE credit-a credit-g diabetes german
australian 0,35498500 4,14583300 4,29519500 4,08311100
bands 3,60821800 4,67633400 4,59356500 4,45421600
breast-cancer-w 4,89521400 7,31228000 6,91881500 7,25305400
bupa 5,27514800 2,22963100 2,51728700 2,45708200
credit-a 0 4,31437600 4,45770400 4,23246100
credit-g 4,31437600 0 1,84157000 0,65613290
diabetes 4,45770400 1,84157000 0 1,96628700
german 4,23246100 0,65613290 1,96628700 0
haberman 5,42656500 3,49282600 3,37263000 3,82470300
heart-statlog 2,39088000 3,96830200 4,20880800 3,77589300
hepatitis 3,65279000 2,07424400 2,44124500 2,10824500
house-votes-84 3,18624200 5,33510800 6,02089300 5,14792200
ionosphere 4,33126100 6,31743000 5,98747300 6,21107200
kr-vs-kp 3,97646000 5,31263900 5,48527100 4,99754000
labor 4,61742000 5,97211100 5,83112400 5,89500700
monks1 6,93155100 3,14266900 3,32142200 3,36370600
monks2 6,27090800 2,94439900 2,85057800 3,18731000
monks3 7,03898700 3,23960300 3,46557800 3,48727400
pima-indians-diabetes 4,49022300 1,83985700 0,18753500 1,99633700
sick 3,77601600 6,36053400 6,30813100 6,27449500
sonar 4,23759200 4,62285700 4,99913200 4,31787000
spect 4,57788800 2,35889600 3,70057700 2,40027400
tic-tac-toe 5,72543700 2,15815700 2,37932700 2,43137900
vote 3,18660100 5,33519000 6,02245400 5,14775300

66
Tabela B.3: Distância entre as Bases de Dados - Parte 3
BASE haberman heart-statlog hepatitis house-votes-84
australian 5,22396000 2,37318400 3,52779400 3,06601900
bands 6,44846900 2,71953100 3,96239400 5,46233600
breast-cancer-w 6,47740100 5,45603500 6,48496300 5,66948500
bupa 3,94892500 5,22719900 2,34890800 6,88320800
credit-a 5,42656500 2,39088000 3,65279000 3,18624200
credit-g 3,49282600 3,96830200 2,07424400 5,33510800
diabetes 3,37263000 4,20880800 2,44124500 6,02089300
german 3,82470300 3,77589300 2,10824500 5,14792200
haberman 0 5,64925600 3,69085000 6,65065200
heart-statlog 5,64925600 0 3,63008300 3,33282500
hepatitis 3,69085000 3,63008300 0 5,35062900
house-votes-84 6,65065200 3,33282500 5,35062900 0
ionosphere 5,92166700 5,09916600 5,24889000 6,07084400
kr-vs-kp 6,44866800 4,60346200 4,46213700 5,19039500
labor 6,89526300 4,82692000 5,25574700 6,23379900
monks1 4,30571400 6,48315500 3,75765800 8,11072600
monks2 3,71167800 6,12144300 3,65430800 7,33167300
monks3 4,34818000 6,61960000 3,85130400 8,18121700
pima-indians-diabetes 3,37972500 4,26363800 2,44440300 6,03385600
sick 6,84436000 4,15368900 6,05676900 5,12324900
sonar 6,32638100 3,17564600 4,40717100 4,27388000
spect 4,68374600 3,61388500 3,03367800 5,04567000
tic-tac-toe 3,30788100 5,72194100 3,17539900 6,82304700
vote 6,65165700 3,33532700 5,35234300 0,01716582

67
Tabela B.4: Distância entre as Bases de Dados - Parte 4
BASE ionosphere kr-vs-kp labor monks1
australian 4,31741900 4,02086400 4,59993200 6,79302400
bands 4,71823600 4,39409800 3,46820300 6,76296000
breast-cancer-w 3,83477100 6,17554700 5,33854000 9,46143500
bupa 6,71253600 5,51585100 6,34313100 2,45979500
credit-a 4,33126100 3,97646000 4,61742000 6,93155100
credit-g 6,31743000 5,31263900 5,97211100 3,14266900
diabetes 5,98747300 5,48527100 5,83112400 3,32142200
german 6,21107200 4,99754000 5,89500700 3,36370600
haberman 5,92166700 6,44866800 6,89526300 4,30571400
heart-statlog 5,09916600 4,60346200 4,82692000 6,48315500
hepatitis 5,24889000 4,46213700 5,25574700 3,75765800
house-votes-84 6,07084400 5,19039500 6,23379900 8,11072600
ionosphere 0 4,06778200 3,64492600 8,27663900
kr-vs-kp 4,06778200 0 5,00375000 7,06893900
labor 3,64492600 5,00375000 0 8,25476700
monks1 8,27663900 7,06893900 8,25476700 0
monks2 7,67890200 6,49229100 7,72738500 2,13298200
monks3 8,40062900 7,18469500 8,34319000 0,33042360
pima-indians-diabetes 6,04365100 5,54418000 5,84170800 3,30949800
sick 4,16055200 5,51244700 3,70800300 9,06360500
sonar 4,73612500 4,35282200 4,34692600 6,92397500
spect 7,00292600 5,57774300 6,70658800 4,00974900
tic-tac-toe 7,18399400 6,07584500 7,40128800 2,08509300
vote 6,07072000 5,19040000 6,23457600 8,11207600

68
Tabela B.5: Distância entre as Bases de Dados - Parte 5
BASE monks2 monks3 pima-indians-diabetes sick
australian 6,10712100 6,89445300 4,31937200 3,84518600
bands 6,67076200 6,90798900 4,65248500 4,10361400
breast-cancer-w 8,66654700 9,52778100 6,92921800 4,55804900
bupa 2,50922400 2,46411800 2,48358400 7,28970900
credit-a 6,27090800 7,03898700 4,49022300 3,77601600
credit-g 2,94439900 3,23960300 1,83985700 6,36053400
diabetes 2,85057800 3,46557800 0,18753500 6,30813100
german 3,18731000 3,48727400 1,99633700 6,27449500
haberman 3,71167800 4,34818000 3,37972500 6,84436000
heart-statlog 6,12144300 6,61960000 4,26363800 4,15368900
hepatitis 3,65430800 3,85130400 2,44440300 6,05676900
house-votes-84 7,33167300 8,18121700 6,03385600 5,12324900
ionosphere 7,67890200 8,40062900 6,04365100 4,16055200
kr-vs-kp 6,49229100 7,18469500 5,54418000 5,51244700
labor 7,72738500 8,34319000 5,84170800 3,70800300
monks1 2,13298200 0,33042360 3,30949800 9,06360500
monks2 0 2,10521800 2,82238400 8,39214400
monks3 2,10521800 0 3,43969800 9,18922500
pima-indians-diabetes 2,82238400 3,43969800 0 6,35946900
sick 8,39214400 9,18922500 6,35946900 0
sonar 6,53807900 7,05017900 5,04886600 5,14590400
spect 4,20274200 4,07063900 3,72158000 6,67540800
tic-tac-toe 1,95032300 2,15452000 2,35459100 7,95096900
vote 7,33506600 8,18272900 6,03551700 5,12284500

69
Tabela B.6: Distância entre as Bases de Dados - Parte 6
BASE sonar spect tic-tac-toe vote
australian 4,15197800 4,47769800 5,54400400 3,06659200
bands 3,68834400 4,71970800 6,30933600 5,46272400
breast-cancer-w 6,12447900 7,71542100 8,33395700 5,67221300
bupa 5,76735300 3,37085200 2,35847200 6,88442800
credit-a 4,23759200 4,57788800 5,72543700 3,18660100
credit-g 4,62285700 2,35889600 2,15815700 5,33519000
diabetes 4,99913200 3,70057700 2,37932700 6,02245400
german 4,31787000 2,40027400 2,43137900 5,14775300
haberman 6,32638100 4,68374600 3,30788100 6,65165700
heart-statlog 3,17564600 3,61388500 5,72194100 3,33532700
hepatitis 4,40717100 3,03367800 3,17539900 5,35234300
house-votes-84 4,27388000 5,04567000 6,82304700 0,01716582
ionosphere 4,73612500 7,00292600 7,18399400 6,07072000
kr-vs-kp 4,35282200 5,57774300 6,07584500 5,19040000
labor 4,34692600 6,70658800 7,40128800 6,23457600
monks1 6,92397500 4,00974900 2,08509300 8,11207600
monks2 6,53807900 4,20274200 1,95032300 7,33506600
monks3 7,05017900 4,07063900 2,15452000 8,18272900
pima-indians-diabetes 5,04886600 3,72158000 2,35459100 6,03551700
sick 5,14590400 6,67540800 7,95096900 5,12284500
sonar 0 4,69593600 6,09890800 4,27377000
spect 4,69593600 0 3,77114100 5,04645700
tic-tac-toe 6,09890800 3,77114100 0 6,82277800
vote 4,27377000 5,04645700 6,82277800 0

70
Apêndice C

Resultados Numéricos dos


Algoritmos

Medida Base MaxGlobal PosMaxGlobal


AUC australian 0,9257233 80
ACC australian 0,8563379 13
F1 australian 0,8581673 37
AUPR australian 0,8943071 115
AUC bands 0,8793563 53
ACC bands 0,8035714 513
F1 bands 0,7177408 538
AUPR bands 0,8932716 929
AUC breast-cancer-w 0,9948267 6840
ACC breast-cancer-w 0,9582743 2149
F1 breast-cancer-w 0,9575117 2505
AUPR breast-cancer-w 0,9677294 8200
AUC bupa 0,7781556 3028
ACC bupa 0,728829 777
F1 bupa 0,6434977 150
AUPR bupa 0,7829776 3121
AUC credit-a 0,9269133 67
ACC credit-a 0,8577464 202
F1 credit-a 0,861523 112
AUPR credit-a 0,8922227 20
AUC credit-g 0,7850207 7
ACC credit-g 0,7539216 200
F1 credit-g 0,5148767 9596

71
AUPR credit-g 0,882454 35
AUC diabetes 0,8422419 5
ACC diabetes 0,7703667 46
F1 diabetes 0,8273657 110
AUPR diabetes 0,7191247 55
AUC german 0,7996157 26
ACC german 0,7686275 101
F1 german 0,8394822 1246
AUPR german 0,6362299 46
AUC haberman 0,7534652 4739
ACC haberman 0,7331441 2075
F1 haberman 0,8258641 9058
AUPR haberman 0,4735571 4946
AUC heart-statlog 0,9063258 12
ACC heart-statlog 0,8344827 135
F1 heart-statlog 0,8324376 357
AUPR heart-statlog 0,8578728 20
AUC hepatitis 0,7928735 680
ACC hepatitis 0,7029412 123
F1 hepatitis 0,7222537 2230
AUPR hepatitis 0,6989081 346
AUC house-votes-84 0,9918056 172
ACC house-votes-84 0,9407247 320
F1 house-votes-84 0,9355347 845
AUPR house-votes-84 0,9556255 300
AUC ionosphere 0,9907668 4340
ACC ionosphere 0,9352774 1602
F1 ionosphere 0,8779377 1602
AUPR ionosphere 0,971328 5153
AUC kr-vs-kp 0,999859 1474
ACC kr-vs-kp 0,9925377 899
F1 kr-vs-kp 0,9890165 912
AUPR kr-vs-kp 0,9968273 373
AUC labor 1 1
ACC labor 0,8553572 53
F1 labor 0,7233335 268
AUPR labor 0,8474999 1
AUC monks1 0,9224389 4293
ACC monks1 0,5120993 5374

72
F1 monks1 0,3615424 88
AUPR monks1 0,9152911 4486
AUC monks2 0,8269101 61
ACC monks2 0,7633899 161
F1 monks2 0,7601662 866
AUPR monks2 0,8300167 61
AUC monks3 0,9303231 4783
ACC monks3 0,4565033 4
F1 monks3 0,4123735 758
AUPR monks3 0,9175927 3842
AUC pima-indians-diabetes 0,8419759 17
ACC pima-indians-diabetes 0,7765824 188
F1 pima-indians-diabetes 0,833111 156
AUPR pima-indians-diabetes 0,7230695 58
AUC sick 0,8184499 70
ACC sick 0,9377656 253
F1 sick 0,9664894 685
AUPR sick 0,332656 69
AUC sonar 0,9809651 190
ACC sonar 0,8557311 3
F1 sonar 0,8317159 21
AUPR sonar 0,9233161 787
AUC spect 0,7760208 939
ACC spect 0,7077586 131
F1 spect 0,7615423 3193
AUPR spect 0,703723 565
AUC tic-tac-toe 1 1
ACC tic-tac-toe 0,989775 1
F1 tic-tac-toe 0,9711006 8
AUPR tic-tac-toe 0,9919669 1
AUC vote 0,9931389 153
ACC vote 0,9472466 229
F1 vote 0,9393747 241
AUPR vote 0,9565788 88
Tabela C.1: Resultados Numéricos - Ótimo Global

Medida Base TL100 TL300 TL500


AUC australian 0,9257233 0,9257233 0,9257233

73
ACC australian 0,8563379 0,8563379 0,8563379
F1 australian 0,8581673 0,8581673 0,8581673
AUPR australian 0,8941679 0,8943071 0,8943071
AUC bands 0,8793563 0,8793563 0,8793563
ACC bands 0,7910715 0,7964286 0,7982143
F1 bands 0,6882469 0,695536 0,7076804
AUPR bands 0,8415639 0,8423897 0,8855846
AUC breast-cancer-w 0,9895481 0,9900592 0,9905954
ACC breast-cancer-w 0,9457549 0,9499215 0,9541077
F1 breast-cancer-w 0,9489267 0,9508867 0,9508867
AUPR breast-cancer-w 0,9439468 0,9464441 0,9486153
AUC bupa 0,7650333 0,7695131 0,7702663
ACC bupa 0,7204956 0,7261262 0,7261262
F1 bupa 0,6379422 0,6434977 0,6434977
AUPR bupa 0,7718466 0,7746059 0,7746059
AUC credit-a 0,9269133 0,9269133 0,9269133
ACC credit-a 0,8563379 0,8577464 0,8577464
F1 credit-a 0,8586534 0,861523 0,861523
AUPR credit-a 0,8922227 0,8922227 0,8922227
AUC credit-g 0,7850207 0,7850207 0,7850207
ACC credit-g 0,7529412 0,7539216 0,7539216
F1 credit-g 0,4853896 0,5052575 0,5052575
AUPR credit-g 0,882454 0,882454 0,882454
AUC diabetes 0,8422419 0,8422419 0,8422419
ACC diabetes 0,7703667 0,7703667 0,7703667
F1 diabetes 0,8268405 0,8273657 0,8273657
AUPR diabetes 0,7191247 0,7191247 0,7191247
AUC german 0,7996157 0,7996157 0,7996157
ACC german 0,7676471 0,7686275 0,7686275
F1 german 0,821122 0,8280299 0,8323458
AUPR german 0,6362299 0,6362299 0,6362299
AUC haberman 0,7161303 0,7161303 0,7184898
ACC haberman 0,7210229 0,7240532 0,7270835
F1 haberman 0,8074518 0,8099506 0,8115668
AUPR haberman 0,4437763 0,4437763 0,4437763
AUC heart-statlog 0,9063258 0,9063258 0,9063258
ACC heart-statlog 0,8206895 0,8344827 0,8344827
F1 heart-statlog 0,8198032 0,8239629 0,8324376
AUPR heart-statlog 0,8578728 0,8578728 0,8578728

74
AUC hepatitis 0,7878924 0,7921892 0,7924156
ACC hepatitis 0,7029411 0,7029412 0,7029412
F1 hepatitis 0,7027992 0,7055265 0,7055265
AUPR hepatitis 0,6918437 0,6978035 0,6989081
AUC house-votes-84 0,9916383 0,9918056 0,9918056
ACC house-votes-84 0,9384061 0,9384543 0,9407247
F1 house-votes-84 0,9331501 0,9343284 0,9349721
AUPR house-votes-84 0,9546097 0,9556255 0,9556255
AUC ionosphere 0,9761041 0,9764026 0,9781347
ACC ionosphere 0,9325747 0,9325747 0,9325747
F1 ionosphere 0,8751621 0,8751621 0,8751621
AUPR ionosphere 0,9619289 0,9624438 0,9630203
AUC kr-vs-kp 0,998962 0,9996085 0,9997924
ACC kr-vs-kp 0,9912955 0,991606 0,991606
F1 kr-vs-kp 0,9880766 0,9880766 0,9880766
AUPR kr-vs-kp 0,996545 0,9967069 0,9968273
AUC labor 1 1 1
ACC labor 0,8553572 0,8553572 0,8553572
F1 labor 0,7138097 0,7233335 0,7233335
AUPR labor 0,8474999 0,8474999 0,8474999
AUC monks1 0,9163585 0,9163585 0,9163585
ACC monks1 0,5103751 0,5103751 0,5103751
F1 monks1 0,3615424 0,3615424 0,3615424
AUPR monks1 0,9067769 0,9130403 0,9067769
AUC monks2 0,8269101 0,8269101 0,8269101
ACC monks2 0,7617255 0,7633899 0,7633899
F1 monks2 0,7541374 0,7559636 0,7559636
AUPR monks2 0,8300167 0,8300167 0,8300167
AUC monks3 0,9220427 0,9229619 0,9268894
ACC monks3 0,4565033 0,4565033 0,4565033
F1 monks3 0,3606419 0,3606419 0,3966413
AUPR monks3 0,9106487 0,9106487 0,9151753
AUC pima-indians-diabetes 0,8419759 0,8419759 0,8419759
ACC pima-indians-diabetes 0,7753165 0,7765824 0,7765824
F1 pima-indians-diabetes 0,8320016 0,833111 0,833111
AUPR pima-indians-diabetes 0,7230695 0,7230695 0,7230695
AUC sick 0,8184499 0,8184499 0,8184499
ACC sick 0,9375018 0,9377656 0,9377656
F1 sick 0,9663504 0,9663504 0,9663504

75
AUPR sick 0,332656 0,332656 0,332656
AUC sonar 0,9768872 0,9809651 0,9809651
ACC sonar 0,8557311 0,8557311 0,8557311
F1 sonar 0,8317159 0,8317159 0,8317159
AUPR sonar 0,8230152 0,8232877 0,9180156
AUC spect 0,7725361 0,7735528 0,7735528
ACC spect 0,7043102 0,7077586 0,7077586
F1 spect 0,71145 0,7148526 0,7204378
AUPR spect 0,6939171 0,6994519 0,703203
AUC tic-tac-toe 1 1 1
ACC tic-tac-toe 0,989775 0,989775 0,989775
F1 tic-tac-toe 0,9711006 0,9711006 0,9711006
AUPR tic-tac-toe 0,9919669 0,9919669 0,9919669
AUC vote 0,9928029 0,9931389 0,9931389
ACC vote 0,9450726 0,9472466 0,9472466
F1 vote 0,9379324 0,9393747 0,9393747
AUPR vote 0,9565788 0,9565788 0,9565788
Tabela C.2: Resultados Numéricos - Transferência de
Aprendizado

Medida Base GS1 GS2


AUC australian 0,9017857 0,923667
ACC australian 0,8211266 0,8436618
F1 australian 0,8247396 0,8396392
AUPR australian 0,8607262 0,8877103
AUC bands 0,5209687 0,8066831
ACC bands 0,575 0,7428572
F1 bands 0,0758839 0,6575194
AUPR bands 0,6783066 0,7935148
AUC breast-cancer-w 0,9871422 0,9919036
ACC breast-cancer-w 0,9401604 0,9484938
F1 breast-cancer-w 0,9423333 0,9495517
AUPR breast-cancer-w 0,9402848 0,9563642
AUC bupa 0,7138613 0,7516264
ACC bupa 0,6351352 0,698874
F1 bupa 0,4559528 0,5820647
AUPR bupa 0,7480665 0,7485649
AUC credit-a 0,9009577 0,9194618

76
ACC credit-a 0,8309856 0,8408449
F1 credit-a 0,8336997 0,8389174
AUPR credit-a 0,8374735 0,8856616
AUC credit-g 0,7511281 0,7776718
ACC credit-g 0,7166667 0,7480393
F1 credit-g 0,2927067 0,4974859
AUPR credit-g 0,8532404 0,8806771
AUC diabetes 0,8137177 0,8248052
ACC diabetes 0,7487018 0,7639564
F1 diabetes 0,8130099 0,8239293
AUPR diabetes 0,6706715 0,6911067
AUC german 0,740957 0,7827082
ACC german 0,7029411 0,7509803
F1 german 0,8150509 0,8295723
AUPR german 0,5110085 0,6101761
AUC haberman 0,7093788 0,7010098
ACC haberman 0,7147729 0,6997161
F1 haberman 0,8120662 0,7972027
AUPR haberman 0,4322703 0,4145975
AUC heart-statlog 0,8744751 0,9126076
ACC heart-statlog 0,7448277 0,8103447
F1 heart-statlog 0,7553214 0,806982
AUPR heart-statlog 0,8058101 0,8537474
AUC hepatitis 0,7001991 0,7564311
ACC hepatitis 0,6068626 0,6526143
F1 hepatitis 0,6508194 0,6842887
AUPR hepatitis 0,6129304 0,680797
AUC house-votes-84 0,9815065 0,989329
ACC house-votes-84 0,9120288 0,9296136
F1 house-votes-84 0,913601 0,9244536
AUPR house-votes-84 0,9185511 0,9438158
AUC ionosphere 0,9839467 0,9796206
ACC ionosphere 0,9056189 0,8948081
F1 ionosphere 0,8407065 0,8281314
AUPR ionosphere 0,9636477 0,959242
AUC kr-vs-kp 0,9950761 0,9970422
ACC kr-vs-kp 0,9614453 0,9766877
F1 kr-vs-kp 0,9557244 0,9715972
AUPR kr-vs-kp 0,9926153 0,9883401

77
AUC labor 0,9583333 0,9861111
ACC labor 0,7440477 0,8571429
F1 labor 0,576367 0,728307
AUPR labor 0,8310184 0,8372684
AUC monks1 0,7082835 0,5983193
ACC monks1 0,4725044 0,4167573
F1 monks1 0,10318 0,2163007
AUPR monks1 0,7065202 0,5928559
AUC monks2 0,7908712 0,8000568
ACC monks2 0,7697902 0,756887
F1 monks2 0,7675229 0,7517105
AUPR monks2 0,7727793 0,8000319
AUC monks3 0,7282271 0,5814677
ACC monks3 0,4528735 0,4460373
F1 monks3 0,2155734 0,250189
AUPR monks3 0,7104709 0,5840359
AUC pima-indians-diabetes 0,7970576 0,8228596
ACC pima-indians-diabetes 0,7398246 0,7575948
F1 pima-indians-diabetes 0,8021352 0,8181781
AUPR pima-indians-diabetes 0,6670799 0,7042872
AUC sick 0,6994608 0,9802098
ACC sick 0,936447 0,9699388
F1 sick 0,9658498 0,9826889
AUPR sick 0,1636658 0,8329684
AUC sonar 0,9273305 0,9493788
ACC sonar 0,6134388 0,8468379
F1 sonar 0,7096962 0,8335441
AUPR sonar 0,8745669 0,8946652
AUC spect 0,7155133 0,7543838
ACC spect 0,6130541 0,7064038
F1 spect 0,7222649 0,7365638
AUPR spect 0,5961307 0,6618082
AUC tic-tac-toe 0,9999561 0,9999012
ACC tic-tac-toe 0,9774985 0,9825795
F1 tic-tac-toe 0,9523589 0,9604177
AUPR tic-tac-toe 0,9919084 0,9918881
AUC vote 0,9835535 0,9909927
ACC vote 0,9142511 0,9384541
F1 vote 0,9177517 0,9331969

78
AUPR vote 0,9223713 0,9466747
Tabela C.3: Resultados Numéricos - Grid Search

Medida Base GSTL100 GSTL300 GSTL500


AUC australian 0,9240694 0,917748 0,9227822
ACC australian 0,8436617 0,8394364 0,8450703
F1 australian 0,8345524 0,83711 0,8345833
AUPR australian 0,8934904 0,887519 0,8974227
AUC bands 0,7981436 0,8001287 0,7917376
ACC bands 0,5857143 0,5839286 0,5839287
F1 bands 0,1282685 0,1019433 0,1202514
AUPR bands 0,8476718 0,8648106 0,8569899
AUC breast-cancer-w 0,9868837 0,9872126 0,9899573
ACC breast-cancer-w 0,9444052 0,9457745 0,9429968
F1 breast-cancer-w 0,9460318 0,945269 0,9472538
AUPR breast-cancer-w 0,935043 0,9316246 0,9295564
AUC bupa 0,7558854 0,7631743 0,7419942
ACC bupa 0,7144146 0,6822824 0,6900152
F1 bupa 0,60939 0,5918484 0,5736099
AUPR bupa 0,7568953 0,7547672 0,7704033
AUC credit-a 0,9174046 0,9182967 0,9111492
ACC credit-a 0,8450702 0,8605633 0,8478871
F1 credit-a 0,8549305 0,8402014 0,8350229
AUPR credit-a 0,884596 0,8818818 0,888176
AUC credit-g 0,7760113 0,7671141 0,7597966
ACC credit-g 0,7392157 0,7313725 0,7274512
F1 credit-g 0,4247077 0,4715442 0,3918597
AUPR credit-g 0,8761758 0,8715976 0,8736086
AUC diabetes 0,8372029 0,831414 0,8368372
ACC diabetes 0,7677701 0,7627393 0,7601591
F1 diabetes 0,8251414 0,8212971 0,8234967
AUPR diabetes 0,7053867 0,7146549 0,7202836
AUC german 0,8009708 0,7921064 0,7922488
ACC german 0,7656863 0,7647058 0,7578432
F1 german 0,8216373 0,8158446 0,8169843
AUPR german 0,6354 0,632778 0,6132999
AUC haberman 0,6344968 0,640438 0,5605117
ACC haberman 0,6993373 0,7211175 0,7080494

79
F1 haberman 0,8147681 0,8047554 0,8017822
AUPR haberman 0,3686258 0,3553049 0,4533693
AUC heart-statlog 0,8988191 0,9014581 0,9040672
ACC heart-statlog 0,8172413 0,8034482 0,8172413
F1 heart-statlog 0,8012189 0,8029874 0,821518
AUPR heart-statlog 0,8472712 0,8620005 0,8579688
AUC hepatitis 0,7697203 0,7989717 0,7609027
ACC hepatitis 0,6683007 0,6281045 0,6849675
F1 hepatitis 0,6684647 0,6665392 0,6616
AUPR hepatitis 0,6705592 0,6450439 0,654535
AUC house-votes-84 0,989725 0,9883085 0,9879162
ACC house-votes-84 0,9405796 0,9427537 0,9406282
F1 house-votes-84 0,9392318 0,930923 0,9333976
AUPR house-votes-84 0,9448402 0,9489153 0,941625
AUC ionosphere 0,9484712 0,9647235 0,9723471
ACC ionosphere 0,9101471 0,9190612 0,9192035
F1 ionosphere 0,8529685 0,8550043 0,865379
AUPR ionosphere 0,9488141 0,9494347 0,9370047
AUC kr-vs-kp 0,9986521 0,9991927 0,9997636
ACC kr-vs-kp 0,9878756 0,987563 0,9900505
F1 kr-vs-kp 0,9858363 0,98534 0,9874505
AUPR kr-vs-kp 0,9963713 0,9965188 0,9963594
AUC labor 0,8305365 0,9833333 0,9833333
ACC labor 0,8446429 0,8553572 0,8553572
F1 labor 0,7159525 0,717143 0,717143
AUPR labor 0,8452777 0,8452777 0,8509998
AUC monks1 0,9237068 0,9145085 0,8980324
ACC monks1 0,5104054 0,4875075 0,510224
F1 monks1 0,2697287 0,2256164 0,2374483
AUPR monks1 0,9001967 0,9022559 0,8990807
AUC monks2 0,8066498 0,8136174 0,7881649
ACC monks2 0,7422426 0,745571 0,7682029
F1 monks2 0,761641 0,7469276 0,7504019
AUPR monks2 0,7940226 0,8154873 0,7871156
AUC monks3 0,9181982 0,9057578 0,9236702
ACC monks3 0,4303085 0,437447 0,4704173
F1 monks3 0,3099201 0,3401153 0,3675362
AUPR monks3 0,8937747 0,8711942 0,8907303
AUC pima-indians-diabetes 0,8303134 0,8346504 0,8375113

80
ACC pima-indians-diabetes 0,7614085 0,7601915 0,7688899
F1 pima-indians-diabetes 0,8256684 0,8205008 0,8220513
AUPR pima-indians-diabetes 0,7200797 0,7060837 0,6931716
AUC sick 0,7787962 0,8104626 0,7928281
ACC sick 0,934868 0,9359149 0,9338141
F1 sick 0,9660749 0,9652845 0,9658919
AUPR sick 0,2821129 0,2458806 0,2948537
AUC sonar 0,9507877 0,949796 0,9539187
ACC sonar 0,8385375 0,8158103 0,8369563
F1 sonar 0,8217303 0,822875 0,8085143
AUPR sonar 0,8220214 0,8064659 0,8824999
AUC spect 0,7316617 0,7594273 0,7679618
ACC spect 0,6897784 0,6974137 0,6799262
F1 spect 0,704308 0,6745211 0,7136959
AUPR spect 0,6411782 0,6786501 0,6365014
AUC tic-tac-toe 1 1 0,9998456
ACC tic-tac-toe 0,9887546 0,9826322 0,9775091
F1 tic-tac-toe 0,9640363 0,9663632 0,9599565
AUPR tic-tac-toe 0,9919875 0,9919359 0,9919789
AUC vote 0,9904696 0,9865649 0,9908629
ACC vote 0,9428987 0,9384543 0,9340097
F1 vote 0,9333084 0,9320182 0,9344081
AUPR vote 0,9365274 0,9388248 0,9384305
Tabela C.4: Resultados Numéricos - Grid Search com
Transferência de Aprendizado

Medida Base MO100 MO300 MO500


AUC australian 0,924721 0,925723 0,925723
ACC australian 0,856338 0,856338 0,856338
F1 australian 0,858167 0,858167 0,858167
AUPR australian 0,891847 0,894307 0,894307
AUC bands 0,879356 0,879356 0,879356
ACC bands 0,785714 0,791072 0,796429
F1 bands 0,688247 0,695536 0,706541
AUPR bands 0,889139 0,893272 0,893272
AUC breast-cancer-w 0,990971 0,991184 0,991643
ACC breast-cancer-w 0,948533 0,949922 0,954108
F1 breast-cancer-w 0,94986 0,950888 0,954061

81
AUPR breast-cancer-w 0,95268 0,95408 0,95635
AUC bupa 0,771472 0,771701 0,778156
ACC bupa 0,723123 0,726126 0,728829
F1 bupa 0,624149 0,639397 0,643498
AUPR bupa 0,778066 0,778066 0,782978
AUC credit-a 0,925932 0,926913 0,926913
ACC credit-a 0,856338 0,857746 0,857746
F1 credit-a 0,858653 0,861523 0,861523
AUPR credit-a 0,892223 0,892223 0,892223
AUC credit-g 0,785021 0,785021 0,785021
ACC credit-g 0,752941 0,753922 0,753922
F1 credit-g 0,487778 0,498923 0,507156
AUPR credit-g 0,882454 0,882454 0,882454
AUC diabetes 0,841048 0,842242 0,842242
ACC diabetes 0,770367 0,770367 0,770367
F1 diabetes 0,827149 0,827366 0,827366
AUPR diabetes 0,718282 0,719125 0,719125
AUC german 0,799616 0,799616 0,799616
ACC german 0,768628 0,768628 0,768628
F1 german 0,839189 0,839482 0,839482
AUPR german 0,63623 0,63623 0,63623
AUC haberman 0,6989 0,705212 0,705212
ACC haberman 0,721023 0,724053 0,727084
F1 haberman 0,807452 0,809951 0,811567
AUPR haberman 0,422752 0,428818 0,428818
AUC heart-statlog 0,906326 0,906326 0,906326
ACC heart-statlog 0,834483 0,834483 0,834483
F1 heart-statlog 0,832438 0,832438 0,832438
AUPR heart-statlog 0,832438 0,857873 0,857873
AUC hepatitis 0,790866 0,792189 0,792189
ACC hepatitis 0,691176 0,702941 0,702941
F1 hepatitis 0,702799 0,714597 0,714597
AUPR hepatitis 0,688226 0,697804 0,697804
AUC house-votes-84 0,991098 0,991165 0,991806
ACC house-votes-84 0,940725 0,940725 0,940725
F1 house-votes-84 0,934901 0,934972 0,935535
AUPR house-votes-84 0,955292 0,955626 0,955626
AUC ionosphere 0,981819 0,984996 0,986026
ACC ionosphere 0,932575 0,932575 0,932575

82
F1 ionosphere 0,873849 0,874778 0,875162
AUPR ionosphere 0,966153 0,968217 0,969127
AUC kr-vs-kp 0,999808 0,999831 0,999847
ACC kr-vs-kp 0,991296 0,991606 0,991606
F1 kr-vs-kp 0,987747 0,988077 0,988077
AUPR kr-vs-kp 0,996818 0,996827 0,996827
AUC labor 1 1 1
ACC labor 0,855357 0,855357 0,855357
F1 labor 0,723334 0,723334 0,723334
AUPR labor 0,8475 0,8475 0,8475
AUC monks1 0,916359 0,919626 0,919626
ACC monks1 0,510375 0,510375 0,510375
F1 monks1 0,064231 0,064231 0,064231
AUPR monks1 0,906777 0,91304 0,91304
AUC monks2 0,812115 0,813774 0,822962
ACC monks2 0,761726 0,76339 0,76339
F1 monks2 0,754137 0,755964 0,755964
AUPR monks2 0,816155 0,817402 0,823989
AUC monks3 0,921715 0,926889 0,926889
ACC monks3 0,456503 0.,4565033 0,456503
F1 monks3 0,217505 0,217505 0,217505
AUPR monks3 0,910649 0,915175 0,915175
AUC pima-indians-diabetes 0,841606 0,841976 0,841976
ACC pima-indians-diabetes 0,774083 0,776582 0,776582
F1 pima-indians-diabetes 0,830923 0,833111 0,833111
AUPR pima-indians-diabetes 0,721039 0,72307 0,72307
AUC sick 0,804677 0,804677 0,804677
ACC sick 0,935392 0,935655 0,937766
F1 sick 0,965184 0,965331 0,966489
AUPR sick 0,288846 0,288846 0,288846
AUC sonar 0,977813 0,980965 0,980965
ACC sonar 0,855731 0,855731 0,855731
F1 sonar 0,831716 0,831716 0,831716
AUPR sonar 0,920988 0,923316 0,923316
AUC spect 0,751456 0,772536 0,772536
ACC spect 0,70431 0,70431 0,707759
F1 spect 0,73326 0,73326 0,733416
AUPR spect 0,66955 0,693917 0,693917
AUC tic-tac-toe 1 1 1

83
ACC tic-tac-toe 0,989775 0,989775 0,989775
F1 tic-tac-toe 0,971101 0,971101 0,971101
AUPR tic-tac-toe 0,991967 0,991967 0,991967
AUC vote 0,992803 0,993139 0,993139
ACC vote 0,942802 0,947247 0,947247
F1 vote 0,935913 0,939375 0,939375
AUPR vote 0,956579 0,956579 0,956579
Tabela C.5: Resultados Numéricos - Multi-Objetivo

Medida Base MOGS100 MOGS300 MOGS500


AUC australian 0,9256288 0,9206614 0,9158132
ACC australian 0,8436617 0,8464786 0,843662
F1 australian 0,8429085 0,8434525 0,839396
AUPR australian 0,8915666 0,8886571 0,8786638
AUC bands 0,8134266 0,7872775 0,8119404
ACC bands 0,5821428 0,5857144 0,5767858
F1 bands 0,1086692 0,123743 0,1035786
AUPR bands 0,8665134 0,8474189 0,8656285
AUC breast-cancer-w 0,9902353 0,986299 0,9889932
ACC breast-cancer-w 0,9429773 0,9429577 0,9415492
F1 breast-cancer-w 0,9462552 0,9445943 0,9449928
AUPR breast-cancer-w 0,9529794 0,9371875 0,9454125
AUC bupa 0,7613805 0,7490317 0,7460903
ACC bupa 0,709835 0,7066818 0,6959461
F1 bupa 0,6057485 0,6019312 0,5969555
AUPR bupa 0,7656896 0,7686573 0,7529565
AUC credit-a 0,9121602 0,9179386 0,912165
ACC credit-a 0,8436618 0,8535209 0,8507041
F1 credit-a 0,8438992 0,8537189 0,8490338
AUPR credit-a 0,8801759 0,8780808 0,8764593
AUC credit-g 0,7704553 0,7678755 0,7609426
ACC credit-g 0,7362744 0,7382353 0,7411765
F1 credit-g 0,4453307 0,4359636 0,4886229
AUPR credit-g 0,8729815 0,8688779 0,8660611
AUC diabetes 0,8332686 0,8241414 0,8225202
ACC diabetes 0,7676728 0,7677701 0,7589093
F1 diabetes 0,8257032 0,825596 0,8189884
AUPR diabetes 0,7022701 0,699072 0,6993517

84
AUC german 0,7922456 0,7743249 0,796453
ACC german 0,7617647 0,7450981 0,7637255
F1 german 0,8329305 0,8229147 0,835273
AUPR german 0,6290406 0,5953426 0,6436567
AUC haberman 0,6822989 0,6515816 0,6413873
ACC haberman 0,6993373 0,7153411 0,7057767
F1 haberman 0,7931865 0,8057513 0,8001138
AUPR haberman 0,4276265 0,4048779 0,4018446
AUC heart-statlog 0,9044463 0,9167431 0,8986393
ACC heart-statlog 0,8034482 0,8275863 0,813793
F1 heart-statlog 0,8098667 0,8294396 0,8173763
AUPR heart-statlog 0,8622215 0,8568592 0,8331197
AUC hepatitis 0,7459439 0,7648572 0,7806614
ACC hepatitis 0,6761437 0,6689542 0,6787581
F1 hepatitis 0,6994493 0,6911432 0,7025832
AUPR hepatitis 0,6479554 0,6831592 0,6760036
AUC house-votes-84 0,988379 0,9868091 0,9897792
ACC house-votes-84 0,9385991 0,9408214 0,934058
F1 house-votes-84 0,9323075 0,9350884 0,9275001
AUPR house-votes-84 0,9535812 0,9381259 0,9476527
AUC ionosphere 0,9720899 0,96998 0,9695165
ACC ionosphere 0,9243955 0,9110954 0,9083216
F1 ionosphere 0,8615806 0,8431829 0,8440562
AUPR ionosphere 0,9584529 0,9553632 0,9511894
AUC kr-vs-kp 0,9994385 0,9996464 0,99945
ACC kr-vs-kp 0,9884947 0,9866343 0,9881832
F1 kr-vs-kp 0,9846828 0,9830298 0,9844162
AUPR kr-vs-kp 0,9965035 0,9966687 0,9964951
AUC labor 0,9833333 0,9833333 0,9833333
ACC labor 0,8553572 0,8553572 0,8553572
F1 labor 0,7266668 0,7266668 0,7266668
AUPR labor 0,8341666 0,8341666 0,8341666
AUC monks1 0,9039554 0,9079713 0,909413
ACC monks1 0,5104658 0,5103448 0,444888
F1 monks1 0,0645031 0,0644034 0,1062459
AUPR monks1 0,8946202 0,8925841 0,9037198
AUC monks2 0,8038029 0,7878621 0,7947429
ACC monks2 0,7681262 0,7519968 0,7504099
F1 monks2 0,7636365 0,7508457 0,7433536

85
AUPR monks2 0,7971327 0,7783473 0,7953915
AUC monks3 0,9113924 0,912179 0,910297
ACC monks3 0,4235631 0,4374471 0,458318
F1 monks3 0,2985322 0,244909 0,2788366
AUPR monks3 0,8920879 0,8165581 0,8933559
AUC pima-indians-diabetes 0,8402922 0,8349603 0,8312875
ACC pima-indians-diabetes 0,7665532 0,7666017 0,7599482
F1 pima-indians-diabetes 0,8230766 0,8245756 0,8203041
AUPR pima-indians-diabetes 0,7233674 0,7085693 0,6946356
AUC sick 0,7457487 0,7520871 0,7624227
ACC sick 0,9335454 0,9338133 0,9359201
F1 sick 0,9641469 0,9642663 0,9654494
AUPR sick 0,2184855 0,2238129 0,2334162
AUC sonar 0,9548492 0,9603808 0,9634342
ACC sonar 0,8332015 0,8464427 0,8594861
F1 sonar 0,8176013 0.,8268685 0,8391482
AUPR sonar 0,8991715 0,908737 0,8948598
AUC spect 0,7344667 0,7529898 0,7309605
ACC spect 0,6794336 0,7108374 0,6794335
F1 spect 0,7177981 0,7459481 0,7227638
AUPR spect 0,6403294 0,6534538 0,6442284
AUC tic-tac-toe 1 1 1
ACC tic-tac-toe 0,9887546 0,9866822 0,989775
F1 tic-tac-toe 0,9694474 0,966189 0,9711464
AUPR tic-tac-toe 0,9919495 0,9919747 0,9919539
AUC vote 0,9913706 0,9880784 0,9859461
ACC vote 0,9341064 0,9385025 0,9318358
F1 vote 0,929757 0,9330741 0,9272654
AUPR vote 0,9465381 0,9404623 0,9419076
Tabela C.6: Resultados Numéricos - Multi-objetivo com
Grid Search

86

You might also like