Ajuste de parâmetros em SVMs usando transferência de aprendizado

Universidade Federal do ABC
Centro de Matemática, Computação e Cognição (CMCC)

Pós-Graduação em Ciência da Computação
Gabriela Martins Gonçalves de Oliveira
AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE

MÁQUINA UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO
Dissertação de Mestrado
Santo André - SP
2014
Gabriela Martins Gonçalves de Oliveira
AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE

MÁQUINA UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO
Dissertação de Mestrado
Dissertação de Mestrado apresentada ao Curso de Pós-Graduação da Universidade

Federal do ABC como requisito parcial para obtenção do grau de Mestre em Ciência da
Computação
Orientador: Prof. Dr. Ronaldo Cristiano Prati
Santo André - SP
2014
Declaração de atendimento às observações
Este exemplar foi revisado e alterado em relação à versão original, de acordo

com as observações levantadas pela banca no dia da defesa, sob responsabilidade
única do autor e com a anuência de seu orientador.
Santo André, 28 de Agosto de 2014.
Assinatura do autor:
Assinatura do orientador:
Resumo
Aprendizado de Máquina (AM) estuda maneiras de construir algoritmos que melhoram

o seu desempenho conforme a experiência, e possue aplicações em muitas áreas. Apesar
dessa aplicabilidade, os algoritmos de AM possuem limitações que podem dificultar seu
uso em escala. O ajuste dos parâmetros livres, por exemplo, é uma tarefa geralmente feita
de maneira ad hoc, e que afeta diretamente o desempenho do algoritmo. Para que um bom
desempenho seja obtido é necessário que o usuário tenha algum conhecimento tácito e di-
ferentes configurações de parâmetros devem ser testadas. Em muitas situações, o número
de configurações a ser testadas é grande, o que demanda muito tempo. Uma alternativa
é definir o problema como uma busca no espaço de parâmetros, o que pode ser compu-
tacionalmente caro e demorado de realizar. Além disso, para aplicar o algoritmo a um
problema diferente, todo o trabalho deve ser refeito, sem reaproveitar nada de experiên-
cias anteriores. Uma das alternativas para minimizar esse retrabalho de um domı́nio para
outro é a transferência de aprendizado (do inglês transfer learning), que objetiva melhorar
a função preditiva de um domı́nio de destino a partir de algum conhecimento do domı́nio
de origem. Neste trabalho investigamos o ganho de esforço em ajuste de parâmetros ao
diminuir o espaço de busca das possibilidades a partir da transferência de aprendizado. Os
resultados obtidos com esta abordagem foram comparados com algumas variações do Grid
Search, comumente utilizadas nestes casos. Observou-se um desempenho competitivo e,
em alguns experimentos, superiores com significância estatı́stica.
Abstract
Machine learning studies algorithms that improves its performance with experience in a
given task. It has numerous applications in different areas. Despite this applicability, Ma-
chine Learning algorithms have limitations that can hinder their use in large scale without
a considerable effort. The tuning of the free parameters, for instance, is a task usually
carried out on an ad hoc manner, which directly affects the performance of the algorithm.
To obtain a good performance it is necessary that the use of some tacit knowledge and
different combinations of parameters must be tested. In many situations, the number of
configurations that needs to be tested is so large that the task become very time consu-
ming. An alternative approach is to define the problem as a search in the parameters
space. However, this approach can be computationally expensive and time consuming.
Furthermore, to apply the algorithm on a different problem, all work must be restarted
from scratch without any reuse of previous experiences. An alternative to minimize this
rework from a task to another is the use transfer of learning, whose goal is to improve the
predictive function of a target domain by reusing some knowledge of the origin domain. In
this dissertation we investigate the gain of effort in setting parameters to reduce the search
space of possibilities from the transfer of learning. The results from this approach were
compared with Grid Search, commonly used in these cases. We observed a competitive
performance and, in some cases an improvement with statistical significance.
Sumário
Sumário i
Lista de Figuras v
Lista de Tabelas vii
1 Introdução 1
1.1 Objetivos e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Referencial Teórico 5
2.1 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Avaliação de Classificadores . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Testes Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Teoria do Aprendizado Estatı́stico . . . . . . . . . . . . . . . . . . . 12
2.2.2 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 SVMs com Margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 SVMs com Margens Suaves . . . . . . . . . . . . . . . . . . . . . . 15
2.2.5 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.6 SVMs em Outros Problemas . . . . . . . . . . . . . . . . . . . . . . 17
2.2.7 Vantagens e Desvantagens das SVMs . . . . . . . . . . . . . . . . . 17
2.3 Seleção do Modelo e Ajuste de Parâmetros . . . . . . . . . . . . . . . . . . 18
i
2.3.1 Ajuste de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Ajuste de Parâmetros de SVMs . . . . . . . . . . . . . . . . . . . . 19
2.4 Transferência de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.1 Configurações de Transferência de Aprendizado . . . . . . . . . . . 22
2.5 Trabalhos Relacionados - Ajuste de Parâmetros com Transferência de Co-

nhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Medidas de Complexidade de Domı́nios . . . . . . . . . . . . . . . . . . . . 26
2.6.1 Medidas de sobreposição . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6.2 Medidas de separabilidade das classes . . . . . . . . . . . . . . . . . 27
2.6.3 Medidas de geometria e densidade . . . . . . . . . . . . . . . . . . . 29
2.6.4 Medidas Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Abordagem Proposta 33
3.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Resultados e Discussões 37
4.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Transferência de Aprendizado versus Grid Search . . . . . . . . . . 42
4.2.2 Grid Search versus Grid Search com Transfer Learning . . . . . . . 45
4.2.3 Grid Search versus Transfer Learning versus Multi-Objetivo . . . . 45
4.2.4 Grid Search com Multi-Objetivo versus Multi-Objetivo . . . . . . . 48
4.2.5 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5 Considerações Finais 57
Referências Bibliográficas 59
A Lista de Acrônimos 63
ii
B Distância entre as bases de dados 65
C Resultados Numéricos dos Algoritmos 71
iii
iv
Lista de Figuras
2.1 Geração e utilização de um modelo classificador . . . . . . . . . . . . . . . 6
2.2 Espaço ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Exemplo de gráfico ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Ideia de hiperplano ótimo para exemplos linearmente separáveis . . . . . . 14
2.6 SVM com margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 SVM com margens suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Transformação linear com a função de Kernel . . . . . . . . . . . . . . . . 16
2.9 Conferências com trabalhos sobre transferência de aprendizado . . . . . . . 21
2.10 Visão Geral das configurações da Transferência de Aprendizado . . . . . . 23
2.11 Exemplo de Configuração de Transferência de Aprendizado . . . . . . . . . 25
3.1 Etapas da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Visualização da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . 36
4.1 Transferência de aprendizado versus Grid Search - Desempenho por base

de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Transferência de Aprendizado versus Grid Search - Diagrama de diferenças

crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Grid Search versus Grid Search com Transferência de Aprendizado - De-
sempenho por base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4 Grid Search versus Grid Search com Transferência de Aprendizado - Dia-
grama de diferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Grid Search versus Transfer Learning versus Multi-Objetivo - Desempenho

por base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
v
4.6 Grid Search versus Transfer Learning versus Multi-Objetivo - Diagrama
de diferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.7 Grid Search com Multi-Objetivo versus Multi-Objetivo - Desempenho por
base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.8 Grid Search com Multi-Objetivo versus Multi-Objetivo - Diagrama de di-
ferenças crı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.9 Normalized Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
vi
Lista de Tabelas
2.1 Conjunto de dados para o diagnóstico da saúde de paciente . . . . . . . . . 5

2.2 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1 Resumo das caracterı́sticas dos conjuntos de dados utilizados nos experi-
mentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Domı́nios de origem e destino, de acordo com a metodologia proposta . . . 40
4.3 Posição da melhor configuração de parâmetros na abordagem proposta . . 53
B.1 Distância entre as Bases de Dados - Parte 1 . . . . . . . . . . . . . . . . . 65

C.1 Resultados Numéricos - Ótimo Global . . . . . . . . . . . . . . . . . . . . . 73

C.2 Resultados Numéricos - Transferência de Aprendizado . . . . . . . . . . . . 76
C.3 Resultados Numéricos - Grid Search . . . . . . . . . . . . . . . . . . . . . . 79
C.4 Resultados Numéricos - Grid Search com Transferência de Aprendizado . . 81
C.5 Resultados Numéricos - Multi-Objetivo . . . . . . . . . . . . . . . . . . . . 84
C.6 Resultados Numéricos - Multi-objetivo com Grid Search . . . . . . . . . . 86
vii
viii
Capı́tulo 1
Introdução
Aprendizado de Máquina (AM) é uma sub-área de pesquisa da inteligência computacio-

nal que estuda como desenvolver sistemas capazes de adquirir conhecimento de maneira
automática, ou seja, sistemas que melhoram automaticamente seu desempenho com a
experiência (Mitchell, 1997). Os algoritmos de AM constroem sistemas capazes de inferir
um modelo a partir de um conjunto de dados de treinamento. Esse modelo pode então
ser aplicado a dados não vistos na etapa de treinamento, para realizar previsões a respeito
desses dados.
O aprendizado indutivo pode ser classificado como aprendizado supervisionado, não-
supervisionado e parcialmente supervisionado, ou semi-supervisionado. No aprendizado
supervisionado cada exemplo possui um atributo especial (ou um conjunto de atributos,
no caso de AM multirrótulo), o qual desejamos prever. Se os rótulos forem discretos, o
problema é conhecido como classificação; e se forem contı́nuos, como regressão (Mitchell,
1997). No aprendizado não supervisionado, também chamado de agrupamento, o algo-
ritmo não conhece as classes reais dos exemplos, e por isso o agrupamento é feito por meio
da extração de padrões de seus atributos (Bandyopadhyay and Saha, 2012). No apren-
dizado parcialmente supervisionado há exemplos rotulados e exemplos não rotulados, e
ambos são utilizados durante a etapa de aprendizado (Chapelle et al., 2010).
Uma famı́lia de algoritmos de aprendizado de máquina que vem ganhando interesse nos
últimos anos são as Máquinas de Vetores de Suporte (Support Vector Machines (SVM)),
devido aos resultados, na maioria das vezes competitivos ou superiores a outras aborda-
gens, em diferentes áreas de aplicação de tarefas especı́ficas, com destaque para Bioinfor-
mática, Categorização de Texto, Reconhecimento de Fala e Mineração de Dados (Rossi,
2009; Faceli et al., 2011).
As SVMs são fundamentadas na Teoria do Aprendizado Estatı́stico (TAE) e possuem
uma série de ajustes que devem ser realizados para que seja construı́do um modelo com
boa capacidade de generalização. A partir de um mesmo algoritmo de SVM é possı́vel
1
gerar diferentes modelos, modificando as suas configurações de parâmetros. O problema
de escolher o melhor entre os diversos modelos disponı́veis é chamado de seleção de modelo.
Em geral, o objetivo é minimizar o erro de generalização, ou outra função de perda, para
novos exemplos. Minimizar o erro de treinamento pode causar overfitting, ou seja, o
modelo pode memorizar os exemplos do conjunto de treinamento em vez de extrair suas
caracterı́sticas gerais, o que, por exemplo, prejudica o desempenho para novos exemplos.
Na prática, o problema de seleção de modelo para o mesmo algoritmo pode ser reduzido
ao ajuste dos valores de parâmetros.
Grande parte dos algoritmos de AM possuem parâmetros cujos valores devem ser
especificados pelo usuário. Esses valores para os parâmetros livres, em geral, influenciam
diretamente o desempenho de modelos induzidos, o que pode ser entendido como uma
limitação das técnicas de AM (Rossi, 2009). O objetivo do processo de ajuste desses
parâmetros pode ser visto como encontrar os valores mais adequados dos parâmetros
livres para um determinado conjunto de dados. O ajuste de parâmetros com o intuito
de obter melhor desempenho e maior robustez dessas técnicas é uma tarefa que exige
conhecimento tácito, e pode consumir muito tempo e recursos computacionais.
Por essa razão, técnicas alternativas de otimização, baseadas em busca heurı́stica, têm
sido aplicadas para ajustar, de forma automática, os parâmetros livres dos algoritmos
de AM. Algumas dessas técnicas têm obtido resultados promissores, como Algoritmos
Genéticos (AG) (Linden, 2012), Simulated Annealing (Kirkpatrick et al., 1983), Tabu
Search (Glover, 1997) e Particle Swarm Optimization (PSO) (Blum and Merkle, 2008).
Porém, neste caso, além do trabalho desempenhado para construir o classificador, tam-
bém se tem o trabalho de construir um novo algoritmo que ajuste os parâmetros de forma
automática. Na maioria dos casos, esses algoritmos introduzem novos parâmetros que
devem ser ajustados (por exemplo, o tamanho da população em algoritmos genéticos).
Além disso, ao tentar solucionar um novo problema de domı́nio diferente, todo o trabalho
precisa ser refeito para o novo problema. Em outras palavras, nada é aproveitado. Nesses
contexto, a transferência de aprendizado, se feita com sucesso, pode melhorar muito o
desempenho do aprendizado, evitando esforços muito caros com ajustes de parâmetros.
Transferência de aprendizado é uma técnica que objetiva melhorar o desempenho da fun-
ção de aprendizagem de um domı́nio de destino utilizando conhecimento de um domı́nio
de origem (Pan and Yang, 2010). Nos últimos anos, a transferência de aprendizado tem
emergido como uma nova estrutura de aprendizagem.
Neste trabalho investigamos o uso de técnicas de tranferência de aprendizado para o
problema de ajuste e otimização de parâmetros em algoritmos de aprendizado de máquina,
em especial para SVMs. O propósito do trabalho consistiu em investigar maneiras de
transferir conhecimento, na forma de boas configurações de parâmetros, de um domı́nio
origem para um domı́nio alvo, com o intuito de diminiur o custo do processo de ajuste de
2
parâmetros no domı́nio alvo.
A abordagem utilizada construiu uma meta-base com diversos domı́nios de origem e
extraiu meta-informação a respeito desses domı́nios. Nos domı́nios de origem foi feita
uma busca mais completa, armazenando-se possı́veis configurações de parâmetros mais
promissoras. Para realizar uma busca em um domı́nio de destino, compararou-se a meta-
informação contida no domı́nio de destino com todas as meta-informações contidas nos
domı́nios de origem, a fim de encontrar a base de origem mais similar à base de destino.
Assim, usamos as configurações de parâmetros mais promissoras do domı́nio de origem
para iniciar a busca no domı́nio alvo. Essa foi a estratégia de ação adotada neste trabalho.
1.1 Objetivos e Hipótese
O objetivo geral deste trabalho é verificar se há ganhos de desempenho a partir da mini-
mização do espaço de busca obtida através da transferência de aprendizado de parâmetros
entre algoritmos de AM. Como objetivos especı́ficos, investigamos maneiras de transfe-
rir conhecimento para o ajuste de parâmetros, bem como identificar situações em que a
transferência de aprendizado pode ser vantajosa neste cenário.
A hipótese do trabalho é que a transferência de conhecimento, na forma de parâme-
tros com um bom desempenho de um domı́nio de origem para um domı́nio de destino,
possa trazer ganhos de desempenho com menor esforço para o aprendizado do domı́nio
de destino, no que se refere ao ajuste de parâmetros desses algoritmos para o domı́nio de
destino.
Para verificar a hipótese foram realizados experimentos em que melhores configurações
de parâmetros em uma base de dados (a base de dados de origem) foram transferidos
para uma outra base de dados (destino). A escolha da base de dados de origem foi feita
verificando-se a similaridade entre bases por meio de medidas de complexidade dessas
bases. Os experimentos foram realizados com dez mil combinações de parâmetros do
algoritmo SVMs para vinte e quatro bases de dados.
Resultados preliminares deste trabalho foram publicados no X Encontro Nacional de
Inteligência Artificial e Computacional (ENIAC). Esse trabalho também foi convidado
para submissão de versão expandida para o Journal of Intelligent & Robotic Systems,
ainda em avaliação na finalização desta dissertação.
3
1.2 Organização da Monografia
O restante desta monografia está organizado da seguinte maneira: no Capı́tulo 2 é apre-

sentada a revisão bibliográfica relacionada a este prejeto. No Capı́tulo 3 é apresentada a
ideia geral e abordagem deste trabalho. No Capı́tulo 4 é apresentada a metodologia, os
resultados obtidos e as comparações com outras técnicas. No Capı́tulo 5 é apresentada
uma discussão final dos resultados gerados por este trabalho.
1.3 Considerações Finais
Neste capı́tulo foi abordado, de forma introdutória, o problema tratado neste trabalho.
Tópicos como a importância dos algoritmos de aprendizado de máquina, a ascensão das
SVMs, suas limitações e possı́veis formas de minimizar essas limitações foram vistas de
forma superficial. Nos próximos capı́tulos, cada um desses tópicos será tratado de maneira
mais abrangente, a fim de consolidar as teorias que envolvem este trabalho.
4
Capı́tulo 2
Referencial Teórico
Neste capı́tulo são apresentados os principais conceitos sobre as áreas envolvidas neste tra-
balho. Foram estudados conceitos como Classificação, Aprendizado de Máquina, Trans-
ferência de Aprendizado e Medidas de Complexidade em problemas de classificação.
2.1 Classificação
Em um problema de classificação os dados de entrada são descritos por um conjunto de

atributos, sendo um deles o rótulo da classe à qual o exemplo pertence1 . Na Tabela 2.1
é exemplificado um conjunto de dados para a classificação de diagnóstico de saúde de
um paciente. Cada linha representa um paciente e cada coluna um atributo. O atributo
diagnóstico é especial por representar o rótulo a qual um exemplo pertence, que neste
caso pode assumir os valores saudável ou doente.
Exemplo Febre Enjôo Manchas Dor Diagnóstico

E1 Sim Sim Pequenas Sim Doente
E2 Não Não Grandes Não Saudável
E3 Sim Sim Pequenas Não Saudável
E4 Sim Não Grandes Sim Doente
E5 Sim Não Pequenas Sim Saudável
E6 Não Não Grandes Sim Doente
Tabela 2.1: Conjunto de dados para o diagnóstico da saúde de paciente. Adaptado de

(Rossi, 2009).
As técnicas de Aprendizado de Máquina (AM) utilizam algoritmos de aprendizado

para construir um modelo de classificação, que relaciona os atributos e os rótulos das
classes. Um desafio importante dos algoritmos de aprendizado é construir modelos que
1
Alguns problemas contêm mais de um rótulo a ser predito. Esses problemas são conhecidos como
problemas de classificação multirrótulo.
5
possuam boa capacidade de generalização e, em alguns casos, interpretabilidade humana.
Os algoritmos que possuem boa capacidade de generalização são aqueles que conseguem
predizer, com alta taxa de acerto, as classes de exemplos não vistos durante a construção
do modelo. Os algoritmos que não possuem boa interpretabilidade são chamados de
caixa-preta e como exemplo pode-se citar as Redes Neurais Artificiaiss (RNAs). Como
contraexemplo pode-se citar as Árvores de Decisão e os Sistemas Fuzzy, conhecidos como
caixa-branca.
Na Figura 2.1 é ilustrado o processo de geração e uso de um modelo classificador. Os
exemplos rotulados são induzidos para geração do modelo e a dedução é feita em exemplos
ainda não rotulados.
Figura 2.1: Geração e utilização de um modelo classificador. Adaptado de (Rossi, 2009).
Na realização de experimentos, o rótulo dos exemplos usados no conjunto de teste

é conhecido, porém, este atributo é omitido para simular as aplicações reais da técnica.
Como todos os dados possuem todos os atributos, a divisão entre conjunto de treinamento
e conjunto de teste poderia ser feita de diversas maneiras, mas, para tentar ter uma
estimativa mais realista de seu desempenho, se utiliza os métodos de amostragem que
serão detalhados na Subsecção 2.1.1.
2.1.1 Avaliação de Classificadores
Existem diferentes técnicas de AM, mas não existe uma que apresente melhor desempenho
para todos os casos. Esse problema é conhecido como no free lunch theorem (Wolpert,
1996). Um ponto importante ao estudar técnicas de AM é o método de amostragem utili-
zado para indução do classificador (Rossi, 2009). O objetivo dos métodos de amostragem
é constituir os conjuntos de treinamento (dados usados para o aprendizado) e teste (dados
usados para avaliar o desempenho do classificador) a partir de uma única base, a fim de
6
obter estimativas confiáveis a respeito do desempenho dos classificadores. Como exemplo
pode-se citar as técnicas:
Holdout - Divide o conjunto de dados em uma porcentagem fixa para treinamento e
teste (2/3 e 1/3, respectivamente, são valores bastante utilizados).
Amostragem Aleatória - Consiste em repetir a técnica holdout várias vezes. São ge-
rados conjuntos de treinamento e teste aleatoriamente e então, são induzidos modelos a
partir de cada conjunto de treinamento. Esses modelos são avaliados no conjunto de teste.
A estimativa final do erro é a média dos erros dos modelos para os conjuntos de testes.
Validação Cruzada (Cross-Validation (CV)) - Divide-se os exemplos em partições dis-
juntas, chamadas de folds. O número k de folds utilizados pode variar conforme a quan-
tidade de exemplos e a proporção de exemplos em cada classe, sendo 10 um valor tı́pico.
Um fold é utilizado para teste e o resto para treinamento. Este processo é repetido k
vezes até que todos os folds tenham sido utilizados para teste.
Leave-One-Out - Esta técnica é semelhante à Validação Cruzada, em que cada exemplo
é um fold. Um exemplo é usado para teste e o restante para treinamento. O processo é
repetido n vezes, em que n é o número de exemplos, até que todos os exemplos tenham
sido usados para teste. Este processo tem um alto custo já que ele precisa ser repetido
para cada exemplo.
Bootstrap - Repete-se o processo de classificação diversas vezes. Em cada repetição
um novo conjunto de treinamento é obtido por amostragem com reposição a partir dos
exemplos originais, e os exemplos que não foram amostrados compõem o conjunto de teste.
Uma vez escolhido um método de amostragem, deve-se definir as métricas para avaliar
o desempenho dos classificadores. Uma maneira é basear-se no número correto e incorreto
de predições realizadas pelo classificador. Isso é feito organizando os dados em uma tabela,
chamada matriz de confusão, como mostrado na Tabela 2.2 para um problema de duas
classes.
Classe Predita
Classe Verdadeira Positiva Negativa
Positiva VP FN
Negativa FP VN
Tabela 2.2: Matriz de Confusão
Os elementos que compõem a Tabela 2.2 estão descritos a seguir:

Verdadeiro Positivo (VP): Total de exemplos preditos como pertencentes à classe
positiva e que realmente pertencem à classe positiva;
Verdadeiro Negativo (VN): Total de exemplos preditos como pertencentes à classe
negativa e que realmente pertencem à classe negativa;
7
Falso Positivo (FP): Total de exemplos preditos como pertencentes à classe posi-
tiva, mas que pertencem à classe negativa;
Falso Negativo (FN): Total de exemplos preditos como pertencentes à classe ne-
gativa, mas que pertencem à classe positiva;
Utilizando a matriz de confusão é possı́vel calcular a taxa de acerto, também chamada
de acurácua (do inglês Accuracy (ACC)) (proporção de exemplos classificados correta-
mente), taxa de erro (proporção de exemplos classificados incorretamente), como mostrado
nas Equações 2.1 e 2.2, respectivamente.
VP +VN
Taxa de acerto = (2.1)
V P + V N + FP + FN
Taxa de erro = 1 − Taxa de acerto (2.2)
Também é possı́vel calcular a taxa de verdadeiros positivos (proporção de um exemplo

pertencente à classe positiva ser predito como positivo), também conhecida como sensibi-
lidade ou revocação (do inglês recall ), taxa de falsos positivos (proporção de um exemplo
pertencente à classe negativa ser predito como positivo), a especificidade (proporção de
um exemplo pertencente à classe negativa ser predito como negativo) e a medida de preci-
são (proporção da predição positiva estar correta) como mostrado nas Equações 2.3, 2.4,
2.5 e 2.6 respectivamente.
VP
TV P = (2.3)
V P + FN
FP
TFP = (2.4)
FP + V N
VN
Especificidade = (2.5)
V N + FP
VP
Precisão = (2.6)
V P + FP
A matriz de confusão também permite calcular a Medida F1, que combina de maneira
balanceada as medidas de precisão e taxa de verdadeiros positivos, como mostrado na
Equação 2.7.
2
Medida F1 = 1 1 (2.7)
Precisão + Revocação
8
Além disso, também é possı́vel construir o gráfico Receiver Operating Characteris-
tics (ROC) (Prati et al., 2008), que têm sido muito utilizadas em AM para avaliar classi-
ficadores. Um gráfico ROC apresenta os possı́veis compromissos entre erros (falsos posi-
tivos) e acertos (verdadeiros positivos) com relação à classe positiva e pode ser utilizado
para comparar, visualizar, organizar e selecionar classificadores binários que produzem
como saı́da valores de confidência de classificação (Prati et al., 2011). Na Figura 2.2 é
ilustrado o espaço ROC. Qualquer classificador que fique abaixo da diagonal principal
possui desempenho pior que o aleatório, ou seja, não é um bom classificador.
Figura 2.2: Espaço ROC. Adaptado de (Flach, 2004)
Um modelo de classificação é representado por um ponto no espaço ROC. Na Figura

2.3 é exemplificada a comparação entre cinco classificadores (A, B, C, D e E). Um clas-
sificador mais próximo a origem do gráfico é considerado conservador, pois aceita poucos
falsos positivos, mas consequentemente penaliza bastante o desempenho dos verdadeiros
positivos. Já um classificador mais próximo à outra extremidade é considerado liberal,
pois aceita bastante falsos positivos, mas possui bom desempenho com os verdadeiros
positivos.
O fecho convexo (do inglês Convex Hull ) é o menor polı́gono convexo que consegue
abrangir, com o menor número de arestas, todos os classificadores dispersos no espaço
ROC. Os classificadores internos ao polı́gono não podem ter taxa de acerto maior que os
classificadores que estão exatamente sobre uma aresta do polı́gono. Mais de um classifi-
cador pode ficar sobre uma aresta do polı́gono, em diferentes pontos. Neste caso, a taxa
de acerto desses classificadores pode ser diferente, dependendo da proporção de exemplos
9
Figura 2.3: Exemplo de gráfico ROC. Adaptado de (Flach, 2004)
entre as classes positiva e negativa.

Alguns algoritmos prevêem um valor contı́nuo em vez da classe e, portanto, é preciso
definir um limiar que divide todos os valores abaixo desse limiar como pertencentes a uma
classe e todos os valores acima desse limiar como pertencentes a outra classe. Também é
possı́vel simular o desempenho do classificador com vários limiares, e não apenas em um
como descrito no exemplo anterior. Nesse caso, o desempenho do classificador pode ser
representado por uma curva no espaço ROC - a curva ROC. Na Figura 2.4 é ilustrado
o desempenho de dois classificadores com a curva ROC. Nesse caso, o desempenho do
classificador ilustrado em vermelho possui desempenho superior ao ilustrado em azul para
todos os valores dos possı́veis limiares.
Uma medida para sumarizar essa curva é a área abaixo da curva (Area Under Curve
(AUC)) ROC, que pode variar entre zero e um. Uma área grande é um bom indicativo
de boa separação de exemplos entre as classes positiva e negativa e, consequentemente,
de um um classificador com melhor desempenho.
Outro recurso utilizado é a curva Precision-Recall (PR). A curva PR, assim como
a curva ROC, é uma ferramenta de avaliação para classificação binária que permite a
visualização do desempenho do classificador com diferentes limiares. A curva PR mostra
o compromisso entre precisão e revocação, e está sendo cada vez mais usada pela comu-
nidade de aprendizado de máquina para bases de dados desbalanceadas, onde uma classe
é observada com mais frequência que a outra classe. Nesses casos, a curva PR é uma
10
Figura 2.4: Exemplo de curva ROC. Adaptado de (Prati et al., 2008)
alternativa à curva ROC por realçar a diferença de desempenho entre as configurações,

que é perdida na curva ROC. Além da curva PR, também podemos usar a área abaixo
da curva PR (AUPR). AUPR é uma medida geral independente do desempenho de um
limiar em particular (Boyd et al., 2013).
2.1.2 Testes Estatı́sticos
A taxa de acerto, ou qualquer outra medida de desempenho, pode ser utilizada para
comparar dois algoritmos de aprendizagem em um mesmo conjunto de dados utilizando
um teste de hipóteses t-pareado (Mitchell, 1997). Com esse teste, é possı́vel avaliar se
houve diferença significativa entre o desempenho dos algoritmos para um determinado
conjunto de dados.
Para testes com múltiplos algoritmos e múltiplos conjuntos de dados utiliza-se o teste
não paramétrico de Friedman (Demšar, 2006), e com ele é possı́vel verificar se há ou
não diferenças significativas entre os diferentes classificadores para todos os conjuntos de
dados e algoritmos.
Caso o teste de Friedman rejeite a hipótese de que o desempenho dos classificadores
são equivalentes, é possı́vel usar testes post hoc para detectar essas diferenças, como o
teste de Nemeryi (Demšar, 2006).
11
2.2 Máquinas de Vetores de Suporte
As Máquinas de Vetores de Suporte (do inglês Support Vector Machiness (SVMs)) são
baseadas na Teoria do Aprendizado Estatı́stico (TAE), mais especificamente na Teoria
da Minimização do Risco Estrutural, como é descrito na Seção 2.2.1. Os vetores de
suporte utilizados pelas SVMs são exemplos que estão próximos da superfı́cie de decisão
e, portanto, são os mais difı́ceis de serem classificados. São esses exemplos que influenciam
diretamente na localização da superfı́cie de decisão.
As SVMs podem ser aplicadas em fronteiras linearmente separáveis (com margens
rı́gidas ou margens suaves) e não linearmente separáveis, como é descrito nas Seções 2.2.2
e 2.2.5.
2.2.1 Teoria do Aprendizado Estatı́stico
A TAE estabelece condições matemáticas que auxiliam na escolha de um classificador

dentre todos aqueles que poderiam ser induzidos. Essa escolha se baseia na complexidade
e no desempenho diante de um conjunto de treinamento, objetivando um bom desempenho
diante de novos exemplos.
Na TAE assume-se que os dados são gerados de maneira independente e identicamente
distribuı́da (i.i.d.) de acordo com uma distribuição de probabilidade que descreve a relação
entre o objeto e seu rótulo.
O erro e a função risco de um classificador são medidas baseadas em uma função
de perda (loss function). Segundo (Faceli et al., 2011) o erro de um classificador pode
ser medido através da sua capacidade de generalização. Por exemplo, em um problema
de classificação binária quando um exemplo é classificado erroneamente é contabilizada
uma perda de 1, caso contrário, não há penalidade. Desta maneira não se faz distinção
entre as diferentes classes e tipos de erros (falso positivo ou negativo), como mostra as
Equações 2.8 e 2.9 respectivamente.
(
0 se a classe real é igual a classe predita
Custo = (2.8)
1 se a classe real é diferente da classe predita
X
Erro = Custo (2.9)
Uma extensão pode ser feita variando a função que representa a dependência de en-
trada, neste caso chamada de risco. O princı́pio da indução pode ser usado para inferir
uma função que minimize o erro nos dados de treinamento e também o erro sobre no-
vos dados. Esse procedimento constitui o princı́pio de minimização do risco empı́rico
12
(medida de desempenho do classificador nos dados de treinamento, por meio da taxa de
classificações incorretas).
Para conjuntos de dados suficientemente grandes é possı́vel estabelecer condições para
que o algoritmo de aprendizado possibilite a geração de classificadores cujos valores de
risco empı́rico convergem para o risco esperado, também conhecido como risco estrutural,
(medida de desempenho do classificador nos dados de teste, por meio da taxa de classifi-
cações incorretas). Isso é possı́vel, pois a TAE provê diversos limites no risco esperado de
uma função de classificação, os quais podem ser utilizados na escolha do classificador (Fa-
celi et al., 2011).
A relação entre risco esperado, risco empı́rico e um terceiro termo de capacidade de
generalização é um limite importante fornecido pela TAE. Sua principal contribuição está
em afirmar a importância de se controlar a capacidade do conjunto de funções do qual o
classificador é induzido. Assim, define-se o princı́pio de indução chamado minimização do
risco estrutural, que busca a função de menor complexidade possı́vel que tenha um baixo
erro para os dados de treinamento.
Na prática encontrar este limite não é uma tarefa trivial, por isso existem algumas
alternativas. Para funções de decisões lineares, por exemplo, há resultados que relacionam
o risco esperado ao conceito de margem, também chamada de margem de confiança. A
margem de confiança tem relação com a sua distância à fronteira de decisão induzida, e é
uma medida da confiança da previsão do classificador. Assim, também é possı́vel calcular
o risco, ou erro marginal, de uma função sobre um conjunto de treinamento. O erro vai
fornecer a proporção de exemplos de treinamento cuja margem de confiança é inferior a
uma determinada constante.
2.2.2 SVMs Lineares
Para o problema da classificação binária, o princı́pio das SVMs está em encontrar um

hiperplano ótimo que separe satisfatoriamente os dados de entrada. O hiperplano ótimo
é definido como aquele para o qual a margem de separação entre as classes é maximizada.
Utilizando o hiperplano as SVMs são capazes de classificar apenas conjuntos de entrada
linearmente separáveis. Um exemplo de hiperplano ótimo e os vetores de suporte para
exemplos linearmente separáveis estão ilustrados na Figura 2.5.
Quando essas classes não podem ser separadas satisfatoriamente por um hiperplano, as
SVMs podem ser generalizadas. Isso pode ser feito com o uso de funções de mapeamento
no domı́nio do espaço de entrada. Por meio dessas funções, cada exemplo do conjunto de
treinamento é mapeado para um novo espaço, o espaço de caracterı́sticas. Nesse espaço
os exemplos podem se tornar linearmente separáveis e então um hiperplano ótimo pode
13
Figura 2.5: Ideia de hiperplano ótimo para exemplos linearmente separáveis. Adaptado
de (Rossi, 2009).
ser encontrado, como será descrito na Seção 2.2.5.
2.2.3 SVMs com Margens Rı́gidas
As SVMs lineares com margens rı́gidas definem fronteiras lineares a partir de dados line-
armente separáveis. Elas possuem esse nome pois impõem restrições que asseguram que
não haja dados de treinamento entre as margens de separação das classes. Na Figura 2.6
é mostrada uma SVM linear com margens rı́gidas.
Figura 2.6: SVM com margens rı́gidas. Nenhum dos pontos, independente da classe,
ultrapassam as margens da região que separa as classes. Adaptado de (Faceli et al.,
2011).
14
O problema de otimização das margens é quadrático e pode ser resolvido com a intro-
dução de uma função lagrangiana (Cristianini and Shawe-Taylor, 2010). Essa formulação
é denominada forma dual, enquanto que o problema original é referenciado como forma
primal.
Classificadores que separam os dados por meio de um hiperplano são denominados
lineares, mas em situações reais é difı́cil encontrar aplicações cujos dados sejam linearmente
separáveis, devido a ruı́dos, outliers ou mesmo pela própria natureza do problema. Para
contornar esse problema, podemos usar SVMs com margens suaves, descritas a seguir.
2.2.4 SVMs com Margens Suaves
As SVMs com margens suaves são uma extensão das SVMs com margens rı́gidas, criadas
para lidar com conjuntos de treinamentos mais complexos. Para isso, permite-se que
alguns objetos possam violar as restrições que existem nas SVMs com margens rı́gidas.
Isso é feito com a introdução das variáveis de folga, que relaxam as restrições impostas
ao problema de otimização primal.
A aplicação desse procedimento suaviza as margens do classificador linear, permitindo
que alguns objetos permaneçam entre os hiperplanos e também a ocorrência de alguns
erros de classificação no conjunto de treinamento. Na Figura 2.7 é mostrada uma SVM
linear com margens suaves.
Figura 2.7: SVM com margens suaves. Alguns pontos, de ambas as classes, podem
ultrapassar a margem definida. A quantidade de pontos que podem ultrapassar a margem
é definida pela variável de folga, um parâmetro livre ajustado pelo usuário. Adaptado de
(Faceli et al., 2011).
Novamente, o problema de otimização das margens para esse caso é quadrático e a sua
15
solução também se dá através da introdução de uma função lagrangiana de otimização.
No entanto, o processo de otimização se torna mais custoso, e a definição das variáveis
de folga introduz outro parâmetro a ser ajustado. Esse parâmetro controla o número de
exemplos que podem violar as restrições criada pelos vetores de suporte.
2.2.5 SVMs Não Lineares
As SVMs lidam com problemas não lineares mapeando o conjunto de treinamento do seu
espaço original, referenciado como de entradas, para um novo espaço denominado espaço
de caracterı́sticas, de modo que o conjunto de treinamento no espaço de caracterı́sticas
possa, eventualmente, ser separado por SVMs lineares. Para isso é preciso que duas
condições sejam satisfeitas. A primeira é que a transformação seja não linear, enquanto
que a segunda é que a dimensão do espaço de caracterı́sticas, geralmente alta, permita
que os dados sejam linearmente separáveis. Na Figura 2.8 é mostrado um exemplo de
trasformação não linear gerada por uma função de kernel.
Figura 2.8: Transformação linear com a função de Kernel. A - Conjunto de dados não
linear, B - Fronfeira não linear no espaço de entradas, C - Fronteira linear no espaço de
caracterı́sticas. Adaptado de (Faceli et al., 2011).
Essa dimensão do espaço de caracterı́sticas pode acabar sendo muito alta, ou até
mesmo infinita, e a computação pode ser extremamente custosa e inviável. Além disso, a
escolha da função de mapeamento apropriada varia com o problema estudado. Porém, a
única informação necessária sobre o mapeamento é o cálculo de produtos escalares entre
os objetos no espaço de caracterı́sticas, como é mostrado na Equação 2.10. Isso é obtido
por meio das funções denominadas kernels que realizam esse cálculo. É comum utilizar a
função de kernel sem conhecer o mapeamento, que é gerado implicitamente. A utilidade
dos kernels está, portanto, na facilidade de seu cálculo e em sua capacidade de representar
espaços abstratos.
K(Xi, Xj) = Φ(Xi) • Φ(Xj) (2.10)
16
Dentre os kernels mais utilizados estão o linear, o polinomial, os de funções de base
radial (Radial Basis Function (RBF)) ou gaussiano e o sigmoidal. Cada kernel possui um
conjunto de parâmetros livres, ou seja, parâmetros cujos valores devem ser especificados
pelo usuário. Além disso, como descrito anteriormente, o parâmetro que controla a rigidez
das margens também precisa ser especificado. Esse é um parâmetro regulador que controla
o equilı́brio entre a complexidade do modelo e o número de exemplos não separáveis. A
escolha do kernel e dos parâmetros afeta o desempenho do classificador obtido, pois eles
influenciam na definição da fronteira de decisão induzida.
2.2.6 SVMs em Outros Problemas
As SVMs também podem ser utilizadas na solução de problemas de regressão e em agru-

pamento de dados (aprendizado não-supervisionado), entre outros. Contudo, o problema
de otimização para o seu treinamento deve ser reformulado para lidar com caracterı́sticas
e objetivos desses problemas.
O algoritmo Support Vector Regression (SVR) tem como objetivo encontrar uma fun-
ção que produza saı́das contı́nuas para os dados de treinamento que desviem no máximo
um valor constante do seu rótulo desejado (Perea, 2012). Essa função deve também ser
o mais uniforme e regular possı́vel. Ela deve aproximar os pares de treinamento com uma
precisão constante de tal modo que os dados de treinamento fiquem dentro da margem.
Analogamente ao caso das SVMs de margens suaves, esse problema pode ser relaxado
com a introdução de variáveis de folga, permitindo assim lidar com ruı́dos e outliers nos
objetos.
Como no caso das SVMs para classificação, monta-se o problema dual equivalente ao
anterior pelo uso da função lagrangiana. O resultado das derivações parciais é nulo e
substitui-se as expressões resultantes na equação lagrangiana inicial. O problema dual
obtido é descrito em termos de produtos internos entre objetos. Pode-se também recorrer
ao uso de kernels para realizar regressões não lineares.
As SVMs também podem ser utilizadas em problemas de aprendizagem não-supervi-
sionada. Neste caso, na primeira fase os vetores de suporte são gerados a partir da base
de dados e na segunda fase os vetores gerados são utilizados para criar os agrupamentos
(clusters) de dados (Burges, 1998).
2.2.7 Vantagens e Desvantagens das SVMs
Com princı́pios embasados na (TAE), as SVMs caracterizam-se por apresentar uma boa
capacidade de generalização. Elas também são robustas diante de conjuntos de dados
de grande dimensão, sobre os quais outras técnicas de aprendizado comumente obtêm
17
classificadores super ou subajustados. Outra caracterı́stica atrativa é a convexidade do
problema de otimização formulado em seu treinamento, que implica a existência de um
único mı́nimo global. Além disso, o uso das funções de kernel na linearização das SVMs
torna o algoritmo flexı́vel e eficiente, pois permite a construção de hiperplanos em um
espaço de alta dimensão de forma tratável do ponto de vista computacional.
Entre as principais limitações das SVMs encontram-se a sua sensibilidade a escolhas de
valores de parâmetros e a dificuldade de interpretação do modelo gerado por essa técnica.
2.3 Seleção do Modelo e Ajuste de Parâmetros
O problema de escolher o melhor entre os diversos modelos disponı́veis é chamado de

seleção de modelo. Para todos os casos, o objetivo é minimizar o erro de generalização,
pois minimizar o erro de treinamento pode causar overfitting, ou seja, o modelo pode
memorizar os exemplos do conjunto de treinamento ao invés de extrair suas caracterı́sticas
gerais, o que, por exemplo, prejudica o desempenho para novos exemplos. Na prática,
o problema de seleção de modelo pode ser reduzido ao ajuste dos valores de parâmetros
quando se tem algum conhecimento prévio do problema.
2.3.1 Ajuste de Parâmetros
Grande parte dos algoritmos de AM possuem parâmetros cujos valores devem ser espe-
cificados pelo usuário. Esses valores para os parâmetros livres, em geral, influenciam
diretamente no desempenho de modelos induzidos, o que pode ser entendido como uma
limitação das técnicas de AM. O objetivo do processo de ajuste desses parâmetros pode
ser visto como encontrar os valores mais adequados dos parâmetros livres para um de-
terminado conjunto de dados. O ajuste de parâmetros com o intuito de obter melhor
desempenho e maior robustez dessas técnicas é uma tarefa que exige conhecimento tácito,
e pode consumir muito tempo.
Para definir um conjunto de valores, as atuais técnicas de ajuste normalmente consi-
deram a interação entre o viés (bias) do algoritmo de indução e o conjunto de treinamento
disponı́vel. A melhor estratégia é obter valores dos parâmetros que funcionam bem para
o conjunto particular de dados que está sendo analisado ou pela utilização de técnicas de
amostragem (como a validação cruzada).
Uma abordagem bastante utilizada para definir os valores dos parâmetros livres é por
tentativa e erro, a qual exige conhecimento tácito. Além disso, a busca pelos melhores
valores para os parâmetros, geralmente, envolve a otimização por um grande espaço de
busca, o que torna esse problema muito custoso computacionalmente.
18
Um algoritmo de grid search pode ser usado para selecionar a melhor configuração
de parâmetros, dado um conjunto de possı́veis valores. Basicamente, os parâmetros são
organizados em grade, é usado a CV no conjunto de treinamento para encontrar a confi-
guração com melhores resultados. Porém, se o espaço de possibilidades for muito grande,
o custo computacional continua sendo alto.
Por essa razão, técnicas alternativas de otimização têm sido aplicadas para ajustar
de forma automática os parâmetros livres dos algoritmos de AM. Algumas dessas téc-
nicas têm obtidos resultados promissores, como Algoritmos Genéticos (AG), Simulated
Annealing (Kirkpatrick et al., 1983), Tabu Search (Glover, 1997) e Particle Swarm
Optimization (PSO).
2.3.2 Ajuste de Parâmetros de SVMs
O desempenho das SVMs é diretamente influenciado pela escolha da função de kernel e

os valores de seus parâmetros. O conhecimento sobre o domı́nio pode auxiliar na escolha
da função de kernel apropriada, reduzindo o problema de seleção de modelo para o ajuste
de parâmetros.
Para o ajuste de parâmetros de SVMs, métodos de otimização baseados no gradiente
são muito utilizados (Imbault and Lebart, 2004). Segundo os autores, esses métodos não
resolvem totalmente o problema, a menos que um ponto inicial seja conhecido. O problema
de ajuste de parâmetros apresenta mı́nimo local e se comparam a métodos clássicos de
ajuste que utilizam busca local com AGs e Simulated Annealing, que são métodos de
minimização global. Os resultados mostraram que os dois métodos citados obtiveram
soluções próximas da ótima de forma mais robusta e eficiente.
AGs também foram utilizados em (Lorena and de Carvalho, 2006), para ajustar os
parâmetros de SVMs multiclasses com kernel gaussiano. Foram obtidas maiores taxas
de acerto utilizando AGs se comparado aos resultados obtidos utilizando-se valores fixos
para os parâmetros.
Em (Huang and Wang, 2006) e (de Souza and de Carvalho, 2004) os AGs também
foram utilizados para selecionar caracterı́sticas (atributos) de conjuntos de dados e ajustar
parâmetros de SVMs simultaneamente. No primeiro caso, foram realizados testes utili-
zando vários conjuntos de dados e a abordagem baseada em AGs teve boa taxa de acerto
se comparada com a técnica grid search. No segundo caso, foi utilizado um conjunto de
dados de expressão gênica e os resultados obtidos foram equivalentes a outros encontrados
na literatura.
A técnica PSO foi utilizada em (de Souza et al., 2006) para ajustar parâmetros de
SVMs multiclasses com kernel gaussiano. Foram testadas quatro bases de dados e os
19
resultados obtidos foram comparados com os obtidos por outras técnicas de ajuste. Essas
técnicas foram denominadas grid search, que usa a busca exaustiva; Naive, que usa os
mesmos valores padrões da biblioteca LIBSVM para todas as SVMs binárias; e Global,
que usa um conjunto de validação para estimar o erro de generalização. As técnicas PSO e
Global conseguiram os menores erros de classificação para uma base, enquanto que a grid
search obteve melhores resultados para as outras duas bases. Apesar disso, os resultados
obtidos pela PSO ficaram próximos aos melhores alcançados e não foi possı́vel determinar
o melhor método para todas as bases de dados testadas.
2.4 Transferência de Aprendizado
Pesquisas sobre transferência de aprendizado têm atraı́do cada vez mais atenção nas últi-
mas décadas com diferentes nomes: aprender a aprender, aprendizagem ao longo da vida,
transferência do conhecimento, transferência supervisionada, aprendizagem multitarefa,
consolidação do conhecimento, aprendizagem sensı́vel ao contexto, viés indutivo baseada
no conhecimento, meta-aprendizagem e aprendizagem incremental/cumulativa. Entre es-
ses, uma técnica de aprendizagem relacionada de perto à transferência de aprendizado é
a estrutura de aprendizagem multitarefa, que tenta aprender várias tarefas simultanea-
mente, mesmo quando elas são diferentes (mas com alguma semelhança entre si). Uma
abordagem tı́pica para aprendizagem multitarefa é descobrir as caracterı́sticas em comum
(latentes) que podem beneficiar cada tarefa individualmente.
Apesar de ser uma área de pesquisa que começou a ser explorada recentemente, na
Figura 2.9 é ilustrado o crescimento de trabalhos publicados sobre o assunto em diversas
conferências de áreas relacionadas. Os gráficos foram criados a partir da lista disponibili-
zada no site de um autor da área2 , que compila trabalhos relacionados à transferência de
aprendizado.
Segundo (Pan and Yang, 2010), em transferência de aprendizado são abordados três
principais questões: o que transferir, como transferir, e quando transferir. Podemos cate-
gorizar a transferência de aprendizado em três subconfigurações: transferência de apren-
dizado supervisionada, transferência de aprendizado semi-supervisionada e transferência
de aprendizado não supervisionada. As abordagens para transferir o aprendizado nas
três configurações diferentes mostradas acima podem ser resumidas em quatro casos com
base em “O que transferir”: transferindo conhecimento dos exemplos, transferindo conhe-
cimento da representação de caracterı́sticas, transferindo conhecimento de parâmetros e
transferindo conhecimento relacional.
“O que transferir” corresponde a que parte do conhecimento que pode ser transferida
2
http://www1.i2r.a-star.edu.sg/~jspan/conferenceTL.htm, consultado em Outubro de 2013
20
(a) Aprendizado de Máquina e Inteligência Artificial
(b) Mineração de Dados (c) Aplicações Web
(d) Aplicações de Processamento de Lı́ngua (e) Aplicações de Imagem/Vı́deo

Natural
(f) Aplicações em Bioinformática (g) Outras
Figura 2.9: Conferências com trabalhos sobre transferência de aprendizado
através de domı́nios ou tarefas. Alguns conhecimentos são especı́ficos para domı́nios ou

tarefas individuais, e alguns conhecimentos podem ser comuns entre diferentes domı́nios
21
de tal modo que eles podem ajudar a melhorar o desempenho do domı́nio ou tarefa des-
tino. Depois de descobrir qual o conhecimento que pode ser transferido, os algoritmos de
aprendizagem precisam ser desenvolvidos para transferir o conhecimento, que corresponde
a questão de “Como Transferir”.
“Quando Transferir” pergunta em que situações a transferência de habilidades deve
ser feita. Também é interessante saber em quais situações o conhecimento NÃO deve
ser transferido. Em algumas situações, quando o domı́nio de origem e destino não estão
relacionados um com o outro, a transferência por força bruta pode não ser bem sucedida.
No pior dos casos, isso pode prejudicar o desempenho do aprendizado do domı́nio destino,
uma situação que é muitas vezes referida como transferência negativa. A maioria dos
trabalhos em curso sobre transferência de aprendizado centra-se em “O que transferir” e
“Como Transferir”, assumindo implicitamente que o domı́nio de origem e destino devem
estar relacionados um com o outro. Entretanto, como evitar a transferência negativa é
uma importante questão em aberto que está atraindo mais e mais atenção.
2.4.1 Configurações de Transferência de Aprendizado
Baseado na definição de transferência de aprendizado há três configurações: transferên-

cia de aprendizado supervisionada, transferência de aprendizado semi-supervisionada e
transferência de aprendizado não supervisionada. Basicamente, com relação à transfe-
rência de parâmetros, a maioria das abordagens assume que os modelos individuais para
tarefas relacionadas devem compartilhar alguns parâmetros ou distribuições a priori de
hiperparâmetros, como por exemplo o Kernel. A maioria dessas abordagens é baseada no
conceito de multitarefa (Multi-Task Learning (MTL)), que tenta aprender conjuntamente
os modelos para o domı́nio origem e o domı́nio destino, enquanto que em transferência
de aprendizado o objetivo é incrementar o desempenho do domı́nio destino utilizando in-
formação a respeito do domı́nio origem. Na Figura 2.10 é mostrada a visão geral dessas
configurações que serão detalhadas a seguir.
1. Na transferência de aprendizado supervisionado a tarefa destino é diferente da tarefa

de origem, não importa quanto origem e destino são semelhantes ou não. Nesse caso,
alguns dados rotulados no domı́nio origem são requeridos para induzir o modelo
preditivo objetivo para uso no domı́nio destino. Adicionalmente, de acordo com
diferentes situações de dados rotulados e não rotulados do domı́nio origem, foram
categorizados dois casos de configuração de transferência de aprendizado:
(a) Muitos dados rotulados no domı́nio origem estão disponı́veis. Nesse caso, a
configuração de transferência de aprendizado supervisionada é similar à con-
figuração de transferência de aprendizado multitarefas. Entretanto, a trans-
22
Figura 2.10: Visão Geral das configurações da Transferência de Aprendizado
ferência de aprendizado supervisionada somente visa atingir alto desempenho

na tarefa de destino através da transferência de aprendizado a partir da tarefa
origem, enquanto a aprendizagem multitarefa visa aprender a tarefa de origem
e destino simultaneamente.
(b) Não há dados rotulados no domı́nio de origem. No caso dessa configuração,
a transferência de conhecimento indutivo é similar à configuração do aprendi-
zado autodidata. Na configuração de aprendizado autodidata, os espaços de
rótulos entre domı́nio de origem e domı́nio de destino podem ser diferentes, o
que implica em informação lateral do domı́nio origem não pode ser usada dire-
tamente. Assim, é semelhante à configuração de transferência de aprendizado
supervisionada onde os dados rotulados no domı́nio origem estão disponı́veis.
2. Na configuração de transferência de aprendizado semi-supervisionada, as tarefas de

origem e destino são as mesmas, enquanto que o domı́nio de origem e destino são
diferentes. Nessa situação, os dados não rotulados do domı́nio de destino estão
disponı́veis, enquanto muitos dados rotulados do domı́nio de origem também estão
disponı́veis. Além disso, de acordo com as diferentes situações entre os domı́nios de
origem e destino, pode-se ainda classificar a definição de transferência de aprendi-
zado semi-supervisionada em dois casos.
(a) Os espaços de caracterı́sticas entre os domı́nios de origem e destino são dife-

rentes.
23
(b) Os espaços de caracterı́sticas entre os domı́nios são os mesmos, mas as distri-
buições de probabilidade marginais dos dados de entrada são diferentes.
3. Finalmente, na transferência não supervisionada, a definição de aprendizagem é

semelhante à de transferência de aprendizagem supervisionada. A tarefa destino é
diferente, mas relacionada com a tarefa de origem. No entanto, o foco na transferên-
cia não supervisionada é a resolução de tarefas de aprendizagem não supervisionadas
no domı́nio destino, como clusterização, redução de dimensionalidade e estimativa
de densidade. Neste caso, não existem dados rotulados disponı́veis em ambos os
domı́nios, de origem e destino, de formação.
Na Figura 2.11 é ilustrada uma das possı́veis configurações de transferência de apren-

dizado. Neste caso, um exemplo de transferência de aprendizado não supervisionado
adaptado de uma vı́deo aula do projeto Cha Learn3 disponı́vel no Youtube4 , no qual
no domı́nio de origem temos um conjunto de imagens de gatos e a tarefa respectiva a
esse domı́nio é identificar gatos em diferentes fotos. Para realizar essa tarefa, pequenas
caracterı́sticas das imagens do domı́nio de origem são extraı́das e um processador (P) é
criado. O reconstrutor (R) é construı́do unindo as pequenas caracterı́sticas que, juntas,
representam esse felino. Assim, é possı́vel analisar diferentes imagens e tentar reconhecer
as caracterı́sticas dos gatos nelas. A transferência de aprendizado ocorre quando o pro-
cessador (P) com as pequenas caracterı́sticas encontradas nos gatos é usado no segundo
domı́nio, que contém um conjunto de imagens de outros felinos (por exemplo, tigres) e
a tarefa respectiva a este domı́nio é identificar tigres em diferentes fotos. Como ambos
os domı́nios tratam imagens de felinos, assume-se que existe similaridade entre eles e
que, portanto, as pequenas caracterı́sticas podem ser compartilhadas. Assim, poupa-se o
tempo de extração de pequenas caracterı́sticas dos tigres e a classificação continua sendo
viável.
Neste trabalho investigamos os possı́veis ganhos que a transferência de parâmetros
pode proporcionar para um algoritmo de AM. A maioria das abordagens de transfe-
rência de parâmetros em transferência de aprendizagem supervisionada assume que os
modelos individuais para tarefas relacionadas devem compartilhar alguns parâmetros ou
distribuições de fronteiras de decisão similares. A maior parte das abordagens descritas
na litetura para este caso de transferência é projetada para trabalhar sob aprendizagem
multitarefa (Pan and Yang, 2010), em que o objetivo é descobrir os requisitos em co-
mum (latentes) que podem beneficiar cada tarefa individualmente. Dessa maneira, a
aprendizagem multitarefa tenta aprender simultaneamente a tarefa tanto do domı́nio de
origem, como de destino, enquanto a transferência de aprendizagem só visa impulsionar
a aprendizagem usando o conhecimento do domı́nio de origem para o domı́nio de destino.
3
http://www.chalearn.org/
4
http://www.youtube.com/watch?v=9ChVn3xVNDI
24
Figura 2.11: Exemplo de Configuração de Transferência de Aprendizado Não-
Supervisionada
2.5 Trabalhos Relacionados - Ajuste de Parâmetros

com Transferência de Conhecimento
Nesta Seção são apresentados alguns trabalhos que envolvem algum tipo de aproveita-
mento e/ou transferência de aprendizado entre domı́nios para o ajuste de parâmetros.
Em (Ali and Smith-Miles, 2006) foi introduzido um novo método para seleção automá-
tica de kernel, com resultados empı́ricos baseados em classificação. O estudo empı́rico foi
conduzido utilizando-se 5 kernels com 112 problemas de classificação diferentes. Foi ava-
liado o desempenho dos kernels em termos de medida de acurácia. Também foi utilizado
meta-aprendizado baseado em regras para selecionar o kernel mais apropriado para um
problema de classificação. As regras são geradas por um algoritmo de árvore de decisão
C5.0 e avaliados com 10 folds de validação cruzada.
Em (de Miranda et al., 2012) foi utilizado PSO aplicado ao problema de seleção de
parâmetros de SVMs. Como os sistemas de aprendizagem são essencialmente problemas
multi-objetivo, o PSO multi-objetivo (MOPSO) foi utilizado para maximizar a taxa de
sucesso e minimizar o número de modelos dos vetores de suporte. Eles usam a combi-
nação de meta-aprendizagem com o MOPSO com o mecanismo de distância acumulada
(MOPSO-CDR). Nessa combinação, as soluções fornecidas pela meta-aprendizagem es-
tão possivelmente localizadas em boas regiões no espaço de busca. Consequentemente,
utilizando um número reduzido de candidatos, o processo de pesquisa converge mais ra-
pidamente e é menos dispendioso. Os resultados do algoritmo foram comparados com e
sem a inicialização da meta-aprendizagem em 40 problemas de classificação.
Em (Reif et al., 2012) foram utilizadas ideias de meta-aprendizagem e raciocı́nio
25
baseado em casos para fornecer bons pontos de partida para o algoritmo genético para
encontrar bons parâmetros para SVMs e Random Forest. A abordagem apresentada atinge
a acurácia do Grid Search a um custo computacional significativamente mais baixo. Os
resultados experimentais com 100 bases de dados mostram que o método obteve a maior
precisão média para ambos os classificadores.
2.6 Medidas de Complexidade de Domı́nios
O comportamento dos classificadores é fortemente dependente da complexidade dos da-

dos (Sotoca et al., 2006), por isso vários trabalhos recentes tem introduzido o uso de
medidas de complexidade de dados para caracterizar o desempenho de classificadores.
Nesta monografia, as medidas de complexidade são usadas para medir a similaridade
entre bases de dados. Em outras palavras, para medir indiretamente o quão duas bases
de dados são similares entre si. Dessa maneira, é possı́vel identificar, a partir de um
repositório de bases de dados, candidatas a domı́nio de origem, com o intuito de transferir
as melhores configurações de parâmetros para o domı́nio de destino.
A maioria das medidas que serão descritas são definidas apenas para duas classes, em-
bora em muitos casos é possı́vel generalizar o problema para muitas classes. Uma medida
natural da complexidade de um problema é a taxa do erro associada ao classificador. En-
tretanto, essa medida depende da execução do algoritmo para a indução do classificador,
de maneira que também é importante a utilização de outras medidas que são menos de-
pendentes do classificador escolhido. Essas medidas alternativas podem ser usadas como
um guia para selecionar um classificador particular para um dado problema.
As medidas usadas neste trabalho serão descritas a seguir.
2.6.1 Medidas de sobreposição
Essas medidas focam principalmente na eficácia de uma única dimensão de caracterı́sticas

que separa as classes. Essa medida examina o alcance e a propagação de valores na
configuração de dados correspondente a cada caracterı́stica, e verifica sobreposições entre
diferentes classes.
Como exemplo, pode-se citar a relação entre os discriminantes de Fisher (F1), que cal-
cula quão separadas são duas classes de acordo com uma caracterı́stica especı́fica, como
mostra a Equação 2.11, em que µ1 , µ2 , σ1 e σ2 , são as médias e as variâncias da caracte-
26
rı́stica para cada classe, respectivamente.
(µ1 − µ2 )2
F1 = (2.11)
σ12 + σ22
Outro exemplo é a volume da região sobreposta (F2), que calcula, para cada caracte-
rı́stica, o comprimento da sobreposição propagada normalizada pelo comprimento total da
propagação de todos os valores que ambas as classes estão distribuı́das. Em seguida, o vo-
lume da região de sobreposição é obtido com o produto normalizado dos comprimentos de
propagação de sobreposições para todas as caracterı́sticas, como mostra a Equação 2.12,
onde K varia de 1 ao número de dimensões do problema e
minmaxk = min{max(FK , C1 ), max(FK , C2 )}

maxmink = max{min(FK , C1 ), min(FK , C2 )}
maxmaxk = max{max(FK , C1 ), max(FK , C2 )}
minmink = min{min(FK , C1 ), min(FK , C2 )}
em que max(FK , Cl ) (min(FK , Cl )) é o valor máximo (mı́nimo) da caracterı́stica FK da

classe Cl . Assim
Y minmaxk − maxmink
F2 = (2.12)
K
maxmaxk − minmink
Outro exemplo é a eficácia da caracterı́stica (F3). Em problemas de alta dimensão, é

importante saber quanta informação discriminatória está distribuı́da sobre as caracterı́s-
ticas. Neste contexto, tem que ser usada a medida de eficácia individual de caracterı́sticas
que descreve quanto cada caracterı́stica contribui para a separação em duas classes.
Pode-se usar um procedimento que progressivamente remove pontos que não se re-
petem e que caı́ram fora da região de sobreposição de cada dimensão. A eficácia da
caracterı́stica é definida como uma fração de todos os pontos remanescentes que podem
separar a caracterı́stica. Para um problema de duas classes, a eficácia máxima de carac-
terı́stica (isto é, a maior fração de pontos distintos usados em apenas uma caracterı́stica)
é usada como uma medida de sobreposição. Mais detalhes sobre a medida F3 pode ser
encontrada em (Ho and Baird, 1998).
2.6.2 Medidas de separabilidade das classes
Essas medidas avaliam até que ponto duas classes são separáveis examinando a existência
e a forma da fronteira das classes.
27
Como exemplo, pode-se citar as medidas de distância probabilı́stica. O erro de Bayes
é teoricamente tido como a melhor estimativa para descrever a separabilidade de classes.
Entretanto, ele é difı́cil de se usar na prática porque é computacionalmente complexo
de calcular e muitas vezes é empiricamente e não analiticamente derivado. Nessas situa-
ções, algumas distâncias de probabilidades estatı́sticas tais como Bhattacharya, Chernoff,
Mahalanobis e Matusita, proporcionam um limite superior e inferior para o erro de Bayes.
Outro exemplo é a separação linear, a probabilidade máxima da classificação correta
quando use-sa um hiperplano para separar as classes. Nos problemas de duas classes,
essas medidas representam a probabilidade de sobreposição se cada classe é distrubuı́da
em uma região convexa. Classificadores lineares podem ser obtidos por programação
linear, maximizando a soma das distâncias dos pontos de erros para o hiperplano de
separação (subtraindo uma margem constante):
minimize at .t
sujeito a Z t .w + t− ≥ b
t-≥0
onde a e b são vetores de constantes arbitrárias, w é o peso do vetor, t é o erro do vetor
e Z é uma matriz onde cada coluna z é definida como um vetor x de entrada e c (com
valor c1 ou c2 ) é a classe, como mostrado nas Equações 2.13 e 2.14:
z = +x se c = c1 (2.13)
z = −x se c = c2 (2.14)
O valor objetivo é utilizado como uma medida de separabilidade da classe (L1). Ele é
igual a zero para o problemas linearmente separáveis. Nota-se que esta medida pode ser
fortemente influenciada pela presença de outliers no conjunto de dados. Por outro lado,
a segunda medida (L2) simplesmente corresponde à taxa de erro do classificador linear
(que é definido por L1) sobre o conjunto de treino inicial.
Outro exemplo é a fração do limite de pontos da classe (N1). Em (Friedman and
Rafsky, 1979) foi proposto um teste para avaliar se duas amostras são da mesma dis-
tribuição. Ele é útil para decidir se os pontos rotulados como duas classes diferentes
formam distribuições separáveis. Este método é baseado na construção da árvore gera-
dora mı́nima (Minimum Spanning Tree (MST)), conectando todos os pontos no conjunto
de dados aos seus vizinhos mais próximos. Para se calcular N1, computa-se o número de
arestas conectadas a dois pontos de classes diferentes. Estes pontos são considerados por
estarem próximos à fronteira da classe. N1 é computada como uma fração de tais pontos
28
na fronteira sobre o total de pontos nos dados.
Outro exemplo é a separabilidade não-paramétricas das classes. A primeira medida
(N2) é a razão entre a distância média para a o vizinho mais próximo intraclasse e a
distância média para o vizinho mais próximo interclasse. Ela compara a dispersão intra-
classes com a separabilidade interclasse. Valores menores sugerem mais discriminação de
dados.
Seja N1= (xi ) e N16= (xi ) o vizinho mais próximo intraclasse e o vizinho mais próximo
interclasse de um dado exemplo xi , respectivamente. Então, N2 pode ser calculado como
é mostrado na Equação 2.15:
Pn
δ(N1= (xi ), xi )
N 2 = Pni=1 (2.15)
i=1 δ(N16= (xi ), xi )
onde δ é a medida de distância (geralmente Euclidiana).

A proximidade de pontos na classe oposta afeta a taxa de erro do classificador do
vizinho mais próximo. Então, N3 corresponde simplesmente a taxa estimada de erro da
regra de decisão do vizinho mais próximo pelo método de amostragem leaving-one-out.
2.6.3 Medidas de geometria e densidade
Essas medidas destinam-se a descrever a geometria das variadas formas abrangidas por
cada classe.
Como exemplo, pode-se citar E-Vizinhança (T1), que contam o número de cı́rculos
necessários para cobrir cada classe, sendo cada cı́rculo centrado no ponto de treinamento e
crescendo ao tamanho máximo (em unidades de E) antes dele alcançar um ponto de outra
classe. Cı́rculos redundantes localizados completamente no interior de outros cı́rculos são
removidos. Essa contagem é normalizada pelo total de número de pontos. Isso provê
uma descrição interior em vez de uma descrição de fronteira, como é dada por medidas
baseadas em MST.
Outro exemplo é o número médio de pontos por dimensão (T2), que contribui para
entender o comportamento de alguns problemas de classificação. Assim T2 descreve a
densidade de distribuições espaciais de amostra pela computação do número de exemplos
no conjunto de dados sobre o número de dimensões:
n
T2 = (2.16)
d
no qual n é o número de pontos e d é a dimensão do espaço de caracterı́sticas.
29
Outro exemplo é a densidade (D1), que representa o volume médio ocupado por k
vizinhos mais próximos de cada exemplo de treino. Dado Nk (xi ) ser o conjunto de k
vizinhos mais próximos de um dado exemplo (xi ,wi ), então o volume pode ser definido,
como mostrado na Equação 2.17:
d
Y
Vi = (max(fh , Nk (xi )) − min(fh , Nk (xi ))) (2.17)
h=1
onde max(fh , Nk (xi )) e min(fh , Nk (xi )) representam os valores máximos e mı́nimos da

caracterı́stica fh entre os k vizinhos mais próximos do exemplo xi .
A partir disso, o volume da vizinhança local pode ser expresso como o valor médio de
Vi para n exemplos de treinamento, como mostrado na Equação 2.18.
n
1X
D2 = Vi (2.18)
n i=1
Outra medida é a densidade da região de sobreposição das classes (D3), que determina
a densidade de cada classe nas regiões de sobreposição. No geral, regiões de sobreposição
contêm os casos mais crı́ticos para tarefas de classificação e consequentemente resultam
nos maiores erros de classificação. Tendo isso em conta, foi proposto uma nova medida
de densidade de classes em regiões de sobreposição, a D3.
D3 pode ser medida contando, para cada classe, o número de pontos localizados na
região de algumas classes diferentes. Para este fim, primeiro encontra-se os vizinhos
próximos de cada exemplo (xi ,wi ). Então se a maioria desses k vizinhos pertence a
classe diferente de wi , podemos considerar que (xi ,wi ) está localizado em uma região de
sobreposição. Quanto maior o valor de D3 para uma dada classe, menor o número de
exemplos de cada classe na região de sobreposição.
Outros dois exemplos de medidas (L3,N4) são baseados na não-linearilidade. Em (Ho-
ekstra and Duin, 1996) foi proposto uma medida para não-linearidade de um classificador
que respeita um determinado conjunto de dados. A primeira medida trabalha com um
classificador linear e a segunda com o algoritmo KNN. Para o conjunto de treinamento,
o primeiro método gera um teste por interpolação entre pares de pontos selecionados
aleatoriamente pertencentes a mesma classe. Então, a taxa de erro do classificador é
mensurada.
30
2.6.4 Medidas Estatı́sticas
No projeto Statlog (King et al., 1995), várias técnicas de classificação foram aplicadas em
22 conjuntos de dados. Esses conjuntos foram descritos em termos de várias estatı́sticas,
tentando predizer a aplicabilidade de um classificador baseado em certos dados caracte-
rı́sticos. (Statlog é um acrônimo para o projeto ESPRIT (1990-1993) envolvido em testes
de comparações de estatı́sticas e algoritmos de aprendizado de máquinas lógicas).
Entre outros, as seguintes estatı́sticas descritivas e multi-variáveis foram usadas para
sumarizar os conjuntos de dados no projeto Statlog: número total de exemplos em todo
um conjunto de dados, número de padrões de treinamento, número de atributos binários,
número de classes, coeficiente médio de correlação absoluta entre duas caracterı́sticas,
média assimétrica de caracterı́sticas, curtose média de caracterı́sticas, entropia média de
caracterı́sticas discretos e informação mútua de classe e caracterı́stica.
Essas e outras medidas descritivas e estatı́sticas ainda podem ser aplicadas a caracte-
rização de dados como ferramenta para predizer os classificadores mais apropriados para
um problema particular.
Neste capı́tulo foi abordado os principais tópicos da teoria envolvida neste trabalho. Tópi-
cos como o Problema de Classificação, Teoria do Aprendizado Estatı́stico, SVMs, Seleção
de Modelo, Ajuste de Parâmetros, Transferência de Aprendizado e Medidas de Comple-
xidade foram descritos e referenciados em trabalhos relevantes. No próximo capı́tulo será
apresentado a abordagem proposta para o desenvolvimento deste trabalho.
31
32
Capı́tulo 3
Abordagem Proposta
3.1 Motivação
Como descrito anteriormente, o ajuste de parâmetros em algoritmos de AM pode ter

um grande impacto no desempenho desses algoritmos. Além disso, o trabalho de ajuste
de parâmetros é normalmente custoso computacionalmente e pode requerer conhecimento
tácito do domı́nio de aplicação para direcionar a busca pelo espaço de parâmetros. Apesar
do relativo sucesso de técnicas de busca informada e não informada para o ajuste de
parâmetros, essa abordagem ainda é dependente do domı́nio, sendo necessário um ajuste
de parâmetros para cada novo domı́nio a ser aplicado. Além disso, métodos informados
de busca podem requerer o ajuste de novos parâmetros dos métodos de busca para ter
sucesso.
É interessante, portanto, investigar métodos que possam aproveitar o conhecimento e
esforço utilizados para o ajuste de parâmetros em um domı́nio para um outro domı́nio
semelhante. Neste trabalho investigamos o uso de técnicas de tranferência de aprendizado
para o problema de ajuste e otimização de parâmetros em algoritmos de aprendizado
de máquina, em especial para SVMs. O propósito do trabalho consiste em investigar
maneiras de transferir conhecimento de um domı́nio origem para um domı́nio alvo, com
o intuito de diminiur o custo do processo de ajuste de parâmetros no domı́nio alvo.
Uma possı́vel abordagem é construir uma meta-base com diversos domı́nios de origem
e extrair meta-informação a respeito desses domı́nios. Nesses domı́nios seriam feitas bus-
cas mais completas a priori, armazenando-se possı́veis configurações de parâmetros mais
promissoras. Assim, quando quisermos realizar busca por parâmetros em um domı́nio
alvo, farı́amos uma busca na base de domı́nios de origem pelos domı́nios mais similares
com respeito à meta-informação contida na base, e usarı́amos as configurações de parâ-
metros mais promissoras para iniciar a busca no domı́nio alvo. Essa é a estratégia de ação
adotada neste trabalho.
33
A fim de avaliar a viabilidade da proposta, criamos um repositório com diversas bases
dados. Para uma determinada base de dados destino, vasculhamos o repositório em busca
da base de dados mais similar. As mesmas bases foram submetidas ao algoritmo SVM,
cada uma com uma grande variação de parâmetros pré-calculados anteriormente, para
que o desempenho de cada combinação em cada base de dados pudesse ser avaliado. O
parâmetro referente ao Kernel foi fixado com o RBF (valor default do parâmetro neste
algoritmo) para todos os testes executados.
Uma vez identificada a base mais semelhante por meio dos meta-atributos, avalia-se
as melhores configurações de parâmetros da base mais semelhante provê informação útil
para encontrar as melhores configurações de parâmetros na base alvo. O procedimento
descrito é ilustrado na Figura 3.1 no qual os parâmetros a serem ajustados são C e σ para
o Kernel Gaussiano (RBF), e será melhor detalhado a seguir.
Como é mostrado na Figura 3.1, dado um conjunto de bases de dados disponı́veis em
um repositório e uma base de dados de destino, procura-se pela base de dados de origem
no repositório. A escolha da base origem é feita por meio da base mais similar, de acordo
com os meta-atributos que descrevem a complexidade das bases de dados.
O desempenho de diversas configurações de parâmetros para a SVM já estão pré-
calculados. Na figura estão representadas as configurações dos parâmetros custo C e
amplitude do kernel σ, com três possı́veis valores (arbitrários, apenas para ilustração)
para cada um desses parâmetros. Para fins de explicação, foi adotado um esquema do
coloração em que os melhores desempenhos estão em tons mais avermelhados, e os piores
em azulados, em um degrade passando pelo branco.
As cofigurações de parâmetros são ordenadas de acordo com o desempenho no conjunto
origem, e são transferidas nessa ordem para o conjunto de destino. Essa ordem é usada
como sugestão para guiar a busca das melhores configurações no conjunto de destino. Em
outras palavras, os parâmetros que obtiveram os melhores resultados na base de dados de
origem serão testados na base de dados de destino. Como mostrado na figura, espera-se
que as melhores configurações no conjunto de origem possam sugerir boas configurações
no conjunto de destino.
Uma possı́vel visualização da aplicação desta ideia pode vista na Figura 3.2, na qual o
desempenho do classificador em cada uma das combinações de parâmetros C e σ foi plo-
tado em gráficos individuais para cada base de dados e para cada medida de desempenho
dos classificadores gerados. No gráfico do tipo “mapa de calor” os eixos x e y representam
a variação dos parâmetros σ e C, respectivamente, e a escala de cores representa o de-
sempenho do classificador gerado com SVM para aquela configuração de parâmetros para
uma certa medida de desempenho (neste caso, as medidas AUC, ACC, F1 e AUPR da
base de dados Bupa). Tons avermelhados indicam melhor desempenho, branco indica de-
34
Figura 3.1: Etapas da Abordagem Proposta
sempenho intermediário e tons azulados os piores desempenhos para cada configuração de

parâmetros. É possı́vel observar que o desempenho da base de dados Bupa é semelhante
ao desempenho da base de dados Credit-g (a base de dados mais similar no repositório)
35
para as quatro medidas de desempenho. Porém, o desempenho da base de dados Bupa
é menos semelhante ao desempenho da base de dados Breast-cancer-w (a base de dados
menos similar no repositório), nas quatro medidas de desempenho.
Figura 3.2: Visualização da Abordagem Proposta
Neste capı́tulo foram discutidos os principais aspectos que motivaram o desenvovlimento

deste trabalho. Como pôde ser visto no mapa de calor da Figura 3.2 em que mostramos
uma possı́vel realização da abordagem, dentre as combinações de parâmetros testadas para
cada base de dados, as configurações mais promissoras da base de origem coincidem, em
grande parte, com a base de destino. Assim, a transferência de parâmetros é promissora
para esse exemplo. No próximo capı́tulo serão apresentados a metodologia e os resultados
deste trabalho.
36
Capı́tulo 4
Resultados e Discussões
Nesta capı́tulo serão apresentados em detalhes os passos que compõem a metodologia

deste trabalho, bem como os resultados e suas respectivas discussões.
4.1 Metodologia
Para execução dos experimentos foi utilizado o pacote R1 . R é um sistema usado princi-
palmente para cálculos estatı́sticos, e que dispõe, além de outras funcionalidades, de uma
linguagem e facilidades para a geração de gráficos de alto nı́vel. A sintaxe da lingua-
gem tem uma similaridade superficial com a linguagem C, porém a semântica é de uma
linguagem de programação funcional. Com isso é possı́vel escrever funções que recebam
expressões, o que é muito usado em estatı́stica. Além de ser uma linguagem gratuita
e de código aberto, existe uma comunidade ativa empenhada em responder dúvidas de
novos usuários, resolver problemas propostos e que desenvolve bibliotecas com funções
pré-programadas, o que a torna atraente para ser utilizada neste trabalho. Além disso,
existem literalmente milhares de pacotes que provêem funcionalidades extras para a lin-
guagem, com diversos pacotes especı́ficos para aprendizado de máquina2 .
Para medir a similaridade entre domı́nios foram utilizadas métricas normalmente uti-
lizadas em meta-aprendizado (Sotoca et al., 2006; Brazdil et al., 2010) descritas na Se-
ção 2.6. Para cada fold, a similaridade entre as bases foi calculada utilizando-se apenas
o conjunto de treinamento. Para calcular as medidas de complexidade das bases de da-
dos foi utilizado a biblioteca Dcol3 , que fornece um conjunto de medidas que avaliam
a complexidade de problemas de classificação. Mais especificamente, as medidas imple-
mentadas nessa biblioteca focam a complexidade da classe, suas fronteiras de decisão e
1
http://www.r-project.org
2
http://cran.r-project.org/web/views/MachineLearning.html
3
http://dcol.sourceforge.net
37
estimativas de sobreposições nos valores de recursos de diferentes classes, a separabilidade
da classe, e a geometria, topologia e densidade de mani-folds (sub-estruturas presentes nos
dados). O nome dessas medidas é listado a seguir. Mais detalhes podem ser encontrados
em (Orriols-Puig et al., 2010) e na Seção 2.6.
• Máximo entre os discriminadores de Fisher (F1);
• O vetor direcional dos discriminadores de Fisher (F1V);
• O volume da região sobreposta (F2);
• O valor máximo entre a eficácia das caracterı́sticas (F3);
• A eficácia coletiva das caracterı́sticas (F4);
• A soma minimizada da distância de erro de um classificador linear (L1)
• O erro de treino de um classificador linear (L2);
• A não linearidade de um classificador linear (L3);
• A fração de pontos no limite entre classe (N1);
• A razão média das distâncias intra/inter classe da vizinha mais próxima (N2);
• A taxa de erro leave-one-out do classificador vizinho mais próximo (N3);
• A não linearidade do classificador vizinho mais próximo (N4);
• A fração de cobertura máxima por cı́rculos (T1);
• O número médio de pontos por dimensão (T2);
Foram utilizadas bases de dados disponı́veis em repositórios públicos, como o repositó-

rio da UCI (Frank and Asuncion, 2010). Para se estimar o desempenho dos algoritmos, os
experimentos foram realizados com validação cruzada de dez folds para melhorar a repro-
ducibilidade dos experimentos (Bouckaert and Frank, 2004). Para a avaliação dos mode-
los foram considerados diversos aspectos referentes ao desempenho dos algoritmos (Prati
et al., 2011), como a área abaixo da curva ROC (AUC), acurácia (ACC), a medida F1 que
é a média harmônica entre precisão e revocação dos modelos induzidos, e a área abaico
da curva precision/recall (AUPR).
Primeiramente, foi selecionado um conjunto de 24 bases de dados com classes biná-
rias. Embora a abordagem proposta possa lidar com problemas de múltiplas classes, os
experimentos foram restringidos em problemas de classificação binária por dois motivos:
primeiro, a formulação original das SVMs é para conjuntos de dados binários. Embora
38
hajam algumas adaptações ou extensões para a configuração multi classe, não há um
consenso para um único método (Duan and Keerthi, 2005). Em segundo ligar algumas
das medidas de complexidade de dados são bem estudadas para problemas de classifica-
ção binária (Sotoca et al., 2006). Usando conjuntos de dados não-binários nesta situação
poderia prejudicar os resultados. Uma extensão do estudo para conjuntos de dados multi-
classes é um trabalho interessante para pesquisas futuras. Na Tabela 4.1 são mostradas
as principais caracterı́sticas das 24 bases utilizadas durante os experimentos. A primeira
coluna indica o nome da base, seguida pela quantidade de atributos nominais e numéri-
cos, pelo total de exemplos na base de dados e pela porcentagem de exemplos da classe
predominante.
Tabela 4.1: Resumo das caracterı́sticas dos conjuntos de dados utilizados nos experimentos
Base # Nominal # Numérico # Exemplos % Classe Majoritária
australian 9 6 690 55,51
bands 16 24 540 57,8
breast-w 1 10 699 65,5
bupa 1 6 345 57,97
credit-a 10 6 690 55,51
credit-g 13 7 1000 70,0
diabetes 1 8 768 65,10
german 14 7 1000 70,00
haberman 1 3 306 73,5
heart-statlog 1 13 270 55,6
hepatitis 14 6 155 54,8
house-votes-84 18 0 435 61,38
ionosphere 1 34 351 64,1
kr-vs-kp 37 0 3196 52,2
labor 9 8 57 64,91
monks1 7 0 556 51,08
monks2 7 0 601 50,08
monks3 7 0 554 50,36
pima 1 8 768 65,1
sick 24 6 3772 93,88
sonar 1 60 208 53,4
spect 23 0 267 58,80
tic-tac-toe 10 0 958 65,3
vote 17 0 435 61,4
Os experimentos foram realizados em modo “off-line”, ou seja, os resultados de cada

configuração de parâmetro foram pré-calculadas e armazenadas. Para cada conjunto de
dados, avaliamos dez mil combinações dos parâmetros C e σ, que controlam a suavidade da
margem e a largura do kernel Gaussiano, respectivamente. Intuitivamente, o parâmetro
C equilibra os erros de classificação do conjunto de treinamento e a simplicidade da
superfı́cie de decisão. Um baixo valor para o parâmetro C torna a superfı́cie de decisão
suave, enquanto que um alto valor de C visa classificar todos os exemplos de treinamento
corretamente. Em outras palavras, quando o valor de C é alto, há um aumento da
variância (tenta se ajustar o máximo possı́vel para o conjunto de treinamento), com isso
aumenta o risco de overfitting. Por outro lado, um valor baixo para o parâmetro C
aumenta o risco de underfitting. Para o kernel Gaussiano (RBF), o parâmetro σ define
o quão distante alcança a influência de um único exemplo de treinamento, valores baixos
significam influência “distante” e valores altos significam influência “próxima”.
39
Tais combinações foram geradas a partir de uma variação log-espaçada de uma cen-
tena de pontos entre 10−7 até 105 para C, e 10−2 até 102 para σ, através da geração de
todas as combinações dos dois parâmetros. Essas faixas são comumente usados em expe-
rimentos de ajustes de parâmetros (Caruana et al., 2008). Na Tabela 4.2 é apresentada,
para cada conjunto de dados, o seu respectivo vizinho mais próximo de acordo com as
meta-caracterı́sticas. A primeira coluna representa os domı́nios alvo e a segunda coluna
representa os domı́nios de origem.
Tabela 4.2: Domı́nios de origem e destino, de acordo com a metodologia proposta

Base de Dados de Destino Mais Similar (Base de Dados de Origem)
australian credit-a
bands heart-statlog
breast-cancer-w ionosphere
bupa credit-g
credit-a australian
credit-g german
diabetes pima-indians-diabetes
german credit-g
haberman tic-tac-toe
heart-statlog australian
hepatitis credit-g
house-votes-84 vote
ionosphere labor
kr-vs-kp credit-a
labor bands
monks1 monks3
monks2 tic-tac-toe
monks3 monks1
pima-indians-diabetes diabetes
sick labor
sonar heart-statlog
spect credit-g
tic-tac-toe monks2
vote house-votes-84
A avaliação foi realizada da seguinte maneira: para cada simulação, um conjunto de

dados foi usado como base de dados de destino e os restantes são deixados no repositório
para definir conjunto de bases de dados de origem. A distância da base de dados alvo
em relação aos outros conjuntos de dados no repositório foi calculado usando a regra 1
vizinho mais próximo (do inglês 1-Nearest-Neighbor 1NN) com distância Euclidiana como
medida de distância. Todos os meta-atributos são dimensionados de forma independente
no intervalo 0-1, antes do cálculo de distância.
O conjunto de dados mais próximo foi usado como o domı́nio de origem. Para o
domı́nio de destino, e para cada medida de desempenho, uma lista ordenada (em ordem
40
decrescente) das melhores configurações de parâmetros do domı́nio de origem foi criada.
Esta ordem foi utilizada para classificar os resultados de domı́nio de destino, avaliando se
a ordem obtida a partir do domı́nio de origem é uma boa maneira de testar ajustes de
parâmetros no domı́nio de destino. Com a ordem obtida a partir do domı́nio de origem,
foram testadas as 100, 300 e 500 melhores configurações de parâmetros recomendados
para o domı́nio de destino.
4.2 Resultados
Os resultados numéricos produzidos por esta abordagem encontram-se disponı́veis nos

anexos deste trabalho. Para se ter uma ideia geral do desempenho de cada abordagem,
foram calculados quatro medidas de desempenho de classificação diferentes: área sob a
curva ROC (AUC), acurácia (ACC), medida F1 e a área sob a curva Precison-Recall
(AUPR).
A fim de analisar se existem diferenças entre os métodos, foi aplicado o teste estatı́stico
de Friedman, com nı́vel de confiança de 95%. O teste de Friedman é o equivalente não
paramétrico ANOVA das medidas repetidas. Quando a hipótese nula é rejeitada pelo
teste de Friedman, podemos prosseguir com um teste de post-hoc para detectar quais as
diferenças entre os métodos são significativas (Demšar, 2006). Para este propósito, nós
usamos o teste Nemenyi, que é um teste não-paramétrico semelhante ao do teste de Tukey
para ANOVA e é utilizado quando todos os métodos são comparados uns com os outros.
Os resultados são apresentados sob a forma de diagramas de diferenças crı́ticas. Nes-
ses diagramas, os resultados foram ordenados por desempenho decrescente, no qual os
melhores algoritmos são colocados à esquerda da figura. Uma linha que une dois ou mais
métodos indica que não há nenhuma diferença com significância estatı́stica entre esses
métodos. Além disso, também serão apresentados gráficos que mostram o desempenho
das técnicas em cada uma das medidas de desempenho utilizadas e para cada uma das
bases de dados utilizadas.
Os resultados obtidos com a proposta deste trabalho foram comparados com os re-
sultados obtido por outras técnicas comumente utilizadas para ajuste de parâmetros. Na
Subsecção 4.2.1 são apresentados os resultados da comparação entre a Transferência
de Aprendizado e o Grid Search. Na Subsecção 4.2.2 são apresentados os resultados da
comparação entre o Grid Search e o Grid Search alimentado com os resultados da Transfe-
rência de Aprendizado. Na Subsecção 4.2.3 são apresentados os resultados da comparação
entre o Grid Search, a Transferência de Aprendizado e a Transferência de Aprendizado
Multi-Objetivo. Na Subsecção 4.2.4 são apresentados os resultados da comparação entre
o Grid Search alimentado pelo resultado da Transferência de Aprendizado com agregação
41
Multi-Objetivo e a Transferência de Aprendizado com agregação Multi-Objetivo.
4.2.1 Transferência de Aprendizado versus Grid Search
Para comparar os resultados da abordagem proposta, foi utilizado um procedimento Grid

Search. Grid Search gera combinações candidatas exaustivamente a partir de uma grade
de valores de parâmetros e, em seguida, usa internamente (usando o conjunto de trei-
namento apenas) a validação cruzada para encontrar os melhores parâmetros da grade.
Esse procedimento retorna a melhor configuração de parâmetros com a validação cruzada
no conjunto de treinamento. Nós selecionamos o Grid Search por sua simplicidade e por
ser uma das técnicas mais utilizadas para ajustar os parâmetros. Experimentamos duas
configurações diferentes de Grid Search. A primeira (GS1) usa a faixa de intervalo 10−7
até 105 para C, e 10−2 até 102 para σ (o mesmo intervalo utilizado nos experimentos do
método proposto). A segunda (GS2) usa um intervalo de 10−5 até 1015 para C, e 10−15 até
103 para σ, que também são valores normalmente recomendados na literatura (Hsu et al.,
2003). Foi usada a implementação do Grid Search do Pacote R e10714 . A configuração
de parâmetros das técnicas de Grid Search foram ajustadas no conjunto de treinamento
de cada fold. A abordagem de transferência de apredizado foi avaliada transferindo-se as
100, 300 e 500 melhores configurações de experimentos.
Na Figura 4.1 é mostrado o desempenho de cada abordagem em cada uma das 24 bases
de dados usadas nos experimentos. Para cada base de dados e para cada medida, as três
primeiras barras (rosa, verde claro e verde escuro) indicam o desempenho da abordagem de
transferência de aprendizado com as 100, 300 e 500 melhores configurações (TL100, TL300
e TL500) respectivamente. A quarta e quita barras (azul e roxo) indicam o desempenho
das duas versões de Grid Search usadas na comparação (GS1 e GS2, respectivamente).
Na Figura 4.2 são apresentados os diagramas de diferenças crı́ticas desses experimentos
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser obser-
vado nesses diagramas, a abordagem de transferência de aprendizado se mostrou bastante
competitiva com a técnica de Grid Search, para as quatro medidas de desempenho conside-
radas. Os experimentos com a transferência de 300 e 500 configurações (TL300 e TL500)
obtiveram resultados estatisticamente melhoers para todas as medidas quando compa-
rado com as duas configurações de Grid Search (GS1 e GS2), e os experimentos com a
transferência das 100 melhores configurações (TL100) obteve resultados comparáveis com
a segunda configuração de Grid Search (GS2).
4
Disponı́vel em http://cran.r-project.org/web/packages/e1071/index.html
42
43
Figura 4.1: Transferência de aprendizado versus Grid Search - Desempenho por base de dados
(a) AUC (b) ACC
44
(c) F1 (d) AUPR
Figura 4.2: Transferência de Aprendizado versus Grid Search - Diagrama de diferenças crı́ticas
4.2.2 Grid Search versus Grid Search com Transfer Learning
Os resultados apresentados anteriormente podem ser considerados, de alguma forma, ten-

denciosos, pois são baseadas no melhor resultado da nossa abordagem proposta com as
100, 300 dos 500 melhores configurações com base no domı́nio de origem. Para fazer
uma comparação justa, o procedimento de validação cruzada do Grid Search também foi
usado para procurar uma recomendação de parâmetro entre as 100, 300 e 500 melhores
configurações obtidas com abordagem proposta.
Na Figura 4.3 é mostrado o desempenho de cada abordagem em cada uma das 24 bases
de dados usadas nos experimentos. As duas primeiras barras (rosa e verde claro) indicam
o desempenho das duas versões do Grid Search usadas na comparação (Grid Search 1 e
Grid Search 2), respectivamente. A terceira, quarta e quinta barra (verde escuro, azul e
roxo) indicam o desempenho do Grid Search alimentado com o resultado da Transferência
de Aprendizado com as 100, 300 e 500 melhores configurações de parâmetros (GSTL100,
GSTL300 e GSTL500).
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser observado
nesses diagramas, a abordagem da segunda versão do Grid Search e o Grid Search alimen-
tado com a transferência de aprendizado com as 100, 300 e 500 melhores configurações de
parâmetros (GS2, GSTL100, GSTL300 e GSTL500, respectivamente) obtiveram resulta-
dos estatisticamente melhoers para todas as medidas quando comparado com a primeira
versão do Grid Search (GS1), e comparáveis com a segunda versão do Grid Search 2
(GS2), para as quatro medidas de desempenho consideradas.
4.2.3 Grid Search versus Transfer Learning versus Multi-Objetivo
Outro possı́vel viés é que as técnicas de Grid Search otimizam em termos de acurácia,
e estamos sugerindo configurações com base no desempenho do domı́nio de origem de
cada medida de desempenho de forma independente. Para superar isso, investigamos
uma abordagem de agregação multi-objetivo, usando uma técnica de rankings agregados,
onde as posições médias de classificação dadas pelas quatro medidas de desempenho são
agregados em um ranking final, como em (Prati, 2012).
Na Figura 4.5 é mostrado o desempenho de cada abordagem em cada uma das 24
bases de dados usadas nos experimentos. As duas primeiras barras (rosa e laranja) indi-
cam o desempenho do das duas versões do Grid Search usadas nas comparações (GS1 e
GS2). A terceira, quarta e quinta barra (verde claro, verde escuro e azul claro) indicam
o desempenho da Transferência de Aprendizado com as 100, 300 e 500 melhores confi-
gurações de parâmetros (TL100, TL300 e TL500). A sexta, sétima e oitava barra (azul
45
46
Figura 4.3: Grid Search versus Grid Search com Transferência de Aprendizado - Desempenho por base de dados
(a) AUC (b) ACC
47
(c) F1 (d) AUPR
Figura 4.4: Grid Search versus Grid Search com Transferência de Aprendizado - Diagrama de diferenças crı́ticas
escuro, roxo escuro e roxo claro) indicam o desempenho da Transferência de Aprendizado
Multi-Objetivo com as 100, 300 e 500 melhores configurações de parâmetros (MO100,
MO300 e MO500).
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser observado
nesses diagramas, a abordagem da segunda versão do Grid Search (GS2) obteve resultados
estatisticamente melhores que as demais abordagens. A transferência de aprendizado
multi-objetivo com as 100 e 300 melhores configurações, e a transferência de aprendizado
com as 100 e 300 melhores configurações (MO100, MO300, TL100 e TL300) obtiveram
resultados competitivos com a transferência de aprendizado com agregação multi-objetivo
com as 500 melhores configurações de parâmetros e com a transferência de aprendizado
com as 500 melhores configurações de parâmetros (MO500 e TL500).
4.2.4 Grid Search com Multi-Objetivo versus Multi-Objetivo
Investigamos também uma abordagem de agregação multi-objetivo, usando uma técnica

de rankings agregados, como mostrado na Seção anterior, e o resultado desta técnica é
usado para alimentar o Grid Search. A abordagem descrita é comparada com a abordagem
multi-objetivo.
Na Figura 4.7 é mostrado o desempenho de cada abordagem em cada uma das 24 ba-
ses de dados usadas nos experimentos. As três primeiras barras (rosa, verde claro e verde
escuro) indicam o desempenho do Grid Search alimentado com o resultado da Transfe-
rência de Aprendizado com agregação Multi-Objetivo com as 100, 300 e 500 melhores
configurações. A quarta, quinta e sexta barra (azul claro, azul escuro e roxo) indicam
o desempenho da Transferência de Aprendizado Multi-Objetivo com as 100, 300 e 500
melhores configurações.
para as medidas AUC, Acurácia, F1 e AUPR, respectivamente. Como pode ser obser-
vado nesses diagramas, a abordagem Grid Search com agregação multi-objetivo com as
100, 300 e 500 melhores configurações (MOGS100, MOGS300 e MOGS500) obtiveram
resultados competitivos com a abordagem multi-objetivo com as 100, 300 e 500 melhores
configurações (MO100, MO300 e MO500).
4.2.5 Discussão
Para ter mais um ponto de vista do desempenho da abordagem proposta, nós também
avaliamos que extensão do topo do rank de recomendações incluem as melhores configu-
rações de parâmetros entre os 10.000 testados. Na Tabela 4.3 é apresentada a posição da
48
49
Figura 4.5: Grid Search versus Transfer Learning versus Multi-Objetivo - Desempenho por base de dados
(a) AUC (b) ACC
50
(c) F1 (d) AUPR
Figura 4.6: Grid Search versus Transfer Learning versus Multi-Objetivo - Diagrama de diferenças crı́ticas
51
Figura 4.7: Grid Search com Multi-Objetivo versus Multi-Objetivo - Desempenho por base de dados
(a) AUC (b) ACC
52
(c) F1 (d) AUPR
Figura 4.8: Grid Search com Multi-Objetivo versus Multi-Objetivo - Diagrama de diferenças crı́ticas
melhor configuração. As listas que incluem a melhor configuração entre as 100, 300 ou 500
primeiras posições, estão hachuradas em azul, vermelho e verde, respectivamente. Vale
a pena notar que em 35% dos casos (34 de 96), a melhor configuração está entre as 100
primeiras posições recomendadas e em 58% dos casos (66 de 96) a melhor configuração
está entre as 300 primeiras posições recomendadas.
Tabela 4.3: Posição da melhor configuração de parâmetros na abordagem proposta

BASE AUC ACC AUPR F1
australian 13 80 80 37
bands 513 53 53 538
breast-cancer-w 2149 6840 6840 2505
bupa 777 3028 3028 150
credit-a 202 67 67 112
credit-g 200 7 7 9596
diabetes 46 5 5 110
german 101 26 26 1246
haberman 2075 4739 4739 9058
heart-statlog 135 12 12 357
hepatitis 123 680 680 2230
house-votes-84 320 172 172 845
ionosphere 1602 4340 4340 1602
kr-vs-kp 899 1474 1474 912
labor 53 1 1 268
monks1 5374 4293 4293 88
monks2 161 61 61 866
monks3 4 4783 4783 758
pima-indians-diabetes 188 17 17 156
sick 253 70 70 685
sonar 3 190 190 21
spect 131 939 939 3193
tic-tac-toe 1 1 1 8
vote 229 153 153 241
Para algumas bases de dados, entretanto, a melhor configuração está em algum lu-
gar no meio das 10.000 testadas. Isso não significa, necessariamente, que a abordagem
proposta falhou completamente para esses casos, pois um resultado muito perto da me-
lhor configuração pode ser encontrado. Para analisar o quão distante estamos da melhor
configuração, foi calculada uma “perda normalizada”, que calcula a diferença entre o re-
sultado oferecido pela abordagem proposta e o resultado máximo global, dividido pelo
resultado máximo global. Na Figura 4.9 é mostrada: (a) a perda entre a Transferência de
Aprendizado com as 100 melhores configurações e o Grid Search 1; e (b) a perda entre a
Transferência de Aprendizado com as 500 melhores configurações e o Grid Search 2;
Os valores perto da origem — ponto (0, 0) — indicam que os dois métodos alcançaram
um desempenho muito próximo ao ótimo global. Valores próximos a diagonal principal
53
(a) Transfer learning 100 best configurations versus Grid Search 1
(b) Transfer learning 500 best configurations versus Grid Search 2
Figura 4.9: Normalized Loss
indicam que ambos os métodos tiveram desempenho similar. Valores próximos ao eixo x
indicam que a Transferência de Aprendizado obteve um desempenho superior e os valores
próximos ao eixo y indicam que o Grid Search obteve um desempenho superior. Como
pode ser observado nos gráficos, muitos resultados estão próximos a origem. Além disso,
muitos resultados aparecem abaixo da diagonal principal, indicando uma vantagem da
Transferência de Aprendizado sobre o Grid Search. Na maioria dos casos, as 100 melhores
configurações sugerem uma perda normalizada máxima de 10%, quando comparada com
a melhor configuração encontrada na combinação de 10.000 parâmetros.
Como pode ser visto a partir dos resultados, a abordagem proposta é bem sucedida
na transferência de parâmetros a partir do domı́nio de origem para o domı́nio de destino,
e que é muito competitiva com os procedimentos baseados em Grid Search. A abordagem
multi-objetivo testada é simples, mas aponta uma direção de investigação promissora para
alcançar a configurações de parâmetros equilibras entre as quatro medidas de desempenho
estudadas neste trabalho.
54
Apesar dos resultados animadores com a abordagem proposta, nós sabemos que é
computacionalmente inviável aplicar essa metodologia no dia-a-dia sem um repositório
pré-criado, pois temos de avaliar um grande número de parâmetro em todos os conjuntos
de dados no repositório. No entanto, este problema pode ser atenuado com a criação de
um repositório para consulta.
Portanto, dado um novo domı́nio de destino, o problema é reduzido para calcular as
medidas de complexidade deste domı́nio, determinando qual o melhor domı́nio de origem
disponı́vel no repositório, e testar as melhores configurações sugeridas pela transferência
de aprendizagem.
Neste capı́tulo foram apresentados e discutidos os procedimentos experimentais que com-

puseram este trabalho, bem como os resultados alcançados e as respectivas discussões
sobre eles. Para avaliar a viavilidade da proposta, os resultados obtidos foram compara-
dos com outras abordagens comumente utilizadas para ajustar parâmetros em algoritmos
de aprendizado de máquina. Como pôde ser visto, a abordagem deste trabalho é compe-
titivo ou superior aos outros métodos. No próximo capı́tulo será apresentado a conclusão
de todo o trabalho apresentado.
55
56
Capı́tulo 5
Considerações Finais
Ajuste dos parâmetros livres em algoritmos de aprendizado de máquina é uma tarefa

importante, pois eles afetam diretamente o desempenho dos algoritmos de aprendizagem.
Embora algumas técnicas como o Grid Search, AG, PSO e Simulated Annealing, tenham
obtido bons resultados na tarefa de ajustar esses parâmetros, ainda não são a melhor
abordagem, pois todo o trabalho precisa ser refeito a partir do zero quando se tem um
novo problema para aplicar um algoritmo de aprendizagem.
Neste trabalho, propomos e avaliamos uma abordagem de transferência de aprendiza-
gem para a tarefa de ajuste de parâmetros. A abordagem proposta assumiu a hipótese
de que o espaço de busca do domı́nio de destino (possı́veis configurações de parâmetros
da SVM para uma base de dados) seria reduzido ao utilizar as melhores configurações do
domı́nio de origem (configurações que obtiveram bom desempenho em uma base de dados
similar à base de dados de destino). A escolha do domı́nio de origem é feita com base na
similaridade entre as bases de dados, calculadas com base em medidas de complexidade
entre os domı́nios.
Os resultados empı́ricos de um experimento com 24 bases de dados com problemas de
classificação binária, 10.000 configuração de parâmetros (C e σ) para cada base de dados,
e quatro diferentes medidas de desempenho (AUC, ACC, AUPR e F1) mostraram que
o método proposto é comparável ou melhor do que uma técnica de Grid Search, que é
comumente utilizada para resolver o problema de ajuste de parâmetros.
Os resultados preliminares deste foram publicados na forma de um artigo para o X
Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Este artigo foi
selecionado e convidado para submissão de versão expandida m uma edição especial no
Journal of Intelligent & Robotic Systems, ainda em avaliação na data da finalização desta
monografia.
Apesar dos bons resultados obtidos com a abordagem proposta, existem limitações
57
para utilização da técnica no a partir do zero, pois ela é computacionalmente custosa.
Afinal, temos de avaliar um grande número de parâmetros para a base de dados de origem.
No entanto, esse problema pode ser atenuado com a criação de um repositório, cujas
configurações esteja pré-calculadas para todos os domı́nios do repositório. Assim, dado um
novo domı́nio de destino, o problema é reduzido em calcular as medidas de complexidade
deste domı́nio, determinando qual o melhor domı́nio de origem disponı́vel no repositório,
e testar as melhores configurações sugeridas pela transferência de aprendizagem.
O trabalho pode ser continuado com a exploração de extensões dessa abordagem. Por
exemplo, utilizando outros métodos pra a seleção da base de dados de origem, como refe-
rências e modelo baseado em caracterı́sticas. Algumas medidas de complexidade têm mais
influência do que outras, por isso é importante explorar outras medidas de complexidade
de base de dados. Também é importante explorar outros kernels (como, por exemplo,
usando o kernel como outro hyper parâmetro), algoritmos e bases de dados multi-classes.
Outro possibilidade é instigar outras maneiras para escolher o domı́nio de origem, ou in-
vestigar se é possı́vel usar informações de mais de um domı́nio de origem. Por último, mas
não menos importante, vale a pena investigar mais outras abordagens para o problema
multi-objetivo agregação.
58
Referências Bibliográficas
Ali, S. and Smith-Miles, K. A. (2006). A meta-learning approach to automatic kernel

selection for Support Vector Machines. Neurocomputing, 70(1-3):173–186. Citado na
página 25.
Bandyopadhyay, S. and Saha, S. (2012). Unsupervised Classification: Similarity Measu-

res, Classical and Metaheuristic Approaches, and Applications. Springer. Citado na
página 1.
Blum, C. and Merkle, D. (2008). Swarm Intelligence. Springer. Citado na página 2.
Bouckaert, R. R. and Frank, E. (2004). Evaluating the replicability of significance tests

for comparing learning algorithms. In Dai, H., Srikant, R., and Zhang, C., editors,
8th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining
(PAKDD 2004), volume 3056 of Lecture Notes in Computer Science, pages 3–12. Sprin-
ger. Citado na página 38.
Boyd, K., Eng, K. H., and Jr., C. D. P. (2013). Erratum: Area under the Precision-
Recall curve: Point estimates and confidence intervals. In Blockeel, H., Kersting, K.,
Nijssen, S., and Zelezný, F., editors, ECML/PKDD (3), volume 8190 of Lecture Notes
in Computer Science. Springer. Citado na página 11.
Brazdil, P., Carrier, C. G., Soares, C., and Vilalta, R. (2010). Metalearning: Applications
to Data Mining. Springer. Citado na página 37.
Burges, C. J. C. (1998). A tutorial on Support Vector Machines for pattern recognition.

Data Min. Knowl. Discov., 2(2):121–167. Citado na página 17.
Caruana, R., Karampatziakis, N., and Yessenalina, A. (2008). An empirical evaluation of

supervised learning in high dimensions. In Cohen, W. W., McCallum, A., and Roweis,
S. T., editors, ICML, volume 307 of ACM International Conference Proceeding Series,
pages 96–103. ACM. Citado na página 40.
Chapelle, O., Schölkopf, B., and Zien, A., editors (2010). Semi-Supervised Learning (Adap-
tive Computation and Machine Learning series). The MIT Press. Citado na página 1.
59
Cristianini, N. and Shawe-Taylor, J. (2010). An Introduction to Support Vector Machines
and Other Kernel-based Learning Methods. Cambridge University Press. Citado na
página 15.
de Miranda, P. B. C., Prudêncio, R. B. C., de Carvalho, A. C. P. L. F., and Soares, C.

(2012). Combining a multi-objective optimization approach with meta-learning for svm
parameter selection. In International Conference on Systems, Man, and Cybernetics -
SMC, pages 2909–2914. IEEE. Citado na página 25.
de Souza, B. F. and de Carvalho, A. C. P. L. F. (2004). Gene selection based on multi-class

svms and genetic algorithms. In Martins, N. F., Walter, M. E. T., Telles, G. P., and
Brigido, M. M., editors, Wide Open Business Conference - WOB, pages 89–96. Citado
na página 19.
de Souza, B. F., de Carvalho, A. C. P. L. F., Calvo, R., and Ishii, R. P. (2006). Multiclass
svm model selection using particle swarm optimization. In Kasabov, N., Köppen, M.,
König, A., Abraham, A., and Song, Q., editors, Hybrid Intelligent Systems - HIS,
page 31. IEEE Computer Society. Citado na página 19.
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. J. Mach.
Learn. Res., 7:1–30. Citado nas páginas 11 e 41.
Duan, K. and Keerthi, S. S. (2005). Which is the best multiclass svm method? an
empirical study. In Oza, N. C., Polikar, R., Kittler, J., and Roli, F., editors, Multiple
Classifier Systems, volume 3541 of Lecture Notes in Computer Science, pages 278–285.
Springer. Citado na página 39.
Faceli, K., Lorena, A. C., Gama, J., and de Carvalho, A. C. P. L. F. (2011). Inteligência
Artificial: Uma Abordagem de Aprendizado de Máquina. LTC. Citado nas páginas 1,
12, 13, 14, 15, e 16.
Flach, P. A. (2004). The many faces of ROC analysis in machine learning. In-
ternational Conference on Machine Learning. http://www.cs.bris.ac.uk/~flach/
ICML04tutorial/ROCtutorialPartI.pdf. Citado nas páginas 9 e 10.
Frank, A. and Asuncion, A. (2010). UCI machine learning repository. http://archive.

ics.uci.edu/ml. Citado na página 38.
Friedman, J. H. and Rafsky, L. C. (1979). Multivariate generations of the wald-wolfowitz

and smirnov two-sample tests. In The Annals of Statistics. Citado na página 28.
Glover, F. & Laguna, F. (1997). Tabu Search. Norwell. Citado nas páginas 2 e 19.
Ho, T. K. and Baird, H. S. (1998). Pattern classification with compact distribution maps.
Computer Vision and Image Understanding, 70(1):101–110. Citado na página 27.
60
Hoekstra, A. and Duin, R. P. W. (1996). On the nonlinearity of pattern classifiers. In
Conference on Pattern Recognition. Citado na página 30.
Hsu, C.-W., Chang, C.-C., and Lin, C.-J. (2003). A practical guide to support vector
classification. Technical report, Department of Computer Science, National Taiwan
University. Citado na página 42.
Huang, C.-L. and Wang, C.-J. (2006). A GA-based feature selection and parameters
optimizationfor support vector machines. Expert Syst. Appl., 31(2):231–240. Citado
na página 19.
Imbault, F. and Lebart, K. (2004). A stochastic optimization approach for parameter

tuning of support vector machines. In ICPR (4), pages 597–600. Citado na página 19.
King, R. D., Feng, C., and Sutherland, A. (1995). Stalog: Comparison of classification
algorithms on large real-world problems. Applied Artificial Intelligence, 9(3):289–333.
Citado na página 31.
Kirkpatrick, S., Gelatt Jr., C. D., and Vecchi, M. P. (1983). Optimization by simulated
annealing. Science, 220(4598). Citado nas páginas 2 e 19.
Linden, R. (2012). Algoritmos Genéticos. Brasport. Citado na página 2.
Lorena, A. C. and de Carvalho, A. C. P. L. F. (2006). Multiclass SVM design and

parameter selection with genetic algorithms. In Canuto, A. M. P., de Souto, M. C. P.,
and da Silva, A. C. R., editors, SBRN, pages 131–136. IEEE Computer Society. Citado
na página 19.
Mitchell, T. M. (1997). Machine Learning. McGraw Hill. Citado nas páginas 1 e 11.
Orriols-Puig, A., Macià, N., and Ho, T. K. (2010). Documentation for the data complexity
library in C++. Technical report, La Salle - Universitat Ramon Llull. Citado na
página 38.
Pan, S. J. and Yang, Q. (2010). A survey on transfer learning. IEEE Trans. Knowl. Data
Eng., 22(10). Citado nas páginas 2, 20, e 24.
Perea, P. R. (2012). Algorithms for training large-scale linear programming Support Vector
Regression and classification. ProQuest. Citado na página 17.
Prati, R. C. (2012). Combining feature ranking algorithms through rank aggregation. In

IJCNN, pages 1–8. IEEE. Citado na página 45.
Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. (2008). A study with class
imbalance and random sampling for a decision tree learning system. In Bramer, M.,
61
editor, IFIP AI, volume 276 of IFIP, pages 131–140. Springer. Citado nas páginas 9
e 11.
Prati, R. C., Batista, G. E. A. P. A., and Monard, M. C. (2011). A survey on graphical

methods for classification predictive performance evaluation. IEEE Trans. Knowl. Data
Eng., 23(11):1601–1618. Citado nas páginas 9 e 38.
Reif, M., Shafait, F., and Dengel, A. (2012). Meta-learning for evolutionary parameter
optimization of classifiers. Machine Learning, 87(3):357–380. Citado na página 25.
Rossi, A. L. D. (2009). Ajuste de parâmetros de técnicas de classificação por algoritmos

bioinspitados. Disertação de mestrado, ICMC-USP. Citado nas páginas 1, 2, 5, 6, e 14.
Sotoca, J. M., Mollineda, R. A., and Sánchez, J. S. (2006). A meta-learning framework

for pattern classification by means of data complexity measures. Inteligencia Artificial,
Revista Iberoamericana de Inteligencia Artificial, 10(29):31–38. Citado nas páginas 26,
37, e 39.
Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms.

Citado na página 6.
62
Apêndice A
Lista de Acrônimos
AG Algoritmos Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
AM Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
AUC Area Under Curve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
ACC Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
CV Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
MTL Multi-Task Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
MST Minimum Spanning Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
PSO Particle Swarm Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
RBF Radial Basis Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
RNA Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
ROC Receiver Operating Characteristics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
63
SVM Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
SVR Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
TAE Teoria do Aprendizado Estatı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
PR Precision-Recall. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
64
Apêndice B
Distância entre as bases de dados
Tabela B.1: Distância entre as Bases de Dados - Parte 1

BASE australian bands breast-cancer-w bupa
australian 0 3,69861500 4,80633900 5,17186100
bands 3,69861500 0 5,94529600 5,09421200
breast-cancer-w 4,80633900 5,94529600 0 7,98015200
bupa 5,17186100 5,09421200 7,98015200 0
credit-a 0,35498500 3,60821800 4,89521400 5,27514800
credit-g 4,14583300 4,67633400 7,31228000 2,22963100
diabetes 4,29519500 4,59356500 6,91881500 2,51728700
german 4,08311100 4,45421600 7,25305400 2,45708200
haberman 5,22396000 6,44846900 6,47740100 3,94892500
heart-statlog 2,37318400 2,71953100 5,45603500 5,22719900
hepatitis 3,52779400 3,96239400 6,48496300 2,34890800
house-votes-84 3,06601900 5,46233600 5,66948500 6,88320800
ionosphere 4,31741900 4,71823600 3,83477100 6,71253600
kr-vs-kp 4,02086400 4,39409800 6,17554700 5,51585100
labor 4,59993200 3,46820300 5,33854000 6,34313100
monks1 6,79302400 6,76296000 9,46143500 2,45979500
monks2 6,10712100 6,67076200 8,66654700 2,50922400
monks3 6,89445300 6,90798900 9,52778100 2,46411800
pima-indians-diabetes 4,31937200 4,65248500 6,92921800 2,48358400
sick 3,84518600 4,10361400 4,55804900 7,28970900
sonar 4,15197800 3,68834400 6,12447900 5,76735300
spect 4,47769800 4,71970800 7,71542100 3,37085200
tic-tac-toe 5,54400400 6,30933600 8,33395700 2,35847200
vote 3,06659200 5,46272400 5,67221300 6,88442800
65
BASE credit-a credit-g diabetes german
australian 0,35498500 4,14583300 4,29519500 4,08311100
bands 3,60821800 4,67633400 4,59356500 4,45421600
breast-cancer-w 4,89521400 7,31228000 6,91881500 7,25305400
bupa 5,27514800 2,22963100 2,51728700 2,45708200
credit-a 0 4,31437600 4,45770400 4,23246100
credit-g 4,31437600 0 1,84157000 0,65613290
diabetes 4,45770400 1,84157000 0 1,96628700
german 4,23246100 0,65613290 1,96628700 0
haberman 5,42656500 3,49282600 3,37263000 3,82470300
heart-statlog 2,39088000 3,96830200 4,20880800 3,77589300
hepatitis 3,65279000 2,07424400 2,44124500 2,10824500
house-votes-84 3,18624200 5,33510800 6,02089300 5,14792200
ionosphere 4,33126100 6,31743000 5,98747300 6,21107200
kr-vs-kp 3,97646000 5,31263900 5,48527100 4,99754000
labor 4,61742000 5,97211100 5,83112400 5,89500700
monks1 6,93155100 3,14266900 3,32142200 3,36370600
monks2 6,27090800 2,94439900 2,85057800 3,18731000
monks3 7,03898700 3,23960300 3,46557800 3,48727400
sick 3,77601600 6,36053400 6,30813100 6,27449500
sonar 4,23759200 4,62285700 4,99913200 4,31787000
spect 4,57788800 2,35889600 3,70057700 2,40027400
tic-tac-toe 5,72543700 2,15815700 2,37932700 2,43137900
vote 3,18660100 5,33519000 6,02245400 5,14775300
66
BASE haberman heart-statlog hepatitis house-votes-84
australian 5,22396000 2,37318400 3,52779400 3,06601900
bands 6,44846900 2,71953100 3,96239400 5,46233600
breast-cancer-w 6,47740100 5,45603500 6,48496300 5,66948500
bupa 3,94892500 5,22719900 2,34890800 6,88320800
credit-a 5,42656500 2,39088000 3,65279000 3,18624200
credit-g 3,49282600 3,96830200 2,07424400 5,33510800
diabetes 3,37263000 4,20880800 2,44124500 6,02089300
german 3,82470300 3,77589300 2,10824500 5,14792200
haberman 0 5,64925600 3,69085000 6,65065200
heart-statlog 5,64925600 0 3,63008300 3,33282500
hepatitis 3,69085000 3,63008300 0 5,35062900
house-votes-84 6,65065200 3,33282500 5,35062900 0
ionosphere 5,92166700 5,09916600 5,24889000 6,07084400
kr-vs-kp 6,44866800 4,60346200 4,46213700 5,19039500
labor 6,89526300 4,82692000 5,25574700 6,23379900
monks1 4,30571400 6,48315500 3,75765800 8,11072600
monks2 3,71167800 6,12144300 3,65430800 7,33167300
monks3 4,34818000 6,61960000 3,85130400 8,18121700
sick 6,84436000 4,15368900 6,05676900 5,12324900
sonar 6,32638100 3,17564600 4,40717100 4,27388000
spect 4,68374600 3,61388500 3,03367800 5,04567000
tic-tac-toe 3,30788100 5,72194100 3,17539900 6,82304700
vote 6,65165700 3,33532700 5,35234300 0,01716582
67
BASE ionosphere kr-vs-kp labor monks1
australian 4,31741900 4,02086400 4,59993200 6,79302400
bands 4,71823600 4,39409800 3,46820300 6,76296000
breast-cancer-w 3,83477100 6,17554700 5,33854000 9,46143500
bupa 6,71253600 5,51585100 6,34313100 2,45979500
credit-a 4,33126100 3,97646000 4,61742000 6,93155100
credit-g 6,31743000 5,31263900 5,97211100 3,14266900
diabetes 5,98747300 5,48527100 5,83112400 3,32142200
german 6,21107200 4,99754000 5,89500700 3,36370600
haberman 5,92166700 6,44866800 6,89526300 4,30571400
heart-statlog 5,09916600 4,60346200 4,82692000 6,48315500
hepatitis 5,24889000 4,46213700 5,25574700 3,75765800
house-votes-84 6,07084400 5,19039500 6,23379900 8,11072600
ionosphere 0 4,06778200 3,64492600 8,27663900
kr-vs-kp 4,06778200 0 5,00375000 7,06893900
labor 3,64492600 5,00375000 0 8,25476700
monks1 8,27663900 7,06893900 8,25476700 0
monks2 7,67890200 6,49229100 7,72738500 2,13298200
monks3 8,40062900 7,18469500 8,34319000 0,33042360
sick 4,16055200 5,51244700 3,70800300 9,06360500
sonar 4,73612500 4,35282200 4,34692600 6,92397500
spect 7,00292600 5,57774300 6,70658800 4,00974900
tic-tac-toe 7,18399400 6,07584500 7,40128800 2,08509300
vote 6,07072000 5,19040000 6,23457600 8,11207600
68
BASE monks2 monks3 pima-indians-diabetes sick
australian 6,10712100 6,89445300 4,31937200 3,84518600
bands 6,67076200 6,90798900 4,65248500 4,10361400
breast-cancer-w 8,66654700 9,52778100 6,92921800 4,55804900
bupa 2,50922400 2,46411800 2,48358400 7,28970900
credit-a 6,27090800 7,03898700 4,49022300 3,77601600
credit-g 2,94439900 3,23960300 1,83985700 6,36053400
diabetes 2,85057800 3,46557800 0,18753500 6,30813100
german 3,18731000 3,48727400 1,99633700 6,27449500
haberman 3,71167800 4,34818000 3,37972500 6,84436000
heart-statlog 6,12144300 6,61960000 4,26363800 4,15368900
hepatitis 3,65430800 3,85130400 2,44440300 6,05676900
house-votes-84 7,33167300 8,18121700 6,03385600 5,12324900
ionosphere 7,67890200 8,40062900 6,04365100 4,16055200
kr-vs-kp 6,49229100 7,18469500 5,54418000 5,51244700
labor 7,72738500 8,34319000 5,84170800 3,70800300
monks1 2,13298200 0,33042360 3,30949800 9,06360500
monks2 0 2,10521800 2,82238400 8,39214400
monks3 2,10521800 0 3,43969800 9,18922500
pima-indians-diabetes 2,82238400 3,43969800 0 6,35946900
sick 8,39214400 9,18922500 6,35946900 0
sonar 6,53807900 7,05017900 5,04886600 5,14590400
spect 4,20274200 4,07063900 3,72158000 6,67540800
tic-tac-toe 1,95032300 2,15452000 2,35459100 7,95096900
vote 7,33506600 8,18272900 6,03551700 5,12284500
69
BASE sonar spect tic-tac-toe vote
australian 4,15197800 4,47769800 5,54400400 3,06659200
bands 3,68834400 4,71970800 6,30933600 5,46272400
breast-cancer-w 6,12447900 7,71542100 8,33395700 5,67221300
bupa 5,76735300 3,37085200 2,35847200 6,88442800
credit-a 4,23759200 4,57788800 5,72543700 3,18660100
credit-g 4,62285700 2,35889600 2,15815700 5,33519000
diabetes 4,99913200 3,70057700 2,37932700 6,02245400
german 4,31787000 2,40027400 2,43137900 5,14775300
haberman 6,32638100 4,68374600 3,30788100 6,65165700
heart-statlog 3,17564600 3,61388500 5,72194100 3,33532700
hepatitis 4,40717100 3,03367800 3,17539900 5,35234300
house-votes-84 4,27388000 5,04567000 6,82304700 0,01716582
ionosphere 4,73612500 7,00292600 7,18399400 6,07072000
kr-vs-kp 4,35282200 5,57774300 6,07584500 5,19040000
labor 4,34692600 6,70658800 7,40128800 6,23457600
monks1 6,92397500 4,00974900 2,08509300 8,11207600
monks2 6,53807900 4,20274200 1,95032300 7,33506600
monks3 7,05017900 4,07063900 2,15452000 8,18272900
sick 5,14590400 6,67540800 7,95096900 5,12284500
sonar 0 4,69593600 6,09890800 4,27377000
spect 4,69593600 0 3,77114100 5,04645700
tic-tac-toe 6,09890800 3,77114100 0 6,82277800
vote 4,27377000 5,04645700 6,82277800 0
70
Apêndice C
Resultados Numéricos dos

Algoritmos
Medida Base MaxGlobal PosMaxGlobal

AUC australian 0,9257233 80
ACC australian 0,8563379 13
F1 australian 0,8581673 37
AUPR australian 0,8943071 115
AUC bands 0,8793563 53
ACC bands 0,8035714 513
F1 bands 0,7177408 538
AUPR bands 0,8932716 929
AUC breast-cancer-w 0,9948267 6840
ACC breast-cancer-w 0,9582743 2149
F1 breast-cancer-w 0,9575117 2505
AUPR breast-cancer-w 0,9677294 8200
AUC bupa 0,7781556 3028
ACC bupa 0,728829 777
F1 bupa 0,6434977 150
AUPR bupa 0,7829776 3121
AUC credit-a 0,9269133 67
ACC credit-a 0,8577464 202
F1 credit-a 0,861523 112
AUPR credit-a 0,8922227 20
AUC credit-g 0,7850207 7
ACC credit-g 0,7539216 200
F1 credit-g 0,5148767 9596
71
AUPR credit-g 0,882454 35
AUC diabetes 0,8422419 5
ACC diabetes 0,7703667 46
F1 diabetes 0,8273657 110
AUPR diabetes 0,7191247 55
AUC german 0,7996157 26
ACC german 0,7686275 101
F1 german 0,8394822 1246
AUPR german 0,6362299 46
AUC haberman 0,7534652 4739
ACC haberman 0,7331441 2075
F1 haberman 0,8258641 9058
AUPR haberman 0,4735571 4946
AUC heart-statlog 0,9063258 12
ACC heart-statlog 0,8344827 135
F1 heart-statlog 0,8324376 357
AUPR heart-statlog 0,8578728 20
AUC hepatitis 0,7928735 680
ACC hepatitis 0,7029412 123
F1 hepatitis 0,7222537 2230
AUPR hepatitis 0,6989081 346
AUC house-votes-84 0,9918056 172
ACC house-votes-84 0,9407247 320
F1 house-votes-84 0,9355347 845
AUPR house-votes-84 0,9556255 300
AUC ionosphere 0,9907668 4340
ACC ionosphere 0,9352774 1602
F1 ionosphere 0,8779377 1602
AUPR ionosphere 0,971328 5153
AUC kr-vs-kp 0,999859 1474
ACC kr-vs-kp 0,9925377 899
F1 kr-vs-kp 0,9890165 912
AUPR kr-vs-kp 0,9968273 373
AUC labor 1 1
ACC labor 0,8553572 53
F1 labor 0,7233335 268
AUPR labor 0,8474999 1
AUC monks1 0,9224389 4293
ACC monks1 0,5120993 5374
72
F1 monks1 0,3615424 88
AUPR monks1 0,9152911 4486
AUC monks2 0,8269101 61
ACC monks2 0,7633899 161
F1 monks2 0,7601662 866
AUPR monks2 0,8300167 61
AUC monks3 0,9303231 4783
ACC monks3 0,4565033 4
F1 monks3 0,4123735 758
AUPR monks3 0,9175927 3842
AUC pima-indians-diabetes 0,8419759 17
ACC pima-indians-diabetes 0,7765824 188
F1 pima-indians-diabetes 0,833111 156
AUPR pima-indians-diabetes 0,7230695 58
AUC sick 0,8184499 70
ACC sick 0,9377656 253
F1 sick 0,9664894 685
AUPR sick 0,332656 69
AUC sonar 0,9809651 190
ACC sonar 0,8557311 3
F1 sonar 0,8317159 21
AUPR sonar 0,9233161 787
AUC spect 0,7760208 939
ACC spect 0,7077586 131
F1 spect 0,7615423 3193
AUPR spect 0,703723 565
AUC tic-tac-toe 1 1
ACC tic-tac-toe 0,989775 1
F1 tic-tac-toe 0,9711006 8
AUPR tic-tac-toe 0,9919669 1
AUC vote 0,9931389 153
ACC vote 0,9472466 229
F1 vote 0,9393747 241
AUPR vote 0,9565788 88
Tabela C.1: Resultados Numéricos - Ótimo Global
Medida Base TL100 TL300 TL500

AUC australian 0,9257233 0,9257233 0,9257233
73
ACC australian 0,8563379 0,8563379 0,8563379
F1 australian 0,8581673 0,8581673 0,8581673
AUPR australian 0,8941679 0,8943071 0,8943071
AUC bands 0,8793563 0,8793563 0,8793563
ACC bands 0,7910715 0,7964286 0,7982143
F1 bands 0,6882469 0,695536 0,7076804
AUPR bands 0,8415639 0,8423897 0,8855846
AUC breast-cancer-w 0,9895481 0,9900592 0,9905954
ACC breast-cancer-w 0,9457549 0,9499215 0,9541077
F1 breast-cancer-w 0,9489267 0,9508867 0,9508867
AUPR breast-cancer-w 0,9439468 0,9464441 0,9486153
AUC bupa 0,7650333 0,7695131 0,7702663
ACC bupa 0,7204956 0,7261262 0,7261262
F1 bupa 0,6379422 0,6434977 0,6434977
AUPR bupa 0,7718466 0,7746059 0,7746059
AUC credit-a 0,9269133 0,9269133 0,9269133
ACC credit-a 0,8563379 0,8577464 0,8577464
F1 credit-a 0,8586534 0,861523 0,861523
AUPR credit-a 0,8922227 0,8922227 0,8922227
AUC credit-g 0,7850207 0,7850207 0,7850207
ACC credit-g 0,7529412 0,7539216 0,7539216
F1 credit-g 0,4853896 0,5052575 0,5052575
AUPR credit-g 0,882454 0,882454 0,882454
AUC diabetes 0,8422419 0,8422419 0,8422419
ACC diabetes 0,7703667 0,7703667 0,7703667
F1 diabetes 0,8268405 0,8273657 0,8273657
AUPR diabetes 0,7191247 0,7191247 0,7191247
AUC german 0,7996157 0,7996157 0,7996157
ACC german 0,7676471 0,7686275 0,7686275
F1 german 0,821122 0,8280299 0,8323458
AUPR german 0,6362299 0,6362299 0,6362299
AUC haberman 0,7161303 0,7161303 0,7184898
ACC haberman 0,7210229 0,7240532 0,7270835
F1 haberman 0,8074518 0,8099506 0,8115668
AUPR haberman 0,4437763 0,4437763 0,4437763
AUC heart-statlog 0,9063258 0,9063258 0,9063258
ACC heart-statlog 0,8206895 0,8344827 0,8344827
F1 heart-statlog 0,8198032 0,8239629 0,8324376
AUPR heart-statlog 0,8578728 0,8578728 0,8578728
74
AUC hepatitis 0,7878924 0,7921892 0,7924156
ACC hepatitis 0,7029411 0,7029412 0,7029412
F1 hepatitis 0,7027992 0,7055265 0,7055265
AUPR hepatitis 0,6918437 0,6978035 0,6989081
AUC house-votes-84 0,9916383 0,9918056 0,9918056
ACC house-votes-84 0,9384061 0,9384543 0,9407247
F1 house-votes-84 0,9331501 0,9343284 0,9349721
AUPR house-votes-84 0,9546097 0,9556255 0,9556255
AUC ionosphere 0,9761041 0,9764026 0,9781347
ACC ionosphere 0,9325747 0,9325747 0,9325747
F1 ionosphere 0,8751621 0,8751621 0,8751621
AUPR ionosphere 0,9619289 0,9624438 0,9630203
AUC kr-vs-kp 0,998962 0,9996085 0,9997924
ACC kr-vs-kp 0,9912955 0,991606 0,991606
F1 kr-vs-kp 0,9880766 0,9880766 0,9880766
AUPR kr-vs-kp 0,996545 0,9967069 0,9968273
AUC labor 1 1 1
ACC labor 0,8553572 0,8553572 0,8553572
F1 labor 0,7138097 0,7233335 0,7233335
AUPR labor 0,8474999 0,8474999 0,8474999
AUC monks1 0,9163585 0,9163585 0,9163585
ACC monks1 0,5103751 0,5103751 0,5103751
F1 monks1 0,3615424 0,3615424 0,3615424
AUPR monks1 0,9067769 0,9130403 0,9067769
AUC monks2 0,8269101 0,8269101 0,8269101
ACC monks2 0,7617255 0,7633899 0,7633899
F1 monks2 0,7541374 0,7559636 0,7559636
AUPR monks2 0,8300167 0,8300167 0,8300167
AUC monks3 0,9220427 0,9229619 0,9268894
ACC monks3 0,4565033 0,4565033 0,4565033
F1 monks3 0,3606419 0,3606419 0,3966413
AUPR monks3 0,9106487 0,9106487 0,9151753
AUC pima-indians-diabetes 0,8419759 0,8419759 0,8419759
ACC pima-indians-diabetes 0,7753165 0,7765824 0,7765824
F1 pima-indians-diabetes 0,8320016 0,833111 0,833111
AUPR pima-indians-diabetes 0,7230695 0,7230695 0,7230695
AUC sick 0,8184499 0,8184499 0,8184499
ACC sick 0,9375018 0,9377656 0,9377656
F1 sick 0,9663504 0,9663504 0,9663504
75
AUPR sick 0,332656 0,332656 0,332656
AUC sonar 0,9768872 0,9809651 0,9809651
ACC sonar 0,8557311 0,8557311 0,8557311
F1 sonar 0,8317159 0,8317159 0,8317159
AUPR sonar 0,8230152 0,8232877 0,9180156
AUC spect 0,7725361 0,7735528 0,7735528
ACC spect 0,7043102 0,7077586 0,7077586
F1 spect 0,71145 0,7148526 0,7204378
AUPR spect 0,6939171 0,6994519 0,703203
AUC tic-tac-toe 1 1 1
ACC tic-tac-toe 0,989775 0,989775 0,989775
F1 tic-tac-toe 0,9711006 0,9711006 0,9711006
AUPR tic-tac-toe 0,9919669 0,9919669 0,9919669
AUC vote 0,9928029 0,9931389 0,9931389
ACC vote 0,9450726 0,9472466 0,9472466
F1 vote 0,9379324 0,9393747 0,9393747
AUPR vote 0,9565788 0,9565788 0,9565788
Tabela C.2: Resultados Numéricos - Transferência de
Aprendizado
Medida Base GS1 GS2

AUC australian 0,9017857 0,923667
ACC australian 0,8211266 0,8436618
F1 australian 0,8247396 0,8396392
AUPR australian 0,8607262 0,8877103
AUC bands 0,5209687 0,8066831
ACC bands 0,575 0,7428572
F1 bands 0,0758839 0,6575194
AUPR bands 0,6783066 0,7935148
AUC breast-cancer-w 0,9871422 0,9919036
ACC breast-cancer-w 0,9401604 0,9484938
F1 breast-cancer-w 0,9423333 0,9495517
AUPR breast-cancer-w 0,9402848 0,9563642
AUC bupa 0,7138613 0,7516264
ACC bupa 0,6351352 0,698874
F1 bupa 0,4559528 0,5820647
AUPR bupa 0,7480665 0,7485649
AUC credit-a 0,9009577 0,9194618
76
ACC credit-a 0,8309856 0,8408449
F1 credit-a 0,8336997 0,8389174
AUPR credit-a 0,8374735 0,8856616
AUC credit-g 0,7511281 0,7776718
ACC credit-g 0,7166667 0,7480393
F1 credit-g 0,2927067 0,4974859
AUPR credit-g 0,8532404 0,8806771
AUC diabetes 0,8137177 0,8248052
ACC diabetes 0,7487018 0,7639564
F1 diabetes 0,8130099 0,8239293
AUPR diabetes 0,6706715 0,6911067
AUC german 0,740957 0,7827082
ACC german 0,7029411 0,7509803
F1 german 0,8150509 0,8295723
AUPR german 0,5110085 0,6101761
AUC haberman 0,7093788 0,7010098
ACC haberman 0,7147729 0,6997161
F1 haberman 0,8120662 0,7972027
AUPR haberman 0,4322703 0,4145975
AUC heart-statlog 0,8744751 0,9126076
ACC heart-statlog 0,7448277 0,8103447
F1 heart-statlog 0,7553214 0,806982
AUPR heart-statlog 0,8058101 0,8537474
AUC hepatitis 0,7001991 0,7564311
ACC hepatitis 0,6068626 0,6526143
F1 hepatitis 0,6508194 0,6842887
AUPR hepatitis 0,6129304 0,680797
AUC house-votes-84 0,9815065 0,989329
ACC house-votes-84 0,9120288 0,9296136
F1 house-votes-84 0,913601 0,9244536
AUPR house-votes-84 0,9185511 0,9438158
AUC ionosphere 0,9839467 0,9796206
ACC ionosphere 0,9056189 0,8948081
F1 ionosphere 0,8407065 0,8281314
AUPR ionosphere 0,9636477 0,959242
AUC kr-vs-kp 0,9950761 0,9970422
ACC kr-vs-kp 0,9614453 0,9766877
F1 kr-vs-kp 0,9557244 0,9715972
AUPR kr-vs-kp 0,9926153 0,9883401
77
AUC labor 0,9583333 0,9861111
ACC labor 0,7440477 0,8571429
F1 labor 0,576367 0,728307
AUPR labor 0,8310184 0,8372684
AUC monks1 0,7082835 0,5983193
ACC monks1 0,4725044 0,4167573
F1 monks1 0,10318 0,2163007
AUPR monks1 0,7065202 0,5928559
AUC monks2 0,7908712 0,8000568
ACC monks2 0,7697902 0,756887
F1 monks2 0,7675229 0,7517105
AUPR monks2 0,7727793 0,8000319
AUC monks3 0,7282271 0,5814677
ACC monks3 0,4528735 0,4460373
F1 monks3 0,2155734 0,250189
AUPR monks3 0,7104709 0,5840359
AUC pima-indians-diabetes 0,7970576 0,8228596
ACC pima-indians-diabetes 0,7398246 0,7575948
F1 pima-indians-diabetes 0,8021352 0,8181781
AUPR pima-indians-diabetes 0,6670799 0,7042872
AUC sick 0,6994608 0,9802098
ACC sick 0,936447 0,9699388
F1 sick 0,9658498 0,9826889
AUPR sick 0,1636658 0,8329684
AUC sonar 0,9273305 0,9493788
ACC sonar 0,6134388 0,8468379
F1 sonar 0,7096962 0,8335441
AUPR sonar 0,8745669 0,8946652
AUC spect 0,7155133 0,7543838
ACC spect 0,6130541 0,7064038
F1 spect 0,7222649 0,7365638
AUPR spect 0,5961307 0,6618082
AUC tic-tac-toe 0,9999561 0,9999012
ACC tic-tac-toe 0,9774985 0,9825795
F1 tic-tac-toe 0,9523589 0,9604177
AUPR tic-tac-toe 0,9919084 0,9918881
AUC vote 0,9835535 0,9909927
ACC vote 0,9142511 0,9384541
F1 vote 0,9177517 0,9331969
78
AUPR vote 0,9223713 0,9466747
Tabela C.3: Resultados Numéricos - Grid Search
Medida Base GSTL100 GSTL300 GSTL500

AUC australian 0,9240694 0,917748 0,9227822
ACC australian 0,8436617 0,8394364 0,8450703
F1 australian 0,8345524 0,83711 0,8345833
AUPR australian 0,8934904 0,887519 0,8974227
AUC bands 0,7981436 0,8001287 0,7917376
ACC bands 0,5857143 0,5839286 0,5839287
F1 bands 0,1282685 0,1019433 0,1202514
AUPR bands 0,8476718 0,8648106 0,8569899
F1 breast-cancer-w 0,9460318 0,945269 0,9472538
AUC bupa 0,7558854 0,7631743 0,7419942
ACC bupa 0,7144146 0,6822824 0,6900152
F1 bupa 0,60939 0,5918484 0,5736099
AUPR bupa 0,7568953 0,7547672 0,7704033
AUC credit-a 0,9174046 0,9182967 0,9111492
ACC credit-a 0,8450702 0,8605633 0,8478871
F1 credit-a 0,8549305 0,8402014 0,8350229
AUPR credit-a 0,884596 0,8818818 0,888176
AUC credit-g 0,7760113 0,7671141 0,7597966
ACC credit-g 0,7392157 0,7313725 0,7274512
F1 credit-g 0,4247077 0,4715442 0,3918597
AUPR credit-g 0,8761758 0,8715976 0,8736086
AUC diabetes 0,8372029 0,831414 0,8368372
ACC diabetes 0,7677701 0,7627393 0,7601591
F1 diabetes 0,8251414 0,8212971 0,8234967
AUPR diabetes 0,7053867 0,7146549 0,7202836
AUC german 0,8009708 0,7921064 0,7922488
ACC german 0,7656863 0,7647058 0,7578432
F1 german 0,8216373 0,8158446 0,8169843
AUPR german 0,6354 0,632778 0,6132999
AUC haberman 0,6344968 0,640438 0,5605117
ACC haberman 0,6993373 0,7211175 0,7080494
79
F1 haberman 0,8147681 0,8047554 0,8017822
AUPR haberman 0,3686258 0,3553049 0,4533693
F1 heart-statlog 0,8012189 0,8029874 0,821518
AUC hepatitis 0,7697203 0,7989717 0,7609027
ACC hepatitis 0,6683007 0,6281045 0,6849675
F1 hepatitis 0,6684647 0,6665392 0,6616
AUPR hepatitis 0,6705592 0,6450439 0,654535
AUC house-votes-84 0,989725 0,9883085 0,9879162
ACC house-votes-84 0,9405796 0,9427537 0,9406282
F1 house-votes-84 0,9392318 0,930923 0,9333976
AUPR house-votes-84 0,9448402 0,9489153 0,941625
AUC ionosphere 0,9484712 0,9647235 0,9723471
ACC ionosphere 0,9101471 0,9190612 0,9192035
F1 ionosphere 0,8529685 0,8550043 0,865379
AUPR ionosphere 0,9488141 0,9494347 0,9370047
AUC kr-vs-kp 0,9986521 0,9991927 0,9997636
ACC kr-vs-kp 0,9878756 0,987563 0,9900505
F1 kr-vs-kp 0,9858363 0,98534 0,9874505
AUPR kr-vs-kp 0,9963713 0,9965188 0,9963594
AUC labor 0,8305365 0,9833333 0,9833333
ACC labor 0,8446429 0,8553572 0,8553572
F1 labor 0,7159525 0,717143 0,717143
AUPR labor 0,8452777 0,8452777 0,8509998
AUC monks1 0,9237068 0,9145085 0,8980324
ACC monks1 0,5104054 0,4875075 0,510224
F1 monks1 0,2697287 0,2256164 0,2374483
AUPR monks1 0,9001967 0,9022559 0,8990807
AUC monks2 0,8066498 0,8136174 0,7881649
ACC monks2 0,7422426 0,745571 0,7682029
F1 monks2 0,761641 0,7469276 0,7504019
AUPR monks2 0,7940226 0,8154873 0,7871156
AUC monks3 0,9181982 0,9057578 0,9236702
ACC monks3 0,4303085 0,437447 0,4704173
F1 monks3 0,3099201 0,3401153 0,3675362
AUPR monks3 0,8937747 0,8711942 0,8907303
80
AUC sick 0,7787962 0,8104626 0,7928281
ACC sick 0,934868 0,9359149 0,9338141
F1 sick 0,9660749 0,9652845 0,9658919
AUPR sick 0,2821129 0,2458806 0,2948537
AUC sonar 0,9507877 0,949796 0,9539187
ACC sonar 0,8385375 0,8158103 0,8369563
F1 sonar 0,8217303 0,822875 0,8085143
AUPR sonar 0,8220214 0,8064659 0,8824999
AUC spect 0,7316617 0,7594273 0,7679618
ACC spect 0,6897784 0,6974137 0,6799262
F1 spect 0,704308 0,6745211 0,7136959
AUPR spect 0,6411782 0,6786501 0,6365014
AUC tic-tac-toe 1 1 0,9998456
ACC tic-tac-toe 0,9887546 0,9826322 0,9775091
F1 tic-tac-toe 0,9640363 0,9663632 0,9599565
AUPR tic-tac-toe 0,9919875 0,9919359 0,9919789
AUC vote 0,9904696 0,9865649 0,9908629
ACC vote 0,9428987 0,9384543 0,9340097
F1 vote 0,9333084 0,9320182 0,9344081
AUPR vote 0,9365274 0,9388248 0,9384305
Tabela C.4: Resultados Numéricos - Grid Search com
Transferência de Aprendizado
Medida Base MO100 MO300 MO500

AUC australian 0,924721 0,925723 0,925723
ACC australian 0,856338 0,856338 0,856338
F1 australian 0,858167 0,858167 0,858167
AUPR australian 0,891847 0,894307 0,894307
AUC bands 0,879356 0,879356 0,879356
ACC bands 0,785714 0,791072 0,796429
F1 bands 0,688247 0,695536 0,706541
AUPR bands 0,889139 0,893272 0,893272
F1 breast-cancer-w 0,94986 0,950888 0,954061
81
AUC bupa 0,771472 0,771701 0,778156
ACC bupa 0,723123 0,726126 0,728829
F1 bupa 0,624149 0,639397 0,643498
AUPR bupa 0,778066 0,778066 0,782978
AUC credit-a 0,925932 0,926913 0,926913
ACC credit-a 0,856338 0,857746 0,857746
F1 credit-a 0,858653 0,861523 0,861523
AUPR credit-a 0,892223 0,892223 0,892223
AUC credit-g 0,785021 0,785021 0,785021
ACC credit-g 0,752941 0,753922 0,753922
F1 credit-g 0,487778 0,498923 0,507156
AUPR credit-g 0,882454 0,882454 0,882454
AUC diabetes 0,841048 0,842242 0,842242
ACC diabetes 0,770367 0,770367 0,770367
F1 diabetes 0,827149 0,827366 0,827366
AUPR diabetes 0,718282 0,719125 0,719125
AUC german 0,799616 0,799616 0,799616
ACC german 0,768628 0,768628 0,768628
F1 german 0,839189 0,839482 0,839482
AUPR german 0,63623 0,63623 0,63623
AUC haberman 0,6989 0,705212 0,705212
ACC haberman 0,721023 0,724053 0,727084
F1 haberman 0,807452 0,809951 0,811567
AUPR haberman 0,422752 0,428818 0,428818
F1 heart-statlog 0,832438 0,832438 0,832438
AUC hepatitis 0,790866 0,792189 0,792189
ACC hepatitis 0,691176 0,702941 0,702941
F1 hepatitis 0,702799 0,714597 0,714597
AUPR hepatitis 0,688226 0,697804 0,697804
AUC house-votes-84 0,991098 0,991165 0,991806
ACC house-votes-84 0,940725 0,940725 0,940725
F1 house-votes-84 0,934901 0,934972 0,935535
AUPR house-votes-84 0,955292 0,955626 0,955626
AUC ionosphere 0,981819 0,984996 0,986026
ACC ionosphere 0,932575 0,932575 0,932575
82
F1 ionosphere 0,873849 0,874778 0,875162
AUPR ionosphere 0,966153 0,968217 0,969127
AUC kr-vs-kp 0,999808 0,999831 0,999847
ACC kr-vs-kp 0,991296 0,991606 0,991606
F1 kr-vs-kp 0,987747 0,988077 0,988077
AUPR kr-vs-kp 0,996818 0,996827 0,996827
AUC labor 1 1 1
ACC labor 0,855357 0,855357 0,855357
F1 labor 0,723334 0,723334 0,723334
AUPR labor 0,8475 0,8475 0,8475
AUC monks1 0,916359 0,919626 0,919626
ACC monks1 0,510375 0,510375 0,510375
F1 monks1 0,064231 0,064231 0,064231
AUPR monks1 0,906777 0,91304 0,91304
AUC monks2 0,812115 0,813774 0,822962
ACC monks2 0,761726 0,76339 0,76339
F1 monks2 0,754137 0,755964 0,755964
AUPR monks2 0,816155 0,817402 0,823989
AUC monks3 0,921715 0,926889 0,926889
ACC monks3 0,456503 0.,4565033 0,456503
F1 monks3 0,217505 0,217505 0,217505
AUPR monks3 0,910649 0,915175 0,915175
AUC sick 0,804677 0,804677 0,804677
ACC sick 0,935392 0,935655 0,937766
F1 sick 0,965184 0,965331 0,966489
AUPR sick 0,288846 0,288846 0,288846
AUC sonar 0,977813 0,980965 0,980965
ACC sonar 0,855731 0,855731 0,855731
F1 sonar 0,831716 0,831716 0,831716
AUPR sonar 0,920988 0,923316 0,923316
AUC spect 0,751456 0,772536 0,772536
ACC spect 0,70431 0,70431 0,707759
F1 spect 0,73326 0,73326 0,733416
AUPR spect 0,66955 0,693917 0,693917
83
ACC tic-tac-toe 0,989775 0,989775 0,989775
F1 tic-tac-toe 0,971101 0,971101 0,971101
AUPR tic-tac-toe 0,991967 0,991967 0,991967
AUC vote 0,992803 0,993139 0,993139
ACC vote 0,942802 0,947247 0,947247
F1 vote 0,935913 0,939375 0,939375
AUPR vote 0,956579 0,956579 0,956579
Tabela C.5: Resultados Numéricos - Multi-Objetivo
Medida Base MOGS100 MOGS300 MOGS500

AUC australian 0,9256288 0,9206614 0,9158132
ACC australian 0,8436617 0,8464786 0,843662
F1 australian 0,8429085 0,8434525 0,839396
AUPR australian 0,8915666 0,8886571 0,8786638
AUC bands 0,8134266 0,7872775 0,8119404
ACC bands 0,5821428 0,5857144 0,5767858
F1 bands 0,1086692 0,123743 0,1035786
AUPR bands 0,8665134 0,8474189 0,8656285
F1 breast-cancer-w 0,9462552 0,9445943 0,9449928
AUC bupa 0,7613805 0,7490317 0,7460903
ACC bupa 0,709835 0,7066818 0,6959461
F1 bupa 0,6057485 0,6019312 0,5969555
AUPR bupa 0,7656896 0,7686573 0,7529565
AUC credit-a 0,9121602 0,9179386 0,912165
ACC credit-a 0,8436618 0,8535209 0,8507041
F1 credit-a 0,8438992 0,8537189 0,8490338
AUPR credit-a 0,8801759 0,8780808 0,8764593
AUC credit-g 0,7704553 0,7678755 0,7609426
ACC credit-g 0,7362744 0,7382353 0,7411765
F1 credit-g 0,4453307 0,4359636 0,4886229
AUPR credit-g 0,8729815 0,8688779 0,8660611
AUC diabetes 0,8332686 0,8241414 0,8225202
ACC diabetes 0,7676728 0,7677701 0,7589093
F1 diabetes 0,8257032 0,825596 0,8189884
AUPR diabetes 0,7022701 0,699072 0,6993517
84
AUC german 0,7922456 0,7743249 0,796453
ACC german 0,7617647 0,7450981 0,7637255
F1 german 0,8329305 0,8229147 0,835273
AUPR german 0,6290406 0,5953426 0,6436567
AUC haberman 0,6822989 0,6515816 0,6413873
ACC haberman 0,6993373 0,7153411 0,7057767
F1 haberman 0,7931865 0,8057513 0,8001138
AUPR haberman 0,4276265 0,4048779 0,4018446
F1 heart-statlog 0,8098667 0,8294396 0,8173763
AUC hepatitis 0,7459439 0,7648572 0,7806614
ACC hepatitis 0,6761437 0,6689542 0,6787581
F1 hepatitis 0,6994493 0,6911432 0,7025832
AUPR hepatitis 0,6479554 0,6831592 0,6760036
AUC house-votes-84 0,988379 0,9868091 0,9897792
ACC house-votes-84 0,9385991 0,9408214 0,934058
F1 house-votes-84 0,9323075 0,9350884 0,9275001
AUPR house-votes-84 0,9535812 0,9381259 0,9476527
AUC ionosphere 0,9720899 0,96998 0,9695165
ACC ionosphere 0,9243955 0,9110954 0,9083216
F1 ionosphere 0,8615806 0,8431829 0,8440562
AUPR ionosphere 0,9584529 0,9553632 0,9511894
AUC kr-vs-kp 0,9994385 0,9996464 0,99945
ACC kr-vs-kp 0,9884947 0,9866343 0,9881832
F1 kr-vs-kp 0,9846828 0,9830298 0,9844162
AUPR kr-vs-kp 0,9965035 0,9966687 0,9964951
AUC labor 0,9833333 0,9833333 0,9833333
ACC labor 0,8553572 0,8553572 0,8553572
F1 labor 0,7266668 0,7266668 0,7266668
AUPR labor 0,8341666 0,8341666 0,8341666
AUC monks1 0,9039554 0,9079713 0,909413
ACC monks1 0,5104658 0,5103448 0,444888
F1 monks1 0,0645031 0,0644034 0,1062459
AUPR monks1 0,8946202 0,8925841 0,9037198
AUC monks2 0,8038029 0,7878621 0,7947429
ACC monks2 0,7681262 0,7519968 0,7504099
F1 monks2 0,7636365 0,7508457 0,7433536
85
AUPR monks2 0,7971327 0,7783473 0,7953915
AUC monks3 0,9113924 0,912179 0,910297
ACC monks3 0,4235631 0,4374471 0,458318
F1 monks3 0,2985322 0,244909 0,2788366
AUPR monks3 0,8920879 0,8165581 0,8933559
AUC sick 0,7457487 0,7520871 0,7624227
ACC sick 0,9335454 0,9338133 0,9359201
F1 sick 0,9641469 0,9642663 0,9654494
AUPR sick 0,2184855 0,2238129 0,2334162
AUC sonar 0,9548492 0,9603808 0,9634342
ACC sonar 0,8332015 0,8464427 0,8594861
F1 sonar 0,8176013 0.,8268685 0,8391482
AUPR sonar 0,8991715 0,908737 0,8948598
AUC spect 0,7344667 0,7529898 0,7309605
ACC spect 0,6794336 0,7108374 0,6794335
F1 spect 0,7177981 0,7459481 0,7227638
AUPR spect 0,6403294 0,6534538 0,6442284
ACC tic-tac-toe 0,9887546 0,9866822 0,989775
F1 tic-tac-toe 0,9694474 0,966189 0,9711464
AUPR tic-tac-toe 0,9919495 0,9919747 0,9919539
AUC vote 0,9913706 0,9880784 0,9859461
ACC vote 0,9341064 0,9385025 0,9318358
F1 vote 0,929757 0,9330741 0,9272654
AUPR vote 0,9465381 0,9404623 0,9419076
Tabela C.6: Resultados Numéricos - Multi-objetivo com
Grid Search
86

Ajuste de parâmetros em SVMs usando transferência de aprendizado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ajuste de parâmetros em SVMs usando transferência de aprendizado

Uploaded by

Copyright:

Available Formats

Universidade Federal do ABC

Centro de Matemática, Computação e Cognição (CMCC)

Gabriela Martins Gonçalves de Oliveira

AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE

AJUSTE DE PARÂMETROS EM ALGORITMOS DE APRENDIZADO DE

Dissertação de Mestrado apresentada ao Curso de Pós-Graduação da Universidade

Orientador: Prof. Dr. Ronaldo Cristiano Prati

Este exemplar foi revisado e alterado em relação à versão original, de acordo

Aprendizado de Máquina (AM) estuda maneiras de construir algoritmos que melhoram

Lista de Tabelas vii

1.1 Objetivos e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Avaliação de Classificadores . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2 Testes Estatı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Máquinas de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.1 Teoria do Aprendizado Estatı́stico . . . . . . . . . . . . . . . . . . . 12

2.2.2 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3 SVMs com Margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . 14

2.2.4 SVMs com Margens Suaves . . . . . . . . . . . . . . . . . . . . . . 15

2.2.5 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.6 SVMs em Outros Problemas . . . . . . . . . . . . . . . . . . . . . . 17

2.2.7 Vantagens e Desvantagens das SVMs . . . . . . . . . . . . . . . . . 17

2.3 Seleção do Modelo e Ajuste de Parâmetros . . . . . . . . . . . . . . . . . . 18

2.3.2 Ajuste de Parâmetros de SVMs . . . . . . . . . . . . . . . . . . . . 19

2.4 Transferência de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.1 Configurações de Transferência de Aprendizado . . . . . . . . . . . 22

2.5 Trabalhos Relacionados - Ajuste de Parâmetros com Transferência de Co-

2.6 Medidas de Complexidade de Domı́nios . . . . . . . . . . . . . . . . . . . . 26

2.6.1 Medidas de sobreposição . . . . . . . . . . . . . . . . . . . . . . . . 26

2.6.2 Medidas de separabilidade das classes . . . . . . . . . . . . . . . . . 27

2.6.3 Medidas de geometria e densidade . . . . . . . . . . . . . . . . . . . 29

2.6.4 Medidas Estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.2.1 Transferência de Aprendizado versus Grid Search . . . . . . . . . . 42

4.2.2 Grid Search versus Grid Search com Transfer Learning . . . . . . . 45

4.2.3 Grid Search versus Transfer Learning versus Multi-Objetivo . . . . 45

4.2.4 Grid Search com Multi-Objetivo versus Multi-Objetivo . . . . . . . 48

4.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

C Resultados Numéricos dos Algoritmos 71

2.1 Geração e utilização de um modelo classificador . . . . . . . . . . . . . . . 6

2.2 Espaço ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Exemplo de gráfico ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5 Ideia de hiperplano ótimo para exemplos linearmente separáveis . . . . . . 14

2.6 SVM com margens Rı́gidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.7 SVM com margens suaves . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.8 Transformação linear com a função de Kernel . . . . . . . . . . . . . . . . 16

2.9 Conferências com trabalhos sobre transferência de aprendizado . . . . . . . 21

2.10 Visão Geral das configurações da Transferência de Aprendizado . . . . . . 23

2.11 Exemplo de Configuração de Transferência de Aprendizado . . . . . . . . . 25

3.1 Etapas da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2 Visualização da Abordagem Proposta . . . . . . . . . . . . . . . . . . . . . 36

4.1 Transferência de aprendizado versus Grid Search - Desempenho por base

4.2 Transferência de Aprendizado versus Grid Search - Diagrama de diferenças

4.5 Grid Search versus Transfer Learning versus Multi-Objetivo - Desempenho

2.1 Conjunto de dados para o diagnóstico da saúde de paciente . . . . . . . . . 5

B.1 Distância entre as Bases de Dados - Parte 1 . . . . . . . . . . . . . . . . . 65

C.1 Resultados Numéricos - Ótimo Global . . . . . . . . . . . . . . . . . . . . . 73

Aprendizado de Máquina (AM) é uma sub-área de pesquisa da inteligência computacio-

1.1 Objetivos e Hipótese

O restante desta monografia está organizado da seguinte maneira: no Capı́tulo 2 é apre-