You are on page 1of 5

UFPR PPGMNE - TC-747 - REDES NEURAIS E APLICAES EM ENGENHARIA Profa.

Andrea Sell Dyminski

4.3 Como melhorar o desempenho do treinamento?


Projeto de uma RN e seu desempenho
Dependem da
Experincia do Usurio
Porm, pode-se tambm utilizar alguns mtodos para melhorar o
desempenho dos algoritmos de treinamento (especialmente, o de
back-propagation):
a) Atualizao (dos pesos) sequencial comparada por lote:
A sequencial mais rpida que a por lote, principalmente para
conjuntos de dados muito grandes e altamente redundantes.

b) Maximizao do contedo de informao:


Para se ampliar a busca nos espao de pesos, pode-se fazer:
- uso de exemplo que resulte o maior erro de treinamento;
- uso de exemplo que seja radicalmente diferente dos usados
anteriormente.

No caso de problemas de classificao de padres, tornar aleatria a


ordem de apresentao dos exemplos (embaralh-los).

Ou ento, usar um esquema de nfase apresentar mais padres


difceis do que fceis. Faz-se esta diferenciao analisando o erro que
o exemplo produz.

Porm, cuidado com exemplos estranhos ou mal rotulados!!!!

c) Funo de ativao:

UFPR PPGMNE - TC-747 - REDES NEURAIS E APLICAES EM ENGENHARIA Profa. Andrea Sell Dyminski

O ideal que se use uma funo de ativao antissimtrica do que


no-simtrica.
Funo Antissimtrica: (-v) = -(v)
hiperblica)

(por exemplo: tangente

d) Valores-alvo:
As respostas desejadas devem estar dentro do intervalo da funo de
ativao escolhida (sigmide).

e) Normalizar as entradas:
Normalizar cada varivel de entrada (pr-processamento) de modo que
o seu valor mdio, de todo o conjunto, esteja prximo de zero ou
pequeno se comparado ao desvio padro.
Tambm se deve ter:
- variveis de entrada no correlacionadas (anlise de componentes
principais);
- estas variveis devem ser escaladas para que suas covarincias
sejam aproximadamente iguais (aprendizado com mesma velocidade).

f) Inicializao:
Boa escolha dos valores iniciais dos pesos e dos limiares da rede.
Pesos sinpticos iniciais --------- Valores pequenos!

UFPR PPGMNE - TC-747 - REDES NEURAIS E APLICAES EM ENGENHARIA Profa. Andrea Sell Dyminski

g) Aprendizagem por indcios: (ou dicas, ou hints)


Pode-se incluir informaes prvias que se tenha sobre a funo de
mapeamento f(.) (desconhecida) no processo de aprendizagem, como
por exemplo:
- propriedades invariantes;
- simetrias;
-etc....

h) Taxas de aprendizagem:
Deve-se atribuir ao parmetro da taxa de aprendizagem () valores
menores nas ltimas camadas do que nas camadas anteriores.
Sugerido (LeCun, 1993) ---- inversamente proporcional raiz
quadrada do nmero de conexes sinpticas.

4.4 Generalizao
Uma rede neural dever ser capaz de generalizar, ou seja, dar uma
soluo (ou resposta) coerente para uma situao no vista
anteriormente, ou seja, no utilzada durante o seu processo de
treinamento.
Cuidado! - Se o treinamento for excessivo, a rede pode memorizar os
exemplos aprendidos, perdendo sua capacidade de generalizao!!!
(Problema de overfitting)
Este problema tambm pode acontecer se utilizarmos nmero
excessivo de neurnios na camada escondida de RN.
(ver figura 4.19 do Haykin)

Pode-se dizer que a generalizao influenciada por trs fatores:


a) Tamanho do conjunto de treinamento representatividade do
espao de interesse;

UFPR PPGMNE - TC-747 - REDES NEURAIS E APLICAES EM ENGENHARIA Profa. Andrea Sell Dyminski

b) Arquitetura da rede neural;


c) Complexidade fsica do problema em questo.

Empiricamente, pode-se dizer que o tamanho do conjunto de


treinamento deve ser:
N = O (W/)
onde:

N = Nmero de exemplos do conjunto de treinamento;


W = Nmero de parmetros livres da RN (pesos sinpticos

e bias)
= Erro (de classificao) permitido sobre os dados de
teste
O = Ordem da quantidade entre parnteses
P. Ex.: Admitindo-se um erro de 10%, o nmero de exemplos de
treinamento necessrios deve ser de cerca de 10 vezes maior que o
nmero de parmetros livres da rede.

Quanto arquitetura da rede:


- em problemas de aproximao de funes, tem-se que atravs do
Teorema da Aproximao Universal:
uma nica camada oculta suficiente para um perceptron de mltiplas
camadas computar uma aproximao E uniforme para um dado
conjunto de treinamento representado pelo conjunto de entradas x1, ...,
xm e a sada desejada f(x1, ..., xm).
Porm, esta nica camada pode no ser tima no sentido do tempo de
aprendizado, facilidade de implementao ou generalizao.

No caso de aproximao de funes, pode-se dizer que, para uma boa


generalizao, deve-se ter:
N > W/mse, onde mse: mdia do erro quadrtico estimativo.

UFPR PPGMNE - TC-747 - REDES NEURAIS E APLICAES EM ENGENHARIA Profa. Andrea Sell Dyminski

4.5 Validao cruzada

Atravs deste princpio, deve-se inicialmente dividir o conjunto


disponvel de dados em:
- Conjunto de Treinamento
- Conjunto de Teste.

Depois disso, deve-se dividir o conjunto de treinamento em:


- subconjunto de estimao: usado para selecionar o modelo ou, no
caso das RNs, ajustar os parmetros livres;
- subconjunto de validao: usado para testar ou validar o modelo, em
RNs, usado para definir qual a melhor arquitetura e quando deve-se
parar o treinamento.

(vide figura 4.20 Haykin).

Deve-se apenas tomar cuidado para a rede no memorizar o


conjunto de validao!!!