Professional Documents
Culture Documents
Aprendizado de Mquina
Aula 4
http://www.ic.uff.br/~bianca/aa/
Introduo Cap. 1 (16/03) Classificao Indutiva Cap. 2 (23/03) rvores de Deciso Cap. 3 (30/03) Ensembles - Artigo (13/04) Avaliao Experimental Cap. 5 (20/04) Teoria do Aprendizado Cap. 7 (27/04) Aprendizado de Regras Cap. 10 (04/05) Redes Neurais Cap. 4 (11/05) Mquinas de Vetor de Suporte Artigo (18/05) Aprendizado Bayesiano Cap. 6 e novo cap. online (25/05) Aprendizado Baseado em Instncias Cap. 8 (01/05) Classificao de Textos Artigo (08/06) Aprendizado No-Supervisionado Artigo (15/06)
Aula 4 - 13/04/2010
Aula 4 - 13/04/2010
Aprendizado de Agrupamentos
Aprende-se mltiplas definies de um conceito usando dados de treinamento diferentes OU algoritmos diferentes. Combinam-se as decises, por exemplo, usando votao. Training Data Data1 Data2
Data m
Os mtodos de aprendizado por agrupamento selecionam uma coleo de hipteses e combinam as suas previses.
Ex.: Gera-se 100 rvores de deciso diferentes que votam na melhor classificao.
Aula 4 - 13/04/2010 3
Learner1 Model1
Learner2 Model2
Model Combiner
Aula 4 - 13/04/2010
Supondo que cada hiptese hi tem uma taxa de erro p e que os erros sejam independentes, com k hipteses o erro ser p|k/2|+1.
Se p=0.1 e k=5, a nova taxa de erro ser 0.001.
Na prtica, os erros no sero totalmente independentes, pois as hipteses sero obtidas usando os mesmos dados.
Mesmo assim, se as hipteses forem ao menos um pouco diferentes, reduzindo a correlao dos erros, o agrupamento diminui a taxa de erros.
Aula 4 - 13/04/2010 6
Bagging
Bagging = Bootstrap Agreggating Um dos mtodos de agrupamento mais simples.
Criado por Leo Breiman em 1996. Baseia-se na criao de bootstraps = amostras diferentes da base de dados que so usadas para aprender hipteses diferentes. A previso final para um exemplo de teste a mdia da previso de cada hiptese. Pode ser usado tanto para classificao quanto para regresso.
No caso de classificao, mdia equivalente a maioria.
Bootstrap
Dada uma base de treinamento T com n exemplos, geramos k novas bases Tk tambm com n exemplos cada atravs de amostragem com reposio. Para gerar cada Tk, sorteamos um nmero de 1 a n, n vezes, e a cada vez adicionamos o exemplo T[n] a Tk . Como resultado, cada base Tk ter aproximadamente 66% dos exemplos de T, com duplicatas.
Aula 4 - 13/04/2010 8
Bagging
Bootstrap
T1
Algoritmo de Aprendizado
T2
Algoritmo de Aprendizado
H2
Um fator crtico para que o Bagging funcione a instabilidade do algoritmo de aprendizado. Se pequenas mudanas na base de treinamento T provocarem grandes mudanas na hiptese H gerada, dizemos que o algoritmo de aprendizado instvel.
Ex: rvores de deciso e redes neurais.
Tk
Hk
9
Desvantagens de Bagging
Perde-se na interpretao.
Em vez de uma nica hiptese, temos uma combinao, que mais difcil de ser entendida. Por exemplo, uma combinao de rvores de deciso no pode ser transformada numa nica rvore.
Aula 4 - 13/04/2010
12
Boosting
A idia do algoritmo de agrupamento Boosting (tambm chamado de acelerao) construir hipteses sucessivas, de tal modo que exemplos classificados incorretamente por hipteses anteriores sejam melhor classificados por hipteses seguintes. Desenvolvido em 1996 por Freund e Schapire.
Aula 4 - 13/04/2010
13
Aula 4 - 13/04/2010
14
Algoritmos com Naive Bayes e rvores de deciso podem ser facilmente modificados para incorporar pesos. Caso no seja possvel incorpor-los pode-se usar amostragem de acordo com os pesos.
Aula 4 - 13/04/2010 15
Para que a prxima hiptese classifique melhor os exemplos incorretamente classificados, aumentamos os seus pesos, diminuindo o peso daqueles corretamente classificados. A partir desse novo conjunto de treinamento com pesos, geramos a hiptese H2. O processo continua at que sejam geradas k hipteses. Existem muitas variaes de boosting dependendo de como os pesos so atribudos e de como as hipteses so combinadas.
A mais conhecida o AdaBoost.
Aula 4 - 13/04/2010
16
AdaBoost
Aula 4 - 13/04/2010
17
Aula 4 - 13/04/2010
18
Propriedades do AdaBoost
Se o algoritmo de aprendizado utilizado garante aprendizagem fraca, ento o AdaBoost retornar uma hiptese que classifica perfeitamente os dados de treinamento. Aprendizagem fraca: melhor do que classificar os dados aleatoriamente. Esse resultado vlido independentemente do espao de hipteses original e da complexidade da funo que est sendo aprendida.
Aula 4 - 13/04/2010 19
Desvantagens do AdaBoost
Ao contrrio de bagging, h o risco de super-ajuste (over-fitting).
Principalmente em casos onde h muito rudo na base de dados. Caso haja erros de classificao nos dados de treinamento, boosting vai colocar muito peso nesses dados.
Aula 4 - 13/04/2010
20
Aula 4 - 13/04/2010
21