Boosting

Miguel Cárdenas-Montes

Tanto en clasificación como en regresión, existen estrategias, basadas
en la mezcla de modelos, para mejorar la precisión de los modelos. En
estos métodos se establece un procedimiento para construir diferentes
predictores y una regla para combinar sus resultados. Dependiendo de
las elecciones que se realizan sobre estos dos elementos, una gran varie-
dad de ensemble métodos han sido sugeridos en la literatura. En este
documento se describe el método denominado boosting.

Objetivos:

Entender como funciona la técnica denominada boosting.

Comprender las diferencias entre boosting y otras técnicas de tipo
ensemble methods como son: bagging o random subspaces.
Este documento puede contener impre-
cisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
1 Boosting

Los ensembles son combinaciones de modelos, también referidos
como miembro del ensemble. En estas técnicas es necesario tanto de-
finir cómo se van a crear modelos diferentes, como de que manera
se van a combinar los resultados de cada uno de los modelos para
producir la predicción final. El objetivo de los ensemble methods es pro-
ducir una mejor predicción que los modelos individuales (miembros
individuales del ensemble) 1 . 1
Ludmila I. Kuncheva. Ensemble Met-
hods, pages 186–229. John Wiley & Sons,
Tanto en bagging como en boosting se manipula el conjunto de en-
Inc., 2014. ISBN 9781118914564. d o i :

trenamiento, pero en cada caso se hace con una estrategia diferente. En 10.1002/9781118914564.ch6
bagging se extraen muestras diferentes del conjunto de entrenamien-
to (muestras bootstrap), y se utilizan estas muestras bootstrap como
si fuera el conjunto de entrenamiento verdadero. Por el contrario, en
boosting siempre se trabaja con el conjunto completo de datos. En
boosting se manipula los pesos de los datos en conjunto de entrena-
miento para generar diversos modelos.

2 AdaBoost

Una de las técnicas más populares de boosting es Adaboost 2 3 . 2
Michael R. Berthold, Christian Borgelt,
Frank Hppner, and Frank Klawonn. Gui-
de to Intelligent Data Analysis: How to In-
1. Inicialmente a todos los datos del conjunto de entrenamiento se les telligently Make Sense of Real Data. Sprin-
asigna un peso idéntico, wi = n1 , donde n es el tamaño del conjunto ger Publishing Company, Incorporated,
1st edition, 2010. ISBN 1848822596,
de datos.
9781848822597
3
Yoav Freund, Robert E Schapire, et al.
2. Se entrena el modelo usando el set de entrenamiento. Experiments with a new boosting algo-
rithm. ICML, 96:148–156, 1996

5.2 m m 3.t yt Mt ( xi ) et = (1) ∑in=1 wi.t+1 = 1.t se utilizan las ecuaciones: ∑in=1 wi. Así los pesos son actualizados con la ecuación 3: wi. El procedimiento de aprendizaje y actualización de los pesos es re- petido un número de veces especificado por el usuario. Volver al punto 3 (repetir hasta el número de iteraciones fijadas inicialmente) 7. de weak learners. Modelo final: votación ponderada por los pesos de todos los mode- los Para modificar los pesos después del predictor Mt con los pesos en el tiempo t.t+1 = c · wi. De forma que la predic- ción conjunta es: ! tmax M joint ( xi ) = sign ∑ α t Mt ( x i ) (4) t =1 Con esto se está combinando múltiples clasificadores que producen una mejora significante sobre la clasificación producida por cada uno de ellos individualmente. Se entrena un nuevo modelo usando el conjunto de pesos modifi- cados. . se cuentan cuántos objetos han sido mal clasificados y se identifican cuales son.t exp(−αt yi Mt ( xi )) (3) donde c es una constante de normalización elegida de forma que ∑in=1 wi. Un weak learners es cual- quier conjunto de aprendizaje que es al menos un poco mejor que la predicción aleatoria (> 50 %).t   1 1 − et αt = ln (2) 2 1 + et donde xi es el vector de entrada del objeto. con cada modelo Mt pesado con αt . yi es la clase del objeto i-ésimo. 6. El ensemble construido clasifica los nuevos puntos por el voto de la mayoría. Sin embargo la convergencia no está garantizada y el rendimiendo La técnica boosting se basa en la teoría del ensamble puede degradarse tras un cierto número de pasos. Se incrementan pesos en los casos de entrenamiento que el modelo calcula erróneamente. 4. Se calcula error del modelo en el set de entrenamiento. y Mt ( xi ) es la predicción del modelo para la entrada xi . wi.

b o o s t i n g 3 3 Comparación de Boosting con Bagging. En bagging. Esta inyección de aleatoriedad depen- derá de la naturaleza del algoritmo. o con el mismo método pero diferente cojnuntos de datos de entrenamiento. El peso de los objetos evoluciona a lo Mach. 20(8):832–844. más preciso de todos los métodos de cla- sificación. el foco es puesto sobre la regla óptima para combinar las predicciones de los modelos individuales. árboles de decisión.. La composición de modelos diferentes puede hacerse con diferentes métodos y el mismo conjunto de datos. etc. la inicialización de los pesos de las conexiones puede ser diferente en cada ejecución. La idea es: en cada iteración incrementar el peso 10. cada miembro es en- trenado con todos los ejemplos. En bagging la variación de conjunto de entrenamiento es dejado en manos un proceso aleatorio como es la selección bootstrap. pero a modo de ejemplo puede citarse que en redes neuronales. The random subs- pace method for constructing deci- En AdaBoost. Por el contrario. El resultado final es el promedio de la predicción de cada uno de los miembros del ensamble. 4 Tin Kam Ho. IEEE Trans. en boosting usa una forma de variación del conjunto de entrenamiento completamente sistemática. La dimensión de los subespacios es el parámetro del método. namiento tiene el mismo peso. Para datos con bajo nivel de ruido. cada miembro del ensemble es entrenado con una muestra diferente del conjunto de entrenamiento.709601 La aplicación de subespacios aleatorios a de los objetos mal clasificados por el predictor en esa iteración. Sin embargo. De nuevo el resultado es el promedio de los miembros 4 . Para tareas de clasificación. 1998. NN. el cual es uno de los métodos importantes. El tamaño es el mis- mo que el conjunto de entrenamiento original pero no su composición. y Técnicas Similares En ambas técnicas: boosting y bagging tienen que componer mo- delos diferentes. random subspaces. Tanto bagging como selección de subespacios aleatorios emplean procesos aleatorios para obtener predictores diferentes. boosting tiene mejor rendimiento que bagging y que random subspace. inicialmente todos los objetos del conjunto de entre- sion forests. d o i : largo del algoritmo. En este caso. pero con un subconjunto de los atri- butos. Pattern Anal. En subespacios aleatorios. También puede utilizarse un conjunto de modelos obtenidos de un ensemble. Por lo los árboles de decisión se denomina ran- tanto en la construcción del próximo predictor. La aproximación conocida como mezcla de expertos se combinan predictores individuales: SVM. los datos de entrada para esta combi- nación son las distribuciones de probabilidad sobre las clases que un . entonces boosting degrada su rendimiento ya que focaliza el algoritmo en estos datos. Intell. sino el ensemble será innecesario. Esta aproxi- mación puede generalizarse mediante la inyección de aleatoriedad en el algoritmo de aprendizaje. si los datos de entrenamiento contienen datos ruidosos.1109/34. estos objetos serán más dom forests.

. Incorporated. IGI Global. para un único conjunto de datos. La idea es ver las salidas de los predictores como nuevas características y usar un algoritmo de aprendizaje para encontrar el modelo que los combina 6 David H. ICML. [2] Yoav Freund. Springer Publishing Company. 1996. Christian Borgelt. editors. probabilidad a cada clase 5 . 1992 Gráficamente se puede apreciar. Frank Hppner. et al. Com. ISBN 9781599048499. Referencias [1] Michael R. Figura 1: Ejemplo de árbol de decisión. 96:148–156. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. sin embargo esta importancia se diluye en el caso de random forest. tion. de forma óptima 6 . Neural Networks. 9781848822597. and Frank Klawonn. Berthold. 1. Obsérvese como el punto ruidosorojo en las coordenadas aproximadas (0. Rabuñal. Robert E Schapire. apilamiento o stacking coge un con- junto de predictores y combina sus predicciones individuales. Wolpert. 2009. la diferencia en los modelos si se aplica árboles de decisión (figura 1) o random forest (figura 2). d o10. son las llamadas reglas de suma. 2010. Experiments with a new boosting algorithm. o aquellas que hacen el producto de las probabilidades 1-59904-849-9 producidas. Stacked generaliza. Julian Dorado. bining classifiers and learning mixture- La regla más común para combinar las probabilidades de cada clase of-experts.4 m m clasificador individual produce. In Juan R. las cuales simplemente promedian Encyclopedia of Artificial Intelligence (3 Vo. and Alejandro Pazos. para cada clase las probabilidades producidas por los clasificadores lumes). 1st edition. 5:241–259.5) tiene importancia en el modelo final en el caso de árbol de decisión. pages 318–326. Como en el caso precedente. ISBN 1848822596.4018/978- i : individuales. Cada clasificador debe asignar una 5 Lei Xu and Shun-ichi Amari.

pages 318–326. 5:241– 259. and Ale- jandro Pazos.4018/978-1-59904-849-9. Intell. IGI Global. 2009. Neural Networks. [5] David H. pages 186–229. d o i : 10. Rabuñal.1002/9781118914564.709601. Combining classifiers and learning mixture-of-experts. Pattern Anal. IEEE Trans. Kuncheva. John Wiley & Sons. 20(8):832–844. editors. 1998. ISBN 9781118914564. d o i : 10.ch6. Encyclopedia of Artificial Intelligence (3 Volu- mes). [6] Lei Xu and Shun-ichi Amari. In Juan R. Julian Dorado.. [3] Tin Kam Ho. Stacked generalization. 2014.. ISBN 9781599048499. The random subspace method for constructing de- cision forests. Inc. d o10. b o o s t i n g 5 Figura 2: Ejemplo de random forest.1109/34. 1992. Wolpert. . Ensemble Methods. Mach. i : [4] Ludmila I.