You are on page 1of 3

ESPOCH

FACULTAD DE INFORMÁTICA Y ELECTRÓNICA

ESCUELA DE INGENIERÍA ELECTRÓNICA EN CONTROL Y REDES INDUSTRIALES

Asignatura: Inteligencia Artificial Nivel: Noveno

Alumno: Jofre Saqui Valla cód. 424 Fecha: 24/07/17

Consulta: Algoritmos de entrenamiento

Levenberg-Marquardt
El Back-Propagation ha demostrado converger muy lentamente en varias aplicaciones
en especial cuando se tiene una gran cantidad de patterns (incrementos) donde suele
converger pero a un MSE demasiado grande, lo que se llama mínimo local del MSE y
que muchas veces no es útil ya que busca una convergencia hacia el mínimo absoluto.
A la fecha existen diferentes algoritmos de entrenamiento supervisado que han surgido
del Back-Propagation que muestran velocidades mucho más rápidas de convergencia
del MSE hacia el mínimo absoluto. Uno de ellos es el algoritmo de Levenberg-
Marquardt.
El algoritmo de Levenberg-Marquardt se aplica principalmente a redes neuronales
multicapa con un número grande de patters ya que tiene la velocidad de convergencia
del MSE más rápida hasta ahora, principalmente en problemas de aproximación de
funciones a pesar de que su complelidad en cálculos es mayor. Usa la metodología del
Back-Propagation empleando el concepto de la generalized delta rule, usando el
concepto de learning rate, aplicando el batch mode, sólo que el gradiente se calcula
mediante la matriz Jacobiana de los errores de las neuronas de salida. La ecuación con
la que se actualizan los pesos es la siguiente:

este algoritmo, aunque requiere de mayor número de cálculos que el Back-Propagation,


evita más las oscilaciones del MSE y la matriz Jacobiana es la que hace que se tenga
una convergencia demasiado rápida, incluso más de 100 veces más rápida que la
obtenida por el Back-Propagation con su gradiente decreciente. (Ranganathan, 2004)

Regularización bayesiana de redes neuronales.


Las redes neuronales artificiales arbitrarias bayesianas (BRANN) son más robustas que
las redes estándar de propagación posterior y pueden reducir o eliminar la necesidad de
una validación cruzada larga. La regularización bayesiana es un proceso matemático
que convierte una regresión no lineal en un problema estadístico "bien planteado" en la
forma de una regresión de cresta. La ventaja de los BRANNs es que los modelos son
robustos y el proceso de validación, que se escala como O (N2) en los métodos de
regresión normal, como la propagación posterior, es innecesaria.

Estas redes proporcionan soluciones a una serie de problemas que surgen en el


modelado QSAR, como la elección del modelo, la robustez del modelo, la elección del
conjunto de validación, el tamaño del esfuerzo de validación y la optimización de la
arquitectura de red. Son difíciles de overtrain, ya que los procedimientos de evidencia
proporcionan un criterio bayesiano objetivo para detener el entrenamiento. También son
difíciles de superar, ya que el BRANN calcula y entrena en una serie de parámetros o
pesos efectivos de la red, desactivando efectivamente aquellos que no son
relevantes. Este número efectivo suele ser considerablemente más pequeño que el
número de pesos en una red neural estándar de retro-propagación completamente
conectada.

La determinación automática de la relevancia (ARD) de las variables de entrada se


puede utilizar con BRANNs, y esto permite a la red "estimar" la importancia de cada
entrada. El método ARD asegura que los índices irrelevantes o altamente
correlacionados utilizados en el modelado se descuidan, así como mostrar cuáles son las
variables más importantes para modelar los datos de la actividad. Este capítulo describe
las ecuaciones que definen el método BRANN más un diagrama de flujo para producir
un modelo BRANN-QSAR. Algunos resultados del uso de BRANNs en una serie de
conjuntos de datos se ilustran y se comparan con otros modelos lineales y no lineales.
(Pubmet, 2008)

Gradiente de conjugado escalado (trainscg)

Cada uno de los algoritmos de gradiente conjugado que hemos discutido hasta ahora
requiere una búsqueda de línea en cada iteración. Esta búsqueda de línea es
computacionalmente costosa, ya que requiere que la respuesta de la red a todos los
insumos de entrenamiento sea computada varias veces para cada búsqueda. El escalado
algoritmo de gradiente conjugado (SCG), desarrollado por Moller [Moll93], fue
diseñado para evitar la línea de búsqueda de tiempo. Este algoritmo es demasiado
complejo para explicar en pocas líneas, pero la idea básica es combinar el enfoque de la
región modelo-confianza (usado en el algoritmo de Levenberg-Marquardt descrito más
adelante), con el enfoque de gradiente conjugado.

La trainscg rutina puede requerir más iteraciones para converger que los otros
algoritmos de gradiente conjugado, pero el número de cálculos en cada iteración se
reduce significativamente porque no se realiza búsqueda de línea. Los requisitos de
almacenamiento para el algoritmo escalado de gradiente conjugado son
aproximadamente los mismos que los de Fletcher-Reeves. (The MathWorks, Inc., 2005)
Bibliografía
Pubmet. (2008). Regularización bayesiana de redes neuronales. Obtenido de
https://www.ncbi.nlm.nih.gov/pubmed/19065804

Ranganathan, A. (2004). The Levenberg-Marquardt Algorithm. Obtenido de


http://www.ananth.in/docs/lmtut.pdf

The MathWorks, Inc. (2005). Algoritmos de Gradiente Conjugado. Obtenido de


http://matlab.izmiran.ru/help/toolbox/nnet/backpr59.html