Professional Documents
Culture Documents
Cecilia Palomo
Aprendizaje El aprendizaje es el proceso por medio del cual, los parmetros libres de una red neuronal son adaptados a travs de un proceso de estimulacin por el ambiente en el cual la red se encuentra inmersa. El tipo de aprendizaje es determinada por la manera en la cual el cambio de parmetros tiene lugar. El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una informacin de entrada. Los cambios que se producen durante el proceso de aprendizaje son la destruccin, modificacin y creacin de conexiones entre las neuronas. W = 0 Destruccin; W 0 Creacin Tipos de Algortimos de Aprendizaje Aprendizaje Supervisado entrada, salida, objetivo Aprendizaje No supervisado entrada, salida Aprendizaje por Reforzamiento. Recompensa/castigo Reglas de Aprendizaje Aprendizaje Supervisado A la red se le proporciona un conjunto de ejemplos del comportamiento propio de la red (inputs/targets)
Aprendizaje No supervisado Las entradas son las nicas disponibles para el aprendizaje, el algoritmo de la red aprende a categorizar las entradas (clustering)
APRENDIZAJE SUPERVISADO Se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro), que determina la respuesta que debera generar la red a partir de una entrada determinada. Aprendizaje por Correccin de error. Aprendizaje por Refuerzo. Aprendizaje Estocstico. Aprendizaje por Correccin de Error Consiste en ajustar los pesos de las conexiones de la red en funcin de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir en funcin del error cometido en la salida
Ejemplos de Correcciones de error Regla de aprendizaje del perceptrn Regla delta () o del mnimo error cuadrado ; LMS (Widrow - Hoff). Regla delta generalizada o algoritmo de Retropropagacin de error (Rumelhart, Hinton, Williams), Ejemplos de Redes: Perceptrn, Adaline/Madaline, y Backpropagation
Aprendizaje por Refuerzo Se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, la funcin del supervisor se reduce a indicar mediante una seal de refuerzo si la salida de la red se ajusta a la deseada (xito=1, fracaso=-1) y en funcin de ello se ajustan los pesos basndose en un mecanismo de probabilidades. El aprendizaje de una comparacin entrada/salida se desempea a travs de la interaccin continua del medio ambiente de tal forma que se minimice un ndice escalar de su desempeo. Ejemplos de algoritmos que usan el Aprendizaje por Refuerzo Algoritmo Lineal con Recompensa y penalizacin (Linear Reward - Penalty), Narendra /Thathacher. Algoritmo Asociativo con recompensa y penalizacin (Barto / Anandan). Adaptive Heuristic Critic (Barto, Sutton, Anderson).
Ejemplo: Linear Reward-Penalty (Algoritmo lineal con recompensa y Penalizacin) (Barto y Anandan, 1985). w(t+1)=w(t)+(r)(d-<y>)(1-<y>2)x donde r= y r = -y si r = +1 (recompensa) si r = -1 (penalizacin)
con
Existen dos tipos de aprendizaje con refuerzo: el No-asociativo y el Asociativo: No-Asociativo: en donde, el sistema de aprendizaje tiene la tarea de seleccionar un nica accin ptima, ms que asociar diferentes acciones a diferentes estmulos. En tales casos, el refuerzo es slo la entrada que el sistema recibe de su entorno. Asociativo: en donde el entorno provee adicionales formas de informacin ms que refuerzos, y en donde se debe de aprender un mapping entre estmulos y acciones. Esquema general del Aprendizaje por Refuerzo S = { S0, S1..} es el conjunto de estados del entorno A = {a0, a1..} es el conjunto de acciones que puede realizar el aprendiz.
ri es la recompensa que recibe el aprendiz tras haber realizado la accin ai en el estado si.
Objetivo: Aprender una poltica : S A que maximice una funcin de recompensa acumulada con descuento por ejemplo:
es denominado ratio de descuento y pondera las recompensas futuras respecto de las actuales(toma valores entre o y 1). A la poltica optima la denotaremos por * y se puede expresar como
Denominaremos episodio a una secuencia de acciones-estados completa, es decir desde el inicio hasta el estado objetivo o sumidero. El aprendizaje se divide en episodios de forma natural(por ejemplo de un juego, secuencias de movimientos hasta llegar a una meta, etc.)
Aprendizaje Estocstico Este tipo de aprendizaje consiste en bsicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad. Posee una analoga en trminos termodinmicos. El estado energtico E representa el grado de estabilidad. Un estado de mnima energa representa que su funcin se aproxima al objetivo deseado. La funcin de Lyapunov se emplea tpicamente. Ejemplos de algoritmos de Aprendizaje Estocstico Maquina de Boltzmann (Hinton, Ackley, Sejnowky). Temple Simulado (Simulated Anneling). Maquina de Cauchy (Szu)
APRENDIZAJE NO SUPERVISADO Tipos de aprendizaje No Supervisado Aprendizaje Asociativo Aprendizaje Competitivo y cooperativo Aprendizaje Asociativo Es cualquier relacin entre la entrada de un sistema y su salida de tal forma que cuando el patrn A se presenta al sistema este responde con un patrn B.
Aprendizaje Hebbiano. Donald O. Hebb (1949) Pretende medir la familiaridad o extraer caractersticas de los datos de entrada. Este tipo de aprendizaje consiste en el ajuste de los pesos de las conexiones de acuerdo con la correlacin (multiplicacin en el caso de valores binarios +1, -1) de los valores de activacin (salidas) de las dos neuronas conectadas:
Si las dos unidades son activas (positivas), se produce un reforzamiento de la conexin. Cuando una unidad es activa y la otra pasiva (negativa) se produce un debilitamiento de la conexin. Ejemplos de redes: Red de Hopfield, Additive Grossberg, Shunting Grossberg, Learning Matrix, BAM, TAM, LAM.
Variantes del Aprendizaje Hebbiano Drive - Reinforcement (Sejnowski) Hebbiano Diferencial (Kosko) Aprendizaje Hebbiano Difuso (Kosko) o Adaptive bidirectional associative memory (ABAM en 1987) o Fuzzy Asociative Memory (FAM), utilizando aprendizaje Hebbiano Difuso. Tambin se utiliza el aprendizaje hebbiano combinado con otros mtodos, esto se puede ver en las redes: o Maquina de Boltzmann o Maquina de Cauchy o Counterpropagation (CPN en 1987) o Learning Vector Quantization (LVQ).
Aprendizaje Competitivo y Cooperativo. En estas redes las neuronas compiten y cooperan unas con otras con el fin de llevar a cabo una tarea dada. Cuando se presenta a la red cierta informacin de entrada, solo una de las neuronas de salida o un cierto grupo de neuronas, se activan. quedando anuladas las dems (valores de respuesta mnimos). Ejemplos de Redes con Aprendizaje Competitivo y Cooperativo. LVQ (Learning Vector quantization) Kohonen. Cognitron y Neocognitron (Fukushima). SOM (Kohonen). ART (Carpenter y Grossberg).
LVQ
ART
BIOGRAFIA
http://www.slideshare.net/mentelibre/redes-neuronales-algoritmos-de-aprendizaje Neuronal Networks: Basics and Applications, by R. Lackes and D. Mack, in collaboration with J. Ziola and K. Ahern. CBT (Computer Based Training) Springer,Verlag Berlin Heidelberg 1998. Proyecto Final de la Carrera Ingeniera Electrnica, Facultad de Ciencias Exactas, Ingeniera y Agrimensura Universidad Nacional Rosario, por Daniel Giardina. Directora del proyecto: Marta Basualdo. Ao: 1995. Argentina. NOL Studio Applications Ruiz y Sonnet. (www.soteica.com.ar) Tutorial de Redes Neuronales. Universidad Politcnica de (www.gc.ssr.upm.es/inves/neuronal/ann2/anntuto.htm).
Madrid,
Espaa
Introduccin a las redes neuronales artificiales, por Alfredo Catalina Gallego (www.gui.uva.es). Control de procesos mediante redes neuronales, Cisterna(http:\\melquiades.dic.udec.cl/ cgarrido). por Cristian F. Garrido