You are on page 1of 9

MAESTRIA EN TECNOLOGIAS DE LA INFORMACION

Inteligencia de Negocios y Datawarehouse

Tema: Algoritmos de Aprendizaje

Cecilia Palomo

Aprendizaje El aprendizaje es el proceso por medio del cual, los parmetros libres de una red neuronal son adaptados a travs de un proceso de estimulacin por el ambiente en el cual la red se encuentra inmersa. El tipo de aprendizaje es determinada por la manera en la cual el cambio de parmetros tiene lugar. El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una informacin de entrada. Los cambios que se producen durante el proceso de aprendizaje son la destruccin, modificacin y creacin de conexiones entre las neuronas. W = 0 Destruccin; W 0 Creacin Tipos de Algortimos de Aprendizaje Aprendizaje Supervisado entrada, salida, objetivo Aprendizaje No supervisado entrada, salida Aprendizaje por Reforzamiento. Recompensa/castigo Reglas de Aprendizaje Aprendizaje Supervisado A la red se le proporciona un conjunto de ejemplos del comportamiento propio de la red (inputs/targets)

{ p1, t 1 } { p2, t 2 } {pQ,tQ }

Aprendizaje No supervisado Las entradas son las nicas disponibles para el aprendizaje, el algoritmo de la red aprende a categorizar las entradas (clustering)

Aprendizaje por Reforzamiento A la red se proporciona un grado de desempeo de la misma.

APRENDIZAJE SUPERVISADO Se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro), que determina la respuesta que debera generar la red a partir de una entrada determinada. Aprendizaje por Correccin de error. Aprendizaje por Refuerzo. Aprendizaje Estocstico. Aprendizaje por Correccin de Error Consiste en ajustar los pesos de las conexiones de la red en funcin de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir en funcin del error cometido en la salida

:factor de aprendizaje ( 0 < < 1 )

Ejemplos de Correcciones de error Regla de aprendizaje del perceptrn Regla delta () o del mnimo error cuadrado ; LMS (Widrow - Hoff). Regla delta generalizada o algoritmo de Retropropagacin de error (Rumelhart, Hinton, Williams), Ejemplos de Redes: Perceptrn, Adaline/Madaline, y Backpropagation

Redes que utilizan el Aprendizaje por Correccin de Error:

Aprendizaje por Refuerzo Se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, la funcin del supervisor se reduce a indicar mediante una seal de refuerzo si la salida de la red se ajusta a la deseada (xito=1, fracaso=-1) y en funcin de ello se ajustan los pesos basndose en un mecanismo de probabilidades. El aprendizaje de una comparacin entrada/salida se desempea a travs de la interaccin continua del medio ambiente de tal forma que se minimice un ndice escalar de su desempeo. Ejemplos de algoritmos que usan el Aprendizaje por Refuerzo Algoritmo Lineal con Recompensa y penalizacin (Linear Reward - Penalty), Narendra /Thathacher. Algoritmo Asociativo con recompensa y penalizacin (Barto / Anandan). Adaptive Heuristic Critic (Barto, Sutton, Anderson).

Ejemplo: Linear Reward-Penalty (Algoritmo lineal con recompensa y Penalizacin) (Barto y Anandan, 1985). w(t+1)=w(t)+(r)(d-<y>)(1-<y>2)x donde r= y r = -y si r = +1 (recompensa) si r = -1 (penalizacin)

(r) = (+) si r = +1 (r) = (-) si r = +1

con

(+) >> (-) > 0

Se modifican los pesos para cada patrn de entrada.

Existen dos tipos de aprendizaje con refuerzo: el No-asociativo y el Asociativo: No-Asociativo: en donde, el sistema de aprendizaje tiene la tarea de seleccionar un nica accin ptima, ms que asociar diferentes acciones a diferentes estmulos. En tales casos, el refuerzo es slo la entrada que el sistema recibe de su entorno. Asociativo: en donde el entorno provee adicionales formas de informacin ms que refuerzos, y en donde se debe de aprender un mapping entre estmulos y acciones. Esquema general del Aprendizaje por Refuerzo S = { S0, S1..} es el conjunto de estados del entorno A = {a0, a1..} es el conjunto de acciones que puede realizar el aprendiz.

ri es la recompensa que recibe el aprendiz tras haber realizado la accin ai en el estado si.

Objetivo: Aprender una poltica : S A que maximice una funcin de recompensa acumulada con descuento por ejemplo:

es denominado ratio de descuento y pondera las recompensas futuras respecto de las actuales(toma valores entre o y 1). A la poltica optima la denotaremos por * y se puede expresar como

Denominaremos episodio a una secuencia de acciones-estados completa, es decir desde el inicio hasta el estado objetivo o sumidero. El aprendizaje se divide en episodios de forma natural(por ejemplo de un juego, secuencias de movimientos hasta llegar a una meta, etc.)

Aprendizaje Estocstico Este tipo de aprendizaje consiste en bsicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad. Posee una analoga en trminos termodinmicos. El estado energtico E representa el grado de estabilidad. Un estado de mnima energa representa que su funcin se aproxima al objetivo deseado. La funcin de Lyapunov se emplea tpicamente. Ejemplos de algoritmos de Aprendizaje Estocstico Maquina de Boltzmann (Hinton, Ackley, Sejnowky). Temple Simulado (Simulated Anneling). Maquina de Cauchy (Szu)

APRENDIZAJE NO SUPERVISADO Tipos de aprendizaje No Supervisado Aprendizaje Asociativo Aprendizaje Competitivo y cooperativo Aprendizaje Asociativo Es cualquier relacin entre la entrada de un sistema y su salida de tal forma que cuando el patrn A se presenta al sistema este responde con un patrn B.

Aprendizaje Hebbiano. Donald O. Hebb (1949) Pretende medir la familiaridad o extraer caractersticas de los datos de entrada. Este tipo de aprendizaje consiste en el ajuste de los pesos de las conexiones de acuerdo con la correlacin (multiplicacin en el caso de valores binarios +1, -1) de los valores de activacin (salidas) de las dos neuronas conectadas:

Si las dos unidades son activas (positivas), se produce un reforzamiento de la conexin. Cuando una unidad es activa y la otra pasiva (negativa) se produce un debilitamiento de la conexin. Ejemplos de redes: Red de Hopfield, Additive Grossberg, Shunting Grossberg, Learning Matrix, BAM, TAM, LAM.

Variantes del Aprendizaje Hebbiano Drive - Reinforcement (Sejnowski) Hebbiano Diferencial (Kosko) Aprendizaje Hebbiano Difuso (Kosko) o Adaptive bidirectional associative memory (ABAM en 1987) o Fuzzy Asociative Memory (FAM), utilizando aprendizaje Hebbiano Difuso. Tambin se utiliza el aprendizaje hebbiano combinado con otros mtodos, esto se puede ver en las redes: o Maquina de Boltzmann o Maquina de Cauchy o Counterpropagation (CPN en 1987) o Learning Vector Quantization (LVQ).

Aprendizaje Competitivo y Cooperativo. En estas redes las neuronas compiten y cooperan unas con otras con el fin de llevar a cabo una tarea dada. Cuando se presenta a la red cierta informacin de entrada, solo una de las neuronas de salida o un cierto grupo de neuronas, se activan. quedando anuladas las dems (valores de respuesta mnimos). Ejemplos de Redes con Aprendizaje Competitivo y Cooperativo. LVQ (Learning Vector quantization) Kohonen. Cognitron y Neocognitron (Fukushima). SOM (Kohonen). ART (Carpenter y Grossberg).

LVQ

ART

APRENDIZAJE POR REFORZAMIENTO


El aprendizaje de una comparacin entrada/salida se desempea a travs de la interaccin continua del medio ambiente de tal forma que se minimice un ndice escalar de su desempeo. El aprendizaje por reforzamiento caracteriza un problema de aprendizaje. Cualquier mtodo adecuado para resolver una instancia de este problema, se considera un mtodo de aprendizaje por reforzamiento. El agente se encarga de aprender que accin se debe ejecutar en funcin del ambiente. Adems del agente y el medio, es posible identificar cuatro componentes principales de un sistema de aprendizaje por reforzamiento: Poltica: Define la manera de comportarse de un agente en un tiempo dado. Puede verse como una aplicacin entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Este elemento es central porque por si solo es suficiente para determinar el comportamiento. Por lo general, las polticas deben ser estocsticas. Funcin de reforzamiento: Define la meta en un problema de RL, al aplicar cada percepcin del agente (estado del ambiente o par estado, accin) a un numero (recompensa) que indica como de deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la funcin define que eventos son buenos y malos para el agente por lo que la funcin es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la poltica, por ejemplo, si una accin elegida por la poltica recibe una recompensa muy baja, la poltica debe cambiarse para elegir una accin diferente en esa situacin. Una funcin de reforzamiento por lo general es estocstica. Funcin de evaluacin: Mientras que la funcin de reforzamiento indica lo que es bueno en lo inmediato, la funcin de evaluacin lo hace a largo plazo. Puede verse como la cantidad total de recompensa que el agente espera recibir en el tiempo, partiendo de un estado en particular. La recompensa determina la bondad inmediata de un estado, este valor representa la bondad a largo plazo del mismo, tomando en cuenta los estados a los que podra conducir. La mayora de los algoritmos RL operan estimando la funcin de evaluacin. Modelo del ambiente: Los modelos mimetizan el medio. Dado un estado y una accin, el modelo debera predecir el estado resultante y la recompensa prxima. Los modelos se utilizan para planear, es decir, decidir sobre un curso de accin que involucra situaciones futuras, antes de que estas se presenten. La incorporacin de modelos y planificacin en RL es un desarrollo reciente, el RL clsico puede verse como la anti-planificacin. Ahora es claro que los mtodos RL estn estrechamente relacionados a los mtodos de programacin dinmica. As los algoritmos RL pueden verse como una mezcla entre las estrategias ensayo-error y la planificacin deliberativa.

BIOGRAFIA

http://www.slideshare.net/mentelibre/redes-neuronales-algoritmos-de-aprendizaje Neuronal Networks: Basics and Applications, by R. Lackes and D. Mack, in collaboration with J. Ziola and K. Ahern. CBT (Computer Based Training) Springer,Verlag Berlin Heidelberg 1998. Proyecto Final de la Carrera Ingeniera Electrnica, Facultad de Ciencias Exactas, Ingeniera y Agrimensura Universidad Nacional Rosario, por Daniel Giardina. Directora del proyecto: Marta Basualdo. Ao: 1995. Argentina. NOL Studio Applications Ruiz y Sonnet. (www.soteica.com.ar) Tutorial de Redes Neuronales. Universidad Politcnica de (www.gc.ssr.upm.es/inves/neuronal/ann2/anntuto.htm).

Madrid,

Espaa

Introduccin a las redes neuronales artificiales, por Alfredo Catalina Gallego (www.gui.uva.es). Control de procesos mediante redes neuronales, Cisterna(http:\\melquiades.dic.udec.cl/ cgarrido). por Cristian F. Garrido

http://www.udb.edu.sv/Academia/Laboratorios/informatica/IA/guia10IA.pdf http://users.dsic.upv.es/asignaturas/facultad/apr/refuerzo.pdf http://sci2s.ugr.es/eamhco/con1.pdf

You might also like