You are on page 1of 6

(8.

10)

es la gradiente de Hessian, y est definida como:

(8.11)

La gradiente y el teorema de Hessian son muy importantes para nuestro entendimiento del comportamiento de las superficies. En la siguiente seccin, discutiremos el significado prctico de estos dos conceptos. Para experimentar con la expansin de la serie de Taylor de una funcin de dos variables, usaremos la demostracin de la series de Taylor vectorial en el diseo de una red neuronal (nnd8ts2). Derivadas Direccionales El i-simo elemento de la gradiente , es la primera derivada del ndice de rendimiento F a lo largo del eje xi. El i-simo elemento de la diagonal de la matriz de Hessian , es la segunda derivada del ndice de rendimiento F a lo largo del eje xi. Y si queremos conocer la derivada de la funcin en una direccin arbitraria? Dejemos que p sea un vector en la direccin a lo largo en la cual deseamos conocer la derivada. Esta derivada direccional puede ser calculada a partir de: (8.12) La segunda derivada a lo largo de p puede ser calculada: (8.13)

Para ilustrar estos conceptos, considerar la funcin: F(x)= x12+2x22 (8.14)

Supongamos que queremos conocer la derivada de la funcin en el punto x*= [0.5 0.5]T en la direccin p= [2 -1]T. Primeramente evaluaremos la gradiente en x*:

(8.15)

La derivada en la direccin p puede entonces ser calculada:

(8.16)

Por lo tanto la funcin tiene pendiente cero en la direccin p desde el punto x*. Por qu sucede esto? Qu podemos decir acerca de estas direcciones que tienen pendiente cero? Si consideramos la definicin de la derivada direccional en la ecuacin (8.12), podemos ver que el numerador es un producto interno entre el vector direccin y la gradiente. Por lo tanto, cualquier direccin que es ortogonal a la gradiente tendr pendiente cero. Cul direccin tiene la mayor pendiente? La pendiente mxima ocurrir cuando el producto interno del vector direccin y la gradiente es mxima. Esto sucede cuando el vector de direccin es el mismo que el gradiente. (Observe que la magnitud del vector direccin no tiene ningn efecto, ya que nos normalizamos por esta magnitud). Este efecto se ilustra en la Figura 8.2, mientras se muestra un grfico de contorno y un grfico 3D de F(x). En el grfico de contorno podemos ver 5 vectores de partida desde nuestro punto nominal x* y apuntando en direcciones diferentes. Al final de cada vector se muestra la primera derivada direccional. La derivada mxima ocurre en la direccin de la gradiente. La derivada es cero en la direccin ortogonal a la pendiente (tangente al contorno de lnea). Para experimentar con las derivadas direccionales, utilizar las Derivadas Direccionales Demostrativas en el Diseo de Redes Neuronales (nnd8dd).

Figura 8.2 Funcin Cuadrtica y las Derivadas Direccionales Recordar que el objetivo del aprendizaje de rendimiento ser optimizar el ndice de rendimiento de la red. En esta seccin queremos definir a que nos referimos por un punto ptimo. Asumiremos que el punto ptimo es un mnimo del ndice de rendimiento. Las definiciones pueden ser fcilmente modificadas para los problemas de maximizacin. Mnimo Fuerte El punto x* es un mnimo fuerte de F(x) si existe un escalar >0, tal que F(x*) < F(x*+ x) para todo x tal que >||x||>0. En otras palabras, si nos movemos lejos de un mnimo fuerte una distancia pequea en cualquier direccin, la funcin se incrementar. Mnimo Global El punto x* es un mnimo global nico de F(x) si F(x*) < F(x*+ x) para todo x 0.

Para un simple mnimo fuerte, x*, la funcin puede ser menor que F(x*) en algunos puntos fuera de un pequeo entorno de x*. Por tanto, esto a veces es llamado un mnimo local. Para un mnimo global la funcin ser mayor que el punto mnimo en cualquier otro punto en el espacio de parmetro. Mnimo Dbil El punto x* es un mnimo dbil de F(x), si este no es un mnimo fuerte, y un escalar >0 existe, tal que F(x*) F(x*+ x) para todo x tal que >||x||>0.

No importa en qu direccin nos movemos lejos de un mnimo dbil, la funcin no puede decrementarse, aunque puede haber algunas direcciones en las que las funciones no cambian. Como un ejemplo de puntos mnimos local y global, consideraremos la siguiente funcin escalar: F(x)= 3x4-7x2-1/2x+6 Esta funcin es mostrada en la Figura 8.3. Recuerde que este tiene dos puntos mnimo fuerte: como aproximadamente de -1.1 a 1.1. Para ambos de estos puntos, la funcin aumenta en un entorno local. El mnimo en 1.1 es un mnimo global, ya que no hay otro punto para el que la funcin es tan pequeo. No hay un mnimo dbil para esta funcin. Vamos a mostrar un ejemplo de dos dimensiones de un mnimo dbil despus.

Figura 8.3 Ejemplo escalar de un mnimo global y local Ahora vamos a considerar algunos casos vectoriales. Primero, considere la funcin siguiente: F(x)= (x2-x1)4 + 8x1x2 x1 + x2 + 3 Grfico de Contorno En la Figura 8.4 tenemos un grfica de contorno (una serie de curvas a lo largo de la que el valor de la funcin se mantiene constante) y una grfica de superficie de 3D para esta funcin (para valores de la funcin de menos de 12). Podemos ver que la funcin tiene dos puntos mnimos locales fuertes: uno en (-0.42, 0.42), y el otro en (0.55, -0.55). El punto mnimo global es en (0.55, -0.55). Punto de silla Hay tambin otra caracterstica interesante de esta funcin en (-0.13, 0.13). Est es llamada un punto de silla debido a la forma de la superficie en el entorno del punto. Se caracteriza por el hecho de que a lo largo de la lnea x1=-x2, el punto de silla es un mximo local, pero a lo largo de una lnea perpendicular a esa lnea es un mnimo local. Investigaremos este ejemplo en ms detalle en los problemas P8.2 y P8.5. (8.18)

Est funcin es usada en la serie de Taylor vectorial en el diseo de una red neuronal (nnd8ts2).

Figura 8.4 Ejemplo vectorial de punto mnimo y de silla Como un ejemplo final, considerar la funcin definida en la ecuacin (8.19): F(x)= (x12 1.5x1x2+2x22)x12 (8.19)

La grfica de contorno y 3D de esta funcin estn dados en la Figura 8.5. Aqu podemos ver que cualquier punto a lo largo de la lnea x1=0 es un mnimo dbil.

Figura 8.5 Ejemplo Mnimo Dbil Condiciones necesarias para la optimizacin Ahora que tenemos definido a que nos referimos por un punto ptimo (mnimo), vamos a identificar algunas condiciones que tendra que ser satisfecho por dicho punto. Volveremos a utilizar la expansin de las series de Taylor para derivar estas condiciones:

Donde: x= x-x4 Las condiciones de primer orden Si ||x|| es muy pequea entonces el orden de los trminos en la ecuacin (8.20) ser insignificante y podemos aproximar la funcin como: (8.22) El punto x* es un punto mnimo candidato, lo que significa que la funcin debe subir (o al menos no bajar) si x no es cero. Para que esto suceda el segundo trmino en la ecuacin (8.22) no debe ser negativo. En otras palabras: (8.23) Sin embargo, si este trmino es positivo, (8.24) Entonces, esto implicara que: (8.25) Pero esta es una contradiccin, ya que x ser un punto mnimo. Por lo tanto, ya que la ecuacin (8.23) debe ser cierto, y la ecuacin (8.24) ser falso, la nica alternativa debe ser: (8.26) Dado que esto debe ser cierto para cualquier x, tendremos: (8.27) Por lo tanto la gradiente puede ser cero en el punto mnimo. Este es un primer orden, condicin necesaria (pero no suficiente) para x* ser un punto mnimo local. Algunos puntos que satisface la ecuacin (8.27), son llamados puntos estacionarios.
*

(8.21)

You might also like