1

LA OPTIMIZACIÓN NUMÉRICA de funciones objetivo multivariables generales no lineales
requiere técnicas eficientes y robustas. La eficiencia es importante porque estos
los problemas requieren un procedimiento de solución iterativo, y se convierte en prueba y

error
poco práctico para más de tres o cuatro variables. Robustez (la capacidad de lograr
una solución) es deseable porque una función no lineal general es impredecible en su
comportamiento; Puede haber máximos o mínimos relativos, puntos de silla de montar,

regiones de convexidad,
concavidad, y así sucesivamente. En algunas regiones, el algoritmo de optimización puede
progresar muy lentamente hacia el óptimo, lo que requiere un tiempo de computadora

excesivo. Por suerte,
podemos recurrir a una amplia experiencia en la prueba de programación no lineal
algoritmos para funciones no restringidas para evaluar diversos enfoques propuestos
la optimización de tales funciones.
En este capítulo discutimos la solución de la optimización sin restricciones
problema:
Encontrar: eso minimiza
Los procedimientos iterativos más efectivos alternan entre dos fases en la optimización.
En la iteración k, donde la corriente es xk, hacen lo siguiente:
1. Elija una dirección de búsqueda sk
2. Minimice en esa dirección (generalmente inexactamente) para encontrar un nuevo punto
donde aki es un escalar positivo llamado tamaño de paso. El tamaño del paso está
determinado por un
proceso de optimización llamado búsqueda de línea como se describe en el Capítulo 5.
Además de 1 y 2, un algoritmo debe especificar
3. El vector de inicio inicial x0 = [x xs. . . norte; lt y
4. Los criterios de convergencia para la terminación.
Desde un punto de partida dado, se determina la dirección de búsqueda y se minimiza la

fijación)
en esa dirección La búsqueda se detiene en función de algunos criterios, y luego una nueva
la dirección de búsqueda está determinada, seguida de otra búsqueda de línea. La búsqueda

de línea puede
llevarse a cabo con varios grados de precisión. Por ejemplo, podríamos usar un simple
duplicación sucesiva del tamaño del paso como método de detección hasta que detectamos el
óptimo
Usted ha sido puesto entre corchetes. En este punto, la búsqueda de detección puede finalizar
y
un método más sofisticado empleado para producir un mayor grado de precisión. En cualquier
evento, refiérase a las técnicas discutidas en el Capítulo 5 para formas de llevar a cabo la línea
buscar.
Los métodos NLP (programación no lineal) que se discutirán en este capítulo difieren
principalmente en cómo generan las direcciones de búsqueda. Alguna programación no lineal
los métodos requieren información sobre los valores derivados, que otros no
use derivados y confíe únicamente en evaluaciones de funciones. Además, diferencia finita
los sustitutos se pueden usar en lugar de derivados como se explica en la Sección 8.10. por
funciones diferenciables, métodos que usan análisis
menos tiempo de cálculo y son más precisos, incluso si la diferencia finita es

aproximadaCAPITULO
6: Optimización multivariable sin restricciones 183
se utilizan Los códigos simbólicos se pueden usar para obtener derivados analíticos pero
esto puede requerir más tiempo de computación que la diferenciación finita para obtener
derivadas. por
funciones no relacionadas, un método de solo valores de función puede. ser más exitoso que
usando un método basado en derivados. Primero describimos algunos simples no derivativos
métodos y luego presentar una serie de métodos que utilizan información derivada. Nosotros
también muestran cómo la naturaleza de la función objetivo influye en la efectividad de
el algoritmo de optimización particular.
6.1 MÉTODOS UTILIZANDO VALORES DE FUNCIÓN SOLAMENTE
Algunos métodos no requieren el uso de derivados para determinar la dirección de búsqueda.
En algunas circunstancias, los métodos descritos en esta sección se pueden usar
efectivamente, pero pueden ser ineficientes en comparación con los métodos discutidos en
secciones Tienen la ventaja de ser simples de entender y ejecutar.
6.1.1 Búsqueda aleatoria
Un método de búsqueda aleatorio simplemente selecciona un vector inicial xO, evalúaflx) en

xO, y
luego selecciona aleatoriamente otro vector x1 y evalúa flx) en xl. En efecto, tanto un
la dirección de búsqueda y la longitud del paso se eligen simultáneamente. Después de uno o
más
etapas, el valor de flxk) se compara con el mejor valor anterior de flx) de
entre las etapas anteriores, y se toma la decisión de continuar o terminar el
procedimiento Las variaciones de esta forma de búsqueda aleatoria implican seleccionar

aleatoriamente un
dirección de búsqueda y luego minimizar (posiblemente por pasos aleatorios) en esa búsqueda
dirección como una serie de ciclos. Claramente, la solución óptima se puede obtener con un
probabilidad de 1 solo como k + oo pero como una cuestión práctica, si la función objetivo
es eliminar plano, una solución subóptima puede ser bastante aceptable. A pesar de
método es ineficiente en lo que respecta a las evaluaciones de funciones, puede proporcionar
un buen punto de partida para otro método. Puede ver la búsqueda aleatoria como
extensión del método de estudio de casos. Consulte a Dixon y James (1980) para algunos
algoritmos prácticos
6.1.2 Búsqueda de cuadrícula
Los métodos de diseño experimental discutidos en la mayoría de los libros de estadísticas

básicas pueden ser
aplicado igual de bien para minimizar flf) (ver Capítulo 2). Tienes una serie de
puntos sobre un poi de referencia
6.1.3 Búsqueda univariante
Otra técnica de optimización simple es seleccionar n direcciones de búsqueda fijas

(generalmente
los ejes de coordenadas) para una función objetiva de n variables. Thenflx) se minimiza
en cada dirección de búsqueda usando secuencialmente una búsqueda unidimensional. Esta
método es efectivo para una función cuadrática de la forma
porque las direcciones de búsqueda se alinean con los ejes principales como se indica en la
Figura
6.2a. Sin embargo, no funciona satisfactoriamente para un objetivo cuadrático más general
funciones de la forma
como se ilustra en la Figura 6.2b. Para el último caso, los cambios en x disminuyen a medida
se acerca el óptimo, por lo que se necesitarán muchas iteraciones para lograr una alta
precisión.
6.1.4 Método de búsqueda Simplex
El método de "Simplex secuencial" formulado por Spendley, Hext y
Himsworth (1962) selecciona puntos en los vértices del símplex en el que evaluar
f (x). En dos dimensiones, la figura es un triángulo equilátero. Examine la figura 6.3. En
tres dimensiones, esta figura se convierte en un tetraedro regular, y así sucesivamente. Cada
búsqueda
puntos de dirección lejos del vértice que tiene el mayor valor offlx) a la otra
vértices en el símplex. Por lo tanto, la dirección de búsqueda cambia, pero el tamaño del paso
es
arreglado para un tamaño dado simplex. Usemos una función de dos variables para ilustrar el
procedimiento.
En cada iteración, para minimizar f (x), f (x) se evalúa en cada uno de los tres vértices de
el triangulo. La dirección de búsqueda está orientada fuera del punto con la más alta
valor para la función a través del centroide del símplex. Al hacer la búsqueda
dirección biseque la línea entre los otros dos puntos del triángulo, la dirección
pasa por el centroide Se selecciona un nuevo punto en esta dirección reflejada (como
se muestra en la Figura 6.3), preservando la forma geométrica. La función objetivo es entonces
evaluado en el nuevo punto, y se determina una nueva dirección de búsqueda. El método
continúa, rechazando un vértice a la vez hasta que el símplex se extiende a lo óptimo. Varios
las reglas se usan para evitar la repetición excesiva del mismo ciclo o símiles.
A medida que se aborda el óptimo, el último triángulo equilátero se extiende a lo óptimo
apunte o esté a una distancia del orden de su tamaño del óptimo (examine
Figura 6.4). El procedimiento no puede acercarse al óptimo y se repite
de modo que el tamaño de símplex debe reducirse, como reducir a la mitad la longitud de
todos los
lados del símplex que contiene el vértice donde comenzó la oscilación. Un nuevo símplex
compuesto por los puntos medios del final simplex está construido. Cuando el simplex
el tamaño es menor que una tolerancia prescrita, la rutina se detiene. Por lo tanto, el óptimo
la posición se determina dentro de una tolerancia influenciada por el tamaño del símplex.
Nelder y Mead (1965) describieron una versión más eficiente (pero más compleja)
del método simplex que permitió a las figuras geométricas expandirse y contraerse
continuamente durante la búsqueda. Su método minimizó una función de n variables

usando (n + 1) vértices de un poliedro flexible. Detalles del método junto con
un código de computadora para ejecutar el algoritmo se puede encontrar en Avriel (1976).
6.1.5 Direcciones de búsqueda de conjugado
La experiencia ha demostrado que las instrucciones conjugadas son mucho más efectivas en la
búsqueda
direcciones que las direcciones de búsqueda elegidas arbitrariamente, como en la búsqueda

univariada, o
incluso direcciones de búsqueda ortogonales. Se dice que dos direcciones si y sj son

conjugadas
con respecto a una matriz positiva definida Q si
En general, un conjunto de n direcciones de búsqueda linealmente independientes, entonces,

s1. . . , Sn-1 son
se dice que es conjugado con respecto a una matriz cuadrada positiva definida Q si
En optimización, la matriz Q es la matriz de Hesse de la función objetivo, H.
Para una definición cuadrática f (x) de n variables, en las que H es una matriz constante, usted
es
garantizado para alcanzar el mínimo de f (x) en n etapas si minimiza exactamente en cada
etapa (Dennis y Schnabel, 1996). En n dimensiones, muchos conjuntos diferentes de conjugado
existen direcciones para una matriz Q dada. Sin embargo, en dos dimensiones, si elige
una dirección inicial s1 y Q, s2 está completamente especificada como se ilustra en el ejemplo

6.1.
188 PARTE 11: Teoría y métodos de optimización
La ortogonalidad es un caso especial de conjugación porque cuando Q = I, (~ j) ~ = s 0j
en la ecuación (6.2). Si las coordenadas de x se traducen y rotan por medio de
transformaciones para alinear los nuevos ejes principales de H (x) con los vectores propios
de H (x) y para colocar el centro del sistema de coordenadas en el punto estacionario de
f (x) (consulte las Figuras 4.12 a 4.13, luego la conjugación puede interpretarse como
ortogonalidad en el espacio de las coordenadas transformadas.
Aunque los autores y los profesionales se refieren a una clase de optimización sin restricciones
métodos como "métodos que utilizan direcciones conjugadas", para un general no lineal
función, las direcciones conjugadas existen solo para una aproximación cuadrática de
función en una sola etapa k. Una vez que la función objetivo es modelada por un nuevo
aproximación en la etapa (k + I), es poco probable que las instrucciones en la etapa k sean
conjugadas
a cualquiera de las direcciones seleccionadas en la etapa (k + 1).
EJEMPLO 6.1 CÁLCULO DE LAS INSTRUCCIONES DEL CONJUGADO
Supongamos que queremos minimizar flx) = + 4 - 3 comenzando en (xO) ~ = [l 11 con el
la dirección inicial es tan = [-4 -2IT. Encuentre una dirección conjugada a la dirección inicial
asi que.
Solución
Necesitamos resolver la ecuación (6.2) para st = [s ', s: lT con Q = H y así = [-4 -2IT.
Porque si no es único, podemos elegir si = 1 y determinar si
Por lo tanto s1 = [l -4IT es una dirección conjugada a tan = [-4 -2IT.
Podemos alcanzar el mínimo de solución) en dos etapas usando primero so y luego sl. Poder
usamos las direcciones de búsqueda en orden inverso? Desde x0 = [l 1IT podemos llevar a cabo
un
búsqueda numérica en la dirección so = [-4 -2IT para llegar al punto xl. Cuadrático
la interpolación puede obtener la longitud de paso óptima exacta porque f es cuadrática,

produciendo
a = 0.27778. Entonces
c H APT E R 6: Optimización multivariable sin restricciones 189
Para la siguiente etapa, la dirección de búsqueda es s1 = [_1 -4IT, y la longitud de paso óptima
calculado por interpolación cuadrática es a '= 0.1 11 1. Por lo tanto
como se esperaba
6.1.6 Resumen
Como se mencionó anteriormente, las funciones objetivas no lineales a veces son

intrascendentes debido a
la presencia de funciones como las declaraciones abs, min, max o if-then-else, que pueden
causa derivadas, o la función en sí misma, ser discontinua en algunos puntos. Sin restricciones
Los métodos de optimización que no usan derivados a menudo son capaces de resolver
problemas
Problemas de PNL, mientras que los métodos que usan derivados pueden fallar. Métodos
emplear derivados puede "atascarse" en un punto de discontinuidad, pero -el valor de función-
solo los métodos son menos afectados. Para funciones suaves, sin embargo, métodos que
los derivados de uso son más precisos y rápidos, y su ventaja crece a medida
número de variables de decisión aumenta. Por lo tanto, ahora volvemos nuestra atención a sin
restricciones
métodos de optimización que usan solo primeras derivadas parciales del objetivo
función.
6.2 MÉTODOS QUE UTILIZAN PRIMEROS DERIVADOS
Una buena dirección de búsqueda debería reducir (para minimizar) la función objetivo de
modo
que si x0 es el punto original y x1 es el nuevo punto
Dicha dirección s se denomina dirección de descenso y cumple el siguiente requisito
en cualquier punto
Para ver por qué, examine los dos vectores Vf (xk) y sk en la figura 6.5. El ángulo
betweer) ellos son 8, por lo tanto
Si 8 = 90 'como en la Figura 6.5, entonces los pasos a lo largo de sk no reducen (mejoran) el

valor de
f (x). Si 0 5 8 <90 °, no es posible ninguna mejora y f (x) aumenta. Solo si 8> 90 "
¿la dirección de búsqueda produce valores más pequeños de f (x), por lo tanto VTf (xk) sk <0.
Primero examinamos el método clásico de descenso más inclinado para usar el gradiente y
luego examine un método de gradiente conjugado.
1 90 PARTE 11: teoría y métodos de optimización
6.2.1 Descenso más empinado
El gradiente es el vector en un punto x que da la dirección (local) de la mayor
tasa de aumento en f (x). Es ortogonal al contorno apagado (x) en x. Para la rnaximización,
la dirección de búsqueda es simplemente el gradiente (cuando se usa el algoritmo se llama
"ascenso más pronunciado"); para la minimización, la dirección de búsqueda es el negativo del

gradiente
("descenso más pronunciado")
En el descenso más pronunciado en la etapa k, la transición del punto actual xk al
El nuevo punto x "'viene dado por la siguiente expresión:
donde Ax '= vector de xk a xk +
sk = dirección de búsqueda, la dirección de descenso más inclinado
a '= escalar que determina la longitud del paso en la dirección sk
El negativo del gradiente da la dirección para la minimización, pero no la magnitud

del paso a tomar, de modo que sean posibles varios procedimientos de descenso más
pronunciados, dependiendo de la elección de ak. Suponemos que el valor offlx) es continuo
reducido. Porque un paso en la dirección del descenso más empinado no será, en general,
llegar al mínimo offlx), la ecuación (6.4) debe aplicarse repetidamente hasta que.
el mínimo es alcanzado. Como mínimo, el valor de los elementos del degradado
el vector será cada uno igual a cero.
El tamaño del paso ak se determina mediante una búsqueda en línea, usando métodos como
los
descrito en el Capítulo 5. Aunque las búsquedas de línea son inexactas (no continúan hasta la
mínimo) siempre se usan en la práctica, se obtiene una idea al examinar el comportamiento
de descenso más pronunciado cuando se utiliza una búsqueda de línea exacta.
Primero, consideremos la función objetivo cuadrática perfectamente escalada
f (x) = x: + x :, cuyos contornos son círculos concéntricos como se muestra en la Figura 6.6.
Supongamos que calculamos el gradiente en el punto xT = [2 21
La dirección del descenso más empinado es
FIGURA 6.6
Observe que s es un vector que apunta hacia el óptimo en (0, 0). De hecho, el gradiente
en cualquier punto pasa por el origen (el óptimo).
Por otro lado, para funciones que no están tan bien escaladas y que tienen un valor no nulo
fuera de diagonal
términos en la matriz de Hesse (que corresponden a términos de interacción como
xlx2), entonces es poco probable que la dirección del gradiente negativo pase directamente a
través del
óptimo. La Figura 6.7 ilustra los contornos de una función cuadrática de dos variables
eso incluye un término de interacción. Observe que los contornos están inclinados con
respecto a
ejes. Los términos de interacción más escalas deficientes corresponden a valles estrechos, o
crestas,
causa que el método de gradiente muestre convergencia lenta.
Si se elige ak para minimizar f (xk + preguntar) exactamente entonces como mínimo,
Ilustramos esto en la Figura 6.8 usando la notación
gk (a) = f (t + preguntar)
donde gk es el valor de la función a lo largo de la dirección de búsqueda para un valor dado de

a.
Como xk y sk están fijados en valores conocidos, gk depende únicamente del tamaño del paso
a.
Si sk es una dirección de descenso, siempre podemos encontrar un positivo a que causa f a
disminución.
FIGURA 6.8
Búsqueda de línea exacta a lo largo de la dirección de búsqueda sk.
Usando la regla de la cadena
En una búsqueda de línea exacta, elegimos ak como la a que minimiza gk (a), ASÍ
como se muestra en la Figura 6.8. Pero cuando el producto interno de dos vectores es cero, los
vectores
son ortogonales, por lo que si se utiliza una búsqueda de línea exacta, el gradiente en el nuevo
punto
xk + 'es ortogonal a la dirección de búsqueda sk. En el descenso más pronunciado sk = -V f (xk),

entonces
los gradientes en los puntos xk y xk + 'son ortogonales. Esto se ilustra en la Figura 6.7,
que muestra que la ortogonalidad de las direcciones de búsqueda sucesivas conduce a una
muy
comportamiento ineficaz en zigzag. Aunque se toman grandes pasos en las primeras

iteraciones,
los tamaños de paso se reducen rápidamente y convergen a una solución precisa de la

optimización
problema toma muchas iteraciones.
El algoritmo de descenso más pronunciado se puede resumir en los siguientes pasos:
1. Elija un punto inicial o de inicio xO. A partir de entonces en el punto xk:
2. Calcule (analítica o numéricamente) las derivadas parciales
194 PARTE 11: Teoría y métodos de optimización
3. Calcule el vector de búsqueda
4. Usa la relación
Xk + l = x k + aksk
para obtener el valor de xk + l. Para obtener una minimización de gk (a) numéricamente, como
se describe en
Capítulo 5.
5. Compare f (xk + l) con f (xk): si el cambio en f (x) es menor que cierta tolerancia,
detener. De lo contrario, regrese al paso 2 y configure k = k + 1. También se puede especificar
la terminación.
al estipular cierta tolerancia en la norma de Vf (xk).
El descenso más pronunciado puede terminar en cualquier tipo de punto estacionario, es

decir, en cualquier
punto donde los elementos del gradiente de f (x) son cero. Por lo tanto, debe determinar
si el mínimo presunto es de hecho un mínimo local (es decir, una solución) o una silla de
montar
punto. Si es un punto de silla de montar, es necesario emplear un método sin gradiente para
moverse
lejos del punto, después del cual la minimización puede continuar como antes. El estacionario
punto se puede probar mediante el examen de la matriz de Hesse de la función objetivo
como se describe en el Capítulo 4. Si la matriz de Hesse no es positiva-definida, la estacionaria
punto es un punto de silla. Perturbación desde el punto estacionario seguido por
la optimización debe conducir a un mínimo local x *.
La dificultad básica con el método de descenso más empinado es que es demasiado sensible
al escalado (x), por lo que la convergencia es muy lenta y lo que equivale a oscilación
en el espacio x puede ocurrir fácilmente. Por estas razones, el descenso o el ascenso más
empinado
no es una técnica de optimización muy efectiva. Afortunadamente, gradiente conjugado
los métodos son mucho más rápidos y más precisos.
6.2.2 Métodos de degradado de conjugado
El primer método de gradiente conjugado fue ideado por Fletcher y Reeves (1964).
Si f (x) es cuadrático y se minimiza exactamente en cada dirección de búsqueda, tiene el
características deseables de convergencia en la mayoría de iteraciones porque sus direcciones

de búsqueda
son conjugados El método representa una mejora importante sobre el descenso más
empinado
con solo un incremento marginal en el esfuerzo computacional. Combina información actual
sobre el vector de gradiente con el de vectores de gradiente de iteraciones previas
(una función de memoria) para obtener la nueva dirección de búsqueda. Usted calcula el
dirección de búsqueda por una combinación lineal del gradiente actual y el anterior
dirección de búsqueda. La principal ventaja de este método es que requiere solo un pequeño
cantidad de información que se almacenará en cada etapa de cálculo y, por lo tanto, puede
aplicado a problemas muy grandes. Los pasos se enumeran aquí.
Paso 1. En x0 calcule f (xO). Dejar
Paso 2. Guardar Vf (xO) y calcular
minimizando f (x) con respecto aa en esa dirección (es decir, llevar a cabo unidimensional
buscar aO).
Paso 3. Calcule f (xl), Vf (xl). La nueva dirección de búsqueda es una combinación lineal
de so y Vf (xl): -,
Para la k-ésima iteración, la relación es
Para una función cuadrática se puede demostrar que estas direcciones de búsqueda sucesivas
son
conjugado. Después de n iteraciones (k = n), la función cuadrática se minimiza. Para
función no cuadrática, el procedimiento vuelve a ciclar con xn + 'convirtiéndose en xO.
Paso 4. Prueba de convergencia al mínimo de f (x). Si la convergencia no es
alcanzado, regrese al paso 3. '
Paso n. Termine el algoritmo cuando 11 Vf (xk) 11 es menor que algunos prekínder
tolerancia escrita.
Tenga en cuenta que si la relación de los productos internos de los gradientes de la etapa k + 1
relativa
para la etapa k es muy pequeña, el método de gradiente conjugado se comporta de forma muy
similar a
el método de descenso más empinado. Una dificultad es la dependencia lineal de las

direcciones de búsqueda,
que se puede resolver reiniciando periódicamente el gradiente conjugado
método con una búsqueda de descenso impregnado (paso 1). La prueba de que la ecuación
(6.6) rinde
las direcciones conjugadas y la convergencia cuadrática fueron dadas por Fletcher y Reeves
(1964)
Al hacer la búsqueda de línea, podemos minimizar una aproximación cuadrática en un

determinado
dirección de búsqueda. Esto significa que para calcular el valor de (I! Para la relación xk- '=
xk + preguntar debemos minimizar
f (x) = f (x k + preguntar) = f (xk) + VTf (xk) a sk + f (~ s ~ () xk ~) (Hosk) (6.7)
donde Axk = preguntar. PARA obtener el mínimo de f (xk + preguntar), diferenciamos la

ecuación
(6.3) con respecto a ay equiparar la derivada a cero
con el resultado
Para detalles adicionales sobre la aplicación de métodos de gradiente conjugado,
especialmente a problemas a gran escala y escasos, refiérase a Fletcher (1980), Gill et al.
Alabama. (1981), Dembo et al. (1982) y Nash y Sofer (1996).
6.3 MÉTODO DE NEWTON
Desde un punto de vista, la dirección de búsqueda del descenso más inclinado puede
interpretarse como
siendo ortogonal a una aproximación lineal (tangente a) de la función objetivo en
punto xk; examine la Figura 6.9a. Ahora supongamos que hacemos una aproximación
cuadrática
offlx) en xk
f (x) - f (xk) + VTf (xk) A xk + f (A J?) ~ H (xk) (6.10)
donde H (xk) es la matriz Hessiana de 'f (x) definida en el Capítulo 4 (la matriz de segundo
derivadas parciales con respecto a x evaluadas en xk). Entonces es posible tomar
en cuenta la curvatura de JTx) en xk para determinar una dirección de búsqueda como se

describe
mas tarde.
El método de Newton hace uso de la aproximación de segundo orden (cuadrática) de
Axe) en xk y, por lo tanto, emplea información de segundo orden sobre flx), es decir,
información
obtenido de las segundas derivadas parciales de flx) con respecto a la independiente
variables. Por lo tanto, es posible tener en cuenta la curvatura offlx) en
x e identificar mejores direcciones de búsqueda que las que se pueden obtener a través del
gradiente
método. Examine la Figura 6.9b.
El mínimo de la aproximación cuadrática de flx) en la ecuación (6.10) es
obtenido al diferenciar (6.10) con respecto a cada uno de los componentes de Axe y
equiparar las expresiones resultantes a cero para dar
v ~ (x) = v f (#) + H (xk) A xk = 0 (6.11)
donde [H (xk) 1-l es el inverso de la matriz Hessiana H (xk). Ecuación (6.12)
reduce a la ecuación (5.5) para una búsqueda unidimensional.

Tenga en cuenta que tanto la dirección como la longitud del paso se especifican como
resultado de la Ecuación
(6. l l). Si JTx) es realmente cuadrático, solo se requiere un paso para alcanzar el mínimo
offlx). Para una función objetivo no lineal general, sin embargo, el mínimo de
JTx) no se puede alcanzar en un solo paso, por lo que la ecuación (6.12) se puede modificar
para cumplir
a la Ecuación (6.7) introduciendo el parámetro para la longitud del paso en (6.12).
Observe que ahora se da la dirección de búsqueda s (para minimización) por
y que la longitud del paso es ak. La longitud del paso ak se puede evaluar numéricamente
como
descrito en el Capítulo 5. La ecuación (6.13) se aplica iterativamente hasta cierta terminación
los criterios están satisfechos Para la versión "pura" del método de Newton, a = 1 en cada
paso. Sin embargo, esta versión a menudo no converge si el punto inicial no está cerca
suficiente para un mínimo local.
CAPÍTULO 6: Optimización multivariable no restringida 199
También tenga en cuenta que para evaluar Ax en la ecuación (6.12), una inversión de matriz no
es necesariamente
necesario. Puedes tomar su precursor, Ecuación (6.1 I), y resolver los siguientes
conjunto de ecuaciones lineales para Axk
un procedimiento que a menudo conduce a un error de redondeo menor que el cálculo de s a

través de la inversión
de una matriz

1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1

Uploaded by

Copyright:

Available Formats

LA OPTIMIZACIÓN NUMÉRICA de funciones objetivo multivariables generales no lineales

requiere técnicas eficientes y robustas. La eficiencia es importante porque estos

los problemas requieren un procedimiento de solución iterativo, y se convierte en prueba y

una solución) es deseable porque una función no lineal general es impredecible en su

comportamiento; Puede haber máximos o mínimos relativos, puntos de silla de montar,

concavidad, y así sucesivamente. En algunas regiones, el algoritmo de optimización puede

progresar muy lentamente hacia el óptimo, lo que requiere un tiempo de computadora

podemos recurrir a una amplia experiencia en la prueba de programación no lineal

algoritmos para funciones no restringidas para evaluar diversos enfoques propuestos

la optimización de tales funciones.

En este capítulo discutimos la solución de la optimización sin restricciones

Encontrar: eso minimiza

En la iteración k, donde la corriente es xk, hacen lo siguiente:

1. Elija una dirección de búsqueda sk

2. Minimice en esa dirección (generalmente inexactamente) para encontrar un nuevo punto

proceso de optimización llamado búsqueda de línea como se describe en el Capítulo 5.

Además de 1 y 2, un algoritmo debe especificar

3. El vector de inicio inicial x0 = [x xs. . . norte; lt y

4. Los criterios de convergencia para la terminación.

Desde un punto de partida dado, se determina la dirección de búsqueda y se minimiza la

la dirección de búsqueda está determinada, seguida de otra búsqueda de línea. La búsqueda

principalmente en cómo generan las direcciones de búsqueda. Alguna programación no lineal

use derivados y confíe únicamente en evaluaciones de funciones. Además, diferencia finita

funciones diferenciables, métodos que usan análisis

menos tiempo de cálculo y son más precisos, incluso si la diferencia finita es

6: Optimización multivariable sin restricciones 183

usando un método basado en derivados. Primero describimos algunos simples no derivativos

también muestran cómo la naturaleza de la función objetivo influye en la efectividad de

el algoritmo de optimización particular.

6.1 MÉTODOS UTILIZANDO VALORES DE FUNCIÓN SOLAMENTE

Algunos métodos no requieren el uso de derivados para determinar la dirección de búsqueda.

En algunas circunstancias, los métodos descritos en esta sección se pueden usar

secciones Tienen la ventaja de ser simples de entender y ejecutar.

6.1.1 Búsqueda aleatoria

Un método de búsqueda aleatorio simplemente selecciona un vector inicial xO, evalúaflx) en

etapas, el valor de flxk) se compara con el mejor valor anterior de flx) de

entre las etapas anteriores, y se toma la decisión de continuar o terminar el

procedimiento Las variaciones de esta forma de búsqueda aleatoria implican seleccionar

método es ineficiente en lo que respecta a las evaluaciones de funciones, puede proporcionar

6.1.2 Búsqueda de cuadrícula

Los métodos de diseño experimental discutidos en la mayoría de los libros de estadísticas

puntos sobre un poi de referencia

6.1.3 Búsqueda univariante

Otra técnica de optimización simple es seleccionar n direcciones de búsqueda fijas

en cada dirección de búsqueda usando secuencialmente una búsqueda unidimensional. Esta

método es efectivo para una función cuadrática de la forma

El método de "Simplex secuencial" formulado por Spendley, Hext y

f (x). En dos dimensiones, la figura es un triángulo equilátero. Examine la figura 6.3. En

se muestra en la Figura 6.3), preservando la forma geométrica. La función objetivo es entonces

evaluado en el nuevo punto, y se determina una nueva dirección de búsqueda. El método

A medida que se aborda el óptimo, el último triángulo equilátero se extiende a lo óptimo

Figura 6.4). El procedimiento no puede acercarse al óptimo y se repite

continuamente durante la búsqueda. Su método minimizó una función de n variables

un código de computadora para ejecutar el algoritmo se puede encontrar en Avriel (1976).

6.1.5 Direcciones de búsqueda de conjugado

direcciones que las direcciones de búsqueda elegidas arbitrariamente, como en la búsqueda

incluso direcciones de búsqueda ortogonales. Se dice que dos direcciones si y sj son

con respecto a una matriz positiva definida Q si

En general, un conjunto de n direcciones de búsqueda linealmente independientes, entonces,

En optimización, la matriz Q es la matriz de Hesse de la función objetivo, H.

garantizado para alcanzar el mínimo de f (x) en n etapas si minimiza exactamente en cada

etapa (Dennis y Schnabel, 1996). En n dimensiones, muchos conjuntos diferentes de conjugado

una dirección inicial s1 y Q, s2 está completamente especificada como se ilustra en el ejemplo