You are on page 1of 13
Qliest#6- V. 8, n° 4 (desembre 1984) pp. 165-177 REVISION CRITICA DE LA UTILIZACION DEL METODO DEL GRADIENTE CONJUGADO Y EXTENSIONES EN LA MINIMIZACION DE FUNCIONES NOLINEALES CON CONDICIONES L. F ESCUDERO CENTRO DE INVESTIGACION UAM-IBM. In eate trabajo v¢ efeotiia una re rieitn de 1a aplioaatin det método det gradiente conjugado Gleeiado para resolver atatenae de eourctonee inealee) a la optinieaetén de fun Tineales (no cuadndtioas) an el aonfunto faotible defintdo por oondéatonee Lineales. dee~ oriben las deoventajas dé eu utilinasién; ae sugiere eu euatituoidn por algortimoe Guy precisando parecida eapasidad de monoria, nm adoiesen le eus tnoonvententes. Loe reaul tadoe computactonales que 86 aoompatn, avalan esta auatttucién. Keywords: REINITIALIZATION PRECONDITIONING. ‘L_INTRODUCCION Y MOTIVACION. Un problema de programacién nolineal sin con @ieiones (PNEC) consiate ons min{F(X) XeR") an tal que F(x) es una funcién nolineal con las siguientes propiedades: P(x) es continua y, al menos, dos veces diferenciable, y los ni- veles L(X) M(x:P(x)sF()) estan finitamente acotados y cerrados. El objetivo consiste en obtener un punto minino local aébil, sea ; es decir, un punto para el cual 360 tal que PG) sP(x) vEE || x-K|| <6 el gra~ diente de F(X) evaluado en % y G(%)= su ma $ris Hessiana. Una condicién suficiente para Kes que g(k)=0 y a°Garo waex-k notar que g(i)=0 y atéaro w ; BS preciso -K slo es condicion necesaria. BL método mas Clasico para obtener X es el método Newton que, dada una estimacién ini cial, sea x!°), obtiene una secuencia de di- recciones de bisqueda (a"*)) tal que para la iteraciGn k resuelve el sistema (1) 400. gD oa 8 1.2) tal que obtione 1a estimacién x'*), x GED 4 00,0 a3) QUASI-NEWTON METHODS WITH LIMITED MEMORY, donde a'*) e5 1a amplitud de paso en la ite rsci6n ky tal que minimiza P(X) on 1a aires cién al®), a » arg minir x) +00): a>0) (4) La resolucién de (1.4), denoninada bGsqueda Lineal_exacta, aungue no es tan compleja co- no minimizar F(X) todavia tiene una gran ai- fsoultad; alternativanente, se utilizan mé- todos de bGsqueda Lineal aproximada en los que para una direccién de bésqueda a%) su ficientemente descendente GeO) 7c fgP I, Ha Id 20 ans) donde o es una tolerancia positiva que evita que el gradiente y 1a direccién sean cuasi- ortogonales, el algoritno es globalnente con vergente si a'*) reduce suficientemente F(X) y, en concrete, #1 se cumplen /5/ las condi~ clones GPW: 6 eeD, 404005400 =ng(@D yf gO ae 0, alternativamente /15/, si el gradiente es Aifieil 6 costoso de calcular, = Lit. Escudero - Contro de tnvestigaciGn UM-IBM ~ P°cactellana, 4 — Madeia 1 = Article rebut el embre de 1982 165 Qliest#6 - V. 8, n° 4 (desembre 1984) 2x 4 ey ex) 4 yyy) Ly a7) donde v es una scalar tai que d0, ya que si se premul- tiplica (2.2) por og") resulta DFM | {ODE MD, 6Cle1) D1) (2.12) nyt (he 0, g(t 2) Eq ten) xe Para n, ae) oy puede ser tal que ~ es descen dente; para n>0, (2.12) sea nonegative. Sea o un escalar po- sitive suficientenente pequefo, y 3K"), a) y BY jos vaiores relatives al punto X02), GOD QOD 4a) gue GOED) Ge1) tor posible de a"); ge aamite 3°) como la amplitud de paso en 1a iteracién k-1 si, adenfs de cunplir las condiciones GPM, se tisface ODA GOD 4, 2], ratrsy Ee preciso notar que no es necesario obtener K) ) glen egie y ya que § se obtienen en base a explicitamente di Wa® yy, NSM TEOD (2g), GOV EQGeD Ia") || ,; ver (2.13). valor tipico 0, pes ei 1fmite néxim permisible para maticener la factibilidad de 1a nueva so lucién /8/. Entonces, es posible que no exis ta ningtin valor de qque, satisfaciendo las (4) 54,08) ee donde a, condiciones GPW, Cunpla la condicién (2.13), y adends sea factible. En este caso, una al- tornativa consiste en reinicializar el algo- he) ag (1 (6) og DD ritmo con lo que provocarfa una convergencia més lenta. Denominenos algoritms del gradiente conjuga~ do tradicional (7C6) al algoritne del gra~ @iente conjugado con (2.2), (2.9), condicio~ nes GPW y (2.13), y la reinicializacién - (2.11) después de un ciclo de n iteraciones © cuando a'*) no satisfaga dichas condicio— nes. Dicho algoritmo tiene una convergencia cuasi-Lineal tal que requiere entre n y Sn iteraciones para obtener #, siendo tfpico - an. ORL Gi TE ‘DIRECCION DE REINICIALIZACION. Aungue F(X) es monotonanente decreciente en el algoritmo 76¢, 1a reduccién en F(x) es frecuentenente pobre cuando se utiliza (2.11) fen comparacién con e1 caso en el que la re- inicializacién no hubiese tenido lugar. Pa~ race mis interesante reinicializar a) con a1), ora bien, una dixeccién inteial ar bitraria no garantiza la terminackén cuadré- tea para F(X) cuadr&tica ya que las direc~ ciones no estén conjugadas. Se demuestra /1/ que dada una direccin inicial arbitraria - a"), tos vectores al!) y 22D 4 ODODE yan en con 8%") (2,9) y, analogamente, 7 © the: 3 OD ay MEGMD yD) egegn mutuan mente conjugados. Exterdiendo esta £6rmula - al caso general nolineal, resulta 168 Qliestts- v, 8, n2 4 (desembre 1984) a 2 gO 3.2) a) 2g) 4 pa para tetynydny.eey im (3.3) a. gD ge DQD , C140) o) para te3,...ymmt2,.04,205. ints... G4), aonde 8'*) y 61) ge expresardn segin (2.9) - © ee © ye ODay (EGO), CEDEQCED, Q(t og ae Gixeccign de reinicializacign del nuevo ci~ clo itl, y es la Gitima direccién obtenida en el ciclo i. Se obtienen mejores resultados si s't) 50D (2.9), pero y gon 1a soluci6n del sistema lineal ~ (5 ‘(hely (te) Nee women — 0 ]\ en _f yevF geen) (gD De esta forma se asegura que a'*) es ortego- (2) ey), aunque Fon nal ay ey arGtica. Hl sistema (3.5) se resuelve por sus (e) Ey Qe-1) sigue obteniendo con yD 5) titucién simple ya que y a la forma en que se han obtenido ¢ k=3,n02, y BO?) y yR2) pare k=4,. Hint3;.ee,(Lel)n. Por tanto, ¥ nto resulta modificado por uti- y en god) mino corrector. vine, fiynt3, 244, 2n, (ee) Lazar (3.5) se introduce un tér- Se sugiere inicializar un nuevo ciclo 1+1 con a) (ver mis abajo) si se satisface alguna - de las siguientes condiciones: (4) Se han obtenido n direccsones de bésqueda en el ciclo anterior. Ck)" eet 2 GD [2M | oo 21 (3.6) donde py debe ser positiva; valor tfpico, ~~ pgr.2.” Su motivacién /21/ consiste en 1a - oFtogonalidad de los gradientes para F(X) - cuadratica y blaqueda Lineal exacts. aay an ket “1/2 DEY og gD | donde py debe ser positivo; valor t{pico, ~~ pqs0-8. En este caso se supone que a") no es suficiente descendente (av) 7D 44) crKD 44a) (3,8) aonde a") se ha obtenido utilizando (2.2)- es 1a correspondiente amplitud de paso que debe satisfacer las condiciones - cow y (2.13) para a) cal®), Es preciso notar que g(t) —-g(R°0 4g (Ho) gk) debe ser una direcci6n descendente; por tanto si no se satisface la condici6n (3.2) ing"), para ~ al"), se reinicializa a‘*) Tal cono se ha indicado, el néimero de itera ciones para obtener & si F(X) es cuadr&tica,~ G es spd y Las direcciones estin conjugadas ~ es men, donde mg es el nnero de valores pro- pios diferentes en G. For tanto 1a convergen- cla ser& superior i se sustitue el problema original por otro equivalente en el que para a nueva matriz, sea R resulta que mgtmg. EL concepto de pracondicionaniento /2/ consiste en obtener dicha transformacién. La natriz - Precondicionante W que mejores resultados nos hha dado al optimizar una funcién nolineal ge- nora: (equilibrado precisién, tiempo de célcu to y memoria requerida) es 1a aproxinacién ~~ Atagonal 5") ge 1a actualizacién BFGS Qua- si-Newton de la matriz Hessiena G*!), tar gue 14/ 50) BO gD, ety? 5p 3 1 ae soo (3.9) para t=1,...)n y kel. Las operaciones a efectuar en 1a iteracién ke1 de los algoritmos del gradiente conjuga~ do tradicional precondicionado PTCG y del - gradiente conjugado con reinicializacién PRCG son las siguientes: Algoritmo preg Obtener (KD, yg (lel). _(k-D 0D, dye O?) Asignar <%= + feDy ionde a) 6 0 para ke donde ¢ ae ony £09 2 GODEGD, jyODEQOD) pare pot Asignar® x) 2 x0) 4 gq 169 Qliest#'s - V.8,n2 4 (desembre 1984) Algoritmo PROG Askgnar 40 2 AMD, Dyed, Ce) Asignar x. xD, 09400 aonae 2") se obtiene en (3.10), 8°) se- obtiene como en (3.11) y BORN y yO ge obtienen en (3.5) donde g es sustituido por 2 JAS T-NEWTON 7 La formula aPGS para la actualizacién de ia matrix Hessiana G*"!) ests conside~ rada como una de las formulaciones mas esta~ bles de la familia Quasi-Newton /6/. 09, GF yD 4 y1) 0 0" pO yO A aged - pO AC eck Wd Ao 00, oF 0 uo eee aay ta matriz #*) es spa si x!) tanbign lo es © y st p\*)" yl®)s0, raciimente se puede obser- var que las condiciones GPW satisfacen la Gl- tina condici6n. Por tanto, si (a) 4°) es spa (se utiliza normalmente una matriz diagonal y, la mayorfa de las veces, la matriz identi- dad), (b) se utiliza la formilaci6n (4.1), y (c) 1a ampiitud de paso a *) ce obtiene me~ ~ diante una bisqueda Lineal aproximada tal que se satisfagan lac condiciones GPW, el algorit. mo produce direcctones de bisqueda monotona~ mente descendentes, al mencs teoricanente, -~ con una convergencia superlineal (ver e.g.-~ /a/, /4/). Rrora bien, en problemas de gran escala (n>300), ya que requiere almacenar n(n+1)/2 elementos su utilizaci6n es prohibitiva ¥ resolver un sistema de n ecuaciones. Se demuestra /17/ que el algoritm basado en La actualizacién BFGS (4.1) y en una bGsque~ da Lineal exacta produce las misnas directo, es de bfisqueda que el algoritme PICG, si en Sste, on vez de utilizar una matriz precondi- cionante fija W, se actualiza esta matriz con cualquier formula de la subfamilia de métodos Quasi-Newton, denominada familia Broyden (ver fe. /6/). Bsta interpretacién mativa la uti- Lizaci6n de algoritmos que mejoren el ritmo - de convergencia de los algoritmos basados en el gradiente conjugado y, aunque exijan mayor capacidad de memoria en un ordenador, no ado- lezcan del inconveniente de los nétodos Qua~ si-Newton: memoria para almacenar una matriz sinétrica n-dimensional y resolucién del co- rrespondiente sistema de n-ecuaciones; estos algoritmos (ver /2/,AMO/) /1 /, /18/, /19/1~ entre otros) se denominan métodos Quasi-New- ton con Memoria Limitada (LSQN) tal que s61o se utilizan las Gltimas, sea m iteraciones — para la obtenci6n (no explicita) de la apro~ ximaci6n BFGS (4.1), La formulacion a(*) (4.1) es una funcién en HOD, pO Vl) y por tanto, HO ae (HO) i), ty} eal que 1a direceién Quasi- Newton de bisqueda 4!*Lag M901) puede expresarse como una combinacién lineal de vectores obtenidos en las iteraciones ante- siores: x49) y g(3) para $90,1,2,..0¢k-1, ~ sin necesitar almacenar ninguna matriz. Los mtodos ISON utilizan s6lo las m Gltimas ite raciones, tal que al). eb CoD ROD ZOD 2 Gq G-D,G-D, yleD, GoD, GD, OSH) (k-1) wer, OD, em Come), yiemitd, 4. Cla) 1) = 2 cx(aD OD, yClom-D), (lem) Ce-ad donde cl es 1a abreviatura de "combinacién ~ Lineal" y nORL) aye + Normalmente, W=I; en 1a Sec. 5 se recogen los resultados obteni~ k-1) dos utilizando 1a matriz diagonar BOTH - _ (3,3). Bs preciso notar que BUY), para Sek-1,...,kom 1 se obtione de forma angloga al procedimiento (4,2) utilizade para obte- ner BOD (kel) Se puede observar que los métodos LSQN no~~ reauieren una gran capacidad de memoria para valores razonables de m; en la Sec. 5 se re~ 123k Este tipo de métodostiene alguna de las pro- cogen los resultados cbtenidos para piedades de los métodos Quasi-Newton tal que (OU os spa ty, por tan to, 1a direccién de basqueda a*) es descen- la matriz implfeiea # dente) si la matriz Wes spd y e.g. se satis facen las condiciones GPW. La direceién LSQN 170 Qilesti¥6- V. 8,2 4 (desembre 1984) para m=} es una direccign PTCG, si se utiliza la f6rmula BFGS (4.1) para obtener a") en~ (4.2) y se efectta una bGsqueda lineal exacta para obtener a"), ua convergencia de los = métodos LSQN se incrementa con el parametro- my pero también se incrementan las necesida- des de almacenaniento y el tiempo de computa~ ction, Para m2; slo se precisan 7 vectores - con dimensiGn n adens del espacio requerido por 1a matriz W (normalmente, diagonal) /40/, /M1/; #1 balance entre necesidades de alnace- namiento y tiempo de computacién parece ade~ cuado (ver Sec. 5). Independientemente del tipo de convergencia, 1a principal ventaja de los métodos LSQN so- bre los métodos PTCG en progranacién nolineal. con condiciones (PNCC) consiste en que s6lo exigen que W sea una matriz spd y e.g. las ~ condiciones GPW se satisfagan para - ~~~ 2 gl), S ™ sai"); 1a matriz W, obtenida con la - formulacién (3.9), es spd y, para valores - apropiados de nen (1.6), 1a amplitud de ps so factible satisface las condiciones GPt por tanto, 1a direccién de basqueda es sien pre descendente. 5. ANALISIS COMPUTACIONAL Bn esta seccién se recogen los principales resultados del andlisis nunérico efectuado con los métodos del gradiente conjugado en base @ los tres problemas reales descritos en fo/, /11/; ver también 1a tabla. Los problemas T y IT consisten en 1a optimiza cin de 1a explotacién de un sistema de ge~ neraci6n eléctrica por medios hidréulicos en el que las condiciones son de dos tipos: ecuaciones do denanda eléctrica, y de balan ce multiperiods multireserva de flujo de - agua. Bl Problema ITI es uns aproximacién - Lagrangiana de un sistema de flujo 6ptino - eléctrico en el que la funci6n de pérdidas~ se incorpora a la funcién objetivo. Fl Pro- blena I es muy estable; los otros dos proble mas son altamente inestables. El Problena 1 es de escala reducida, el Problema II es de super-escala, y el Problema ITI es de supra~ escala; ver Sec. 1. Bn todos los problemas - el gradiente es analfticamente evaluado, pe~ ro no asi la matriz Hessiana. Se ha efectuado el andlisis conputacional con la metodologsa de un algoritno de Puce /3/, tai que ei problena consiste en nin (700 |Beax=p, 2x21) (6.1) donde Aes 1a matrix man de condiciones, ~~ 5 y b son, respectivanente, los vectores - - independsentes superior © inferior, y Uy L son los vectores que acotan el vector solu= cién x, ta direceton de Pésqueda d para 1a ~ iteracign k se ha obteniéo en base @ 1a me~ todologia de Murtagh-Saunders (ver e.9./14/). tal ave ieee! (5.2) donde dg es 1a direccién reduciaa do bGsoue~ 4a (también denoninada direccién superbiei- ca) y % es una matriz meng tal que para cual~ guier vector 4, garantiza que A (eet) Ys por tanto, el nuevo punto x: tad es facti- ble; ng e6 1a dimensign de dg. Fu le metodclogia utilizada, se optiene dg ~ tal que sea una direcci6n de bOaqueda susi- clentanente descendente en ¢1 problema Fay = PROD) 4M ay ryrsteDas ocila,) = FOOD) Fass aratnas tocliadl,) 5.3) donde h (gradiente reducido) y # (hessiana ~ reducida) que se obtienen utilizando (5.2) tal = geen, bee (6.4) ge 2heDz (3.5) Los métodos utilizados para obtener ds en ca da iteracién son los siguiente: (1) Método RoW. Se basa en 1a actualizacton~ @el factor R de Cholesky de 1a aproxina e46n BPGS Quasi-Nevton de le matriz (wer e.g. /6/, /4/), tar que ag #9 obticne resolviendo el sistena a'Rigo-h. Bot disetiado para problenas ~ 4e encala reducida, Ver los detalles en A). (44) Método PRIN. Est& bacado en el precondi- cionamiento diagonal de 1a matriz #, tal ave dg se obtiene resolviendo el sistema in Qllesti's - V. 8, n° 4 (desembre 1984) TABLA L Dimensiones del. problema igen fe warianion A) | oomine @] te Problema, Gy o ay Teena Nor Tinea: a cS cc ©) 1 | xl] | | se | a | wf a | 26) er] os x sesfoafus | | a6 | 4 | af ae | sozless |e mx |r forfire fn | as | | ef as | ersfeno| or (2) Mizero de condiciones (2) Nimero de condiciones de igualdad (3) Nénexo de variables (@) Ninero de condiciones activar en el éptine local £ (5) Nomero de variables activas en el 6ptino local £ TABLA 2 Resultados en el Problena T wévode | uien | mits | 6 | Tieapo crv @ | oO | @ | Gees) Rak ws] - | 276 4.02 eee | 90] 204 | 363 475 RG aol - | oe 13.79 rece | 382] - | os 12.33 eR sos] - | 795 16.83 ercr | az] - | 683 14.82 pris | 2eef - | «87 10.62 pres | zr) - | 47s 11.36 pass | 2a2] - | 460 13.56 prs | 302] - | 452 13.86 wrasa | zi0f - | 396 9.74 (6) Nimero de iteraciones externas. Una iteraciéa externa consiste en 1a obeencién de dg, d, ay por tanto, el muevo punto X. (7) Wimero de iteraciones internas. Una iteraciGn interna, sea i en tna iteracién externa dads, sea k consiste en las qpgraciones fefectuar para la obtencisn de ly estimaciGn, sea dg” de le ~ - ireceién dg. La estimacién a(°) para 1a Gitina itéeaciéa interna {en una” d2eraciGn externa cEnsiste precisanente en 1a direccién Gg de Ls iteracién externa considerada, Ver los detalles en /9/. (®) NGnero de evaluaciones de 1a funeién objetivo 6 del gradiente (9) EL nGmero total de evaluaciones FO serd (7) + (8). 172 Qliest##6- V. 8, n 4 (desembre 1984) TABLA 3 Resultados en el Problems 11 toda | Wes | aia | FG] Tiempo OU @ | a (8) | Ginutos) eae] aa | 7334 | 380 33.42 ROE eo || aes war prec | sexe | - | azisz 79.87 TOR e803} - | 16132 129.58 ren | sisi | - | 15252 103.52 vais | seve | - | r0869 66.25, vrs | 5304] - | r0%60 68.43 prss | suoz| - | 0213 maz pris | sass] - | 9046 73.41 rrasa | 432 | - | saat 42.81 nama Resultados en el Probe 112 ee oc | & | Gintos) wee | sant [eas aah. ace | sve | 13760 | 20.67 ren} szes2 | see28 | 67.22 | rte | seoi2 farsa | aso.s6 pris | ose | 12680 102.58 | Jrnas | vasa | azine | 0.02 Jes | sous fauisio | tos. Jous | cose fuss | soe.et PRA yea2 | aai37 | 83.23 Qliest#6 - V. 8, n° 4 (desembre 1984) -) con el métode Newton-Truncado. Se natriz (3.3) como la matriz ~ precondicionante W, Est disenado para ~ oroblenas de super-escala. Ver los a Lies en /3 (LLL) MBtodo RCG (gradiente con} zaci6n) y PRCG (RCG pre do) tal que W ge obtiene clon (3.9)). Ver Sec. 3. (iv) NB onal) y PICG (TCG precondicionado) tal BCG (gradiente conjugado tradi- que W se obtiene con la formulacién - ~ (3.9)). Ver Sec, 3. &5 preciso notar que los m&todos indicados en (444) y (iv) no precisan resolver ningin sistera de equa clones (programa cuadratico); en su lu~ gar utilizan las fOrmulas descritas en la sec. 3 para PNSC, pero sustituyendo - g (gradiente) por h (gradiente reducido) yd (ireccién de busqueda) por a, ( ai- reccién superbisica) . (v) Métodos PRIS, PR2S, PRIS y PRES. Eetan — basados en 1a metodologta Quasi-Newton ~ con Memoria Limitada tal que m=1,2,3,4 = en PRnS. La matriz diagonal precondicio- nante se obtiene con la formulacién (3.9) ver Sec. 4 (vimétodo PA28A. sasicamente es el mismo nf to de reinictaitzacién x") por et pun to xf!) tat que res ia iteracién de rei nictaiizaciéa. Ver los detalles en /6/, aM Todos los métodos se han probado en el Pro- - blema I, Dado que el nétodo RON esté diseta~ do para problenas de escala reducida, s610 - Se ha podide probar en el Problema I. Por ra zones anSlogas, ol métode PRIN s6lo se ha probade en los problemas T y 17. Las tablas 2,3 y 4 recogen los resultados computaciona les obtenides, respectivamente, en los Pro-~ biemas I, tr y TIT. Bl experimento se ha efectuado en un sistema IBM 370/158 con 8MB de memoria real, 3MB de menoria virtual, utilizando VN/CMS, las ruti- nas auxiliares del sistema IBM MPS¥/370 y el conpilador PL/t OPT(2). La Tabla 2 muestra que cuando la capacidad de memoria requerida para almacenar el fac~ tor Rde la matriz 4 no es un gran inconve~ niente, 1a metodologia basada en la aproxi- maciOn Quasi-Newton todavia es la que ofre- ce mejores resultados, principalnente cuan- do 1a comparacién se efectia en base al nG- mero de evaluaciones de 1a funcién objetivo y el gradiente. Es preciso destacar que ca~ da iteracién interna para obtener la direc eign dg en el método PRIN require una evalua ci6n adicional del gradiente ya que la ma- triz Hessiana reducida # no se obtiene expli citamente. Es preciso destacar que el tiempo requerido en e1 método RON para actualizar ~ el factor Ry resolver el sistema R'Rdg=-h - Gomina e1 tiempo invertido en la evaluacién de 1a funci6n objetivo y gradiente. Los Problemas II y IIT son muy inestables y, dadas sus dimensiones, no se puede utilizar el método RON en su resoluci6n. £1 Problema HE no tiene una densidad muy alta y todavia permite la utilizaci6n del método PRIN. Sus resultados son my satisfactorios. Ver en ~ /9/ e2 procedimiento en e1 que ventajosanen te se explota 1a baja densidad en las matri- cos Ay G. Bl Problema ITT es de gran dimensién y, por tanto, no se puede utilizar los métodos RON y PRIN. Analizando los resultados de los mé~ todos basados en el gradiente conjugado, se puede observar que el método 1G ofrece re- sultados muy pobres; su precondicionamiento con 1a matriz diagonal (3.9) mejora su con- vergencia, pero en cualquier caso sus resul- tados todavia no son aceptables. Los nétodos RCG y PRCG mejoran la convergencia, pero to~ @avia el tiempo de’ c&lculo es prohibitivo en problemas de grandes dimensiones. Del andlisis de los resultados de los méto- dos PRnS aplicades a la resolucién de los’ -~ tres casos, se puede obtener las siguientes conclusiones. Los m&todos Quasi-Newton con menoria limitada tienen una convergencia nas. rfpida que los métodos basados en el gradien te conjugado. No es evidente que para mayo-~ res valores de m, 1a convergencia sea nfs ré pida ya que si el nfimero de evaluaciones de la funcién objetivo y gradiente decrece a - medida que se aunenta el valor de m, también se incrementa (aunque sea ligeramente) el nd am Qliests'6 - V. 8,2 4 (desembre 1984), nero de iteraciones y, por otra parte, se ~~ increnentan las necesidades de memoria y el nGnero de operaciones a efectuar con el pro cedimiento (4.2) para obtener la direccién a, en cada iteraci6n. Parece que m=2 equild, bra anbos tipos de condiciones. método PR2SA es el método que ofrece me~ jores resultados en el Problema 11: crementa considerablemente la capacidad de meroria requerida por el método PRIS. Para la obtencién de la direccién d, s6lc preci~ Gy nD) 98, sa los vectores x{3) y n{J) para jsk-1,k-2 yr (donde r es la iteracién de reiniciali~ zaci6n), y 1a matriz diagonal 6°") a obte ner con la formulacién (3.9) donde - - - ~- 0 ay OR) ap HDD 00g 9 () g (KD () ny tar que g se sustituye por alk) y a\*)' se sustituye - por af"), Se puede observar que 1a tnica ai ferencia entre los nétodos PR25 y PRISA ra~ dica en que en el procedimiento (4.2) utili zado para obtener a{*) et vector pl?) e(ke2) yt 3) oo) xs (4-2) 02) (fe?) x0) on vx2sa, donde « tie ne la expresi6n fen PRIS - y la expresion x GU, ‘S xf) af para a tteracton 4. Ver en /1/ los crite- ios para doterninar la iteracién + (denon nada SteraciGa de reinicializacién) ; el cb= Jetivo en la sustitucion de x{*"2) por xi®) consiste en evitar el caso my frecuente de pasos pequefios sucesivos {a'J)q‘3)} que se producen cuando 1a direceién de bisqueda se ebtiene con los nétodos basados en el gra dente conjugedo y extensiones (nétodo Qua- si-Newton con Memoria Limitada) . 6. CONCLUSION Bn este trabajo se ha efectuado una revisi6n critica de la utilizaci6n de los métodos del, gradiente conjugado en 1a optimizacién de - luna funci6n nolineal (no necesariamente cua~ Gratica) con condiciones lineales. Del andiisis computacional recogido en 1a - Sec. 5 se puede deducir que el precondicio~ namiento del gradiente (incluso con una ma triz diagonal) aunque no produce cambios ~~ drasticos en 1a convergencia de los diver 05 algoritnos, sus resultados son siempre - nds satisfactorios gue en el caso de no-pre condicionamiento. ~ BL mBtodo del gradiente conjugado tradicional ofrece peores resultados que el método del- gradiente conjugado con reinicializacién. Bxisten indicios de que esta diferencia se puede incrementar en el caso de 1a optimiza ci6n de una funcién nolineal sin restriccio- nes, dado que la reinicializaci6n basada ex- clusivanente en el gradiente reducido se pro ducirfa en menor nGnero de iteraciones al no exigir que la amplitud de paso produzca un punto que pertenezca a un subconjunto dado del espacio R” (conjunto factible) . Bn base al desarrollo efectuado en las sec~ ciones anteriores (avalado por 1a experimen- tacin computacional cuyos resultados se re~ cogen en la Sec. 5), los algoritmos del gra~ lente conjugado tienen los tres siguientes grandes inconvenientes para su utilizacién - en progranaci6n nolineal con condiciones. Ba sados en ellos, desaconsejamos su sustitucién por el algoritmo PRISA. (2) Cuando 1a evaluacién del gradients ox muy costosa, o su aproximacién por clas finitas es también costosa, 1a condi ai feren- cién (2.13) para obtener una direccién ~~ descendente supone un esfuerzo excesivo en cada iteracién. (2) BL 1fmite superior impuesto en la ampli- tud de paso tal que el nuevo punto sea ~ factible puede provocar 1a imposibilidad de cunplir las condiciones que garant: zan que la direceién de bisqueda es des~ cendente y 1a amplitud de paso reduce su ficientenente el valor de 1a funcién ob- Jetivo (e.g., condiciones GPW y (2-13)). La correspondiente reinicializacién basa da exclusivamente en el gradiente reduci do produce una convergencia lenta. (3) No se puede utilizar, en un cambio de ba se, la informacién obtenida en iteracio- nes anteriores. La reinicializaci6n, por tanto, debe efectuarse unicanente con el gradiente reducido. En fif/, /14/ se describe el algoritmo PRISA tal que sin requérir 1a capacidad de almace- nanlento de los métodos Quasi-Newton, no ext ge La condicién (2.13) en la amplittud de pa~ 50 para obtener una direccién descendente y, adenis, utii.ea ia informaci6n obtenida en Qllestii6 - V. 8, n= 4 (desembre 1984) iteraciones anteriores aungue haya un cam bio de base. ‘Z_AGRADECIMIENTO. EL autor agradece al examinador anénimo las nunerosas sugerencias efectuadas para la me jor presentaci6n y clarificacién de muchos de los conceptos y opiniones vertides en es te trabajo. ‘8, BIBLLOGRAFIA. DS BML. BEALE, + gradients" 1 ‘A direction of conjugate + F-R. Lootsma (ed.), merical methods for nonlinear optimiza tion" aaa Academic Press, Londres, (1972) . /2/ B.G. BUCKLEY,: "A combined conjugate - gradient Quasi-Newton minimization al- - gorithm" Mathematical Programming 15/-— 200-210 (1978) (/3/ A. BUCKLEY y A. LENIR,: "QN-like vari~ able storage conjugate gradient", Na~ — (1983) thematical Programming 27, 155-175 /A/ RS. DEMBO, STETHAUG, Newton algorithm for large-scale un- yt "Truncated constrained optimization", Mathematical Programming, 23, 190-212, (1983). 75/ WCW. DIXON, cal optimization", ent “Introduction to nuneri- L.W.C, Dixon et. al. (eds.}/"Nonlinear optimization" ~~ - Birkhauser, Londres, 1-29 (1980). /6/ U.P. BSCUDERO,: "On Hessian matrices in unconstrained optimization", IBM Scien~ tific Center report 6320-3416, Palo Alto (california), (1980). J La. method for nonlinear programming", TBM - Scientific Center report 6320-3407, Palo Alto (California), (1980) . ESCUDERO,: "A projected Lagrangian /8/ BaP. ESCUDERO, scale quadrat "an algorithm for large programming and its ex- tensions to the linearly constrained -~ case", IBM Scientific Center report ~ SCR-01.81, Madria (1981). /9/ U.P. ESCUDERO,: “On diagonally precondi- tioning the Truncated Newton method for super-scale problems in linearly cons~ - trained nonlinear programming, QUESTIZ0 6, 261-281 (1982), /AO/ &.F. BSCUDERO,: "On @lagonally precondi~ tioning the 2-step BGS method with ac- cumulated step for linearly constrained nonlinear programming. Method PRISA", - - European J. of Operational Research 18, 259-274 (1984). /11/ &.F. ESCUDERO,: "Computational analysis of the method PR2SA for linearly cons~ - trained nonlinear programming", European J. of Operational Research, aparecera. /12/ R. FUBTCHER,: "Unconstrained optimiza - tion" Wiley, Londres, (1980). (13/ R. PLBTCHER y C.M. REEVES, ¢ minimization by conjugate gradients", Computer J. 7, 149-154 (1964). "Punction AS/ PE. GILL, W. MURRAY y Moll. WRIGHT, - -- “practical Optimization", Academic Press, Londres, (1981). /'S/ PoE. GILL, We MURRAY y M.H. WRIGHT, note on a sufficient decrease for a non- derivate step-length procedure", Mathema~ tical Programming 23, 249-352 (1982). /\6/ M.R. HESTENES y B. STIEFEL, conjugate gradients for solving linear - “Wethods of systems", J. Res. Nat. Bur. Standards - Sec. B 4B, 409-436 (1952). /17/ L. NADARBRH, + "A relationship between the BFGS and conjugate cradient algorithms ~~ and its implications for new algorithas,. SIAM J. of Numerical Analysis 16, 794- 800, (1973). /)8/ L. NAZARETH y J. NOCEDAL,: "Conjugate 4i- rection methods with variable storage, -- Mathematical Programming 23, 326-340 (1982). /19/ 3. NOCEDAL,: "Updating Quasi-Newton me: trices with limited storage", Mathematics of Computations 35, 773-782. (1980). 176 Qllest¥6.- V. 8, n 4 (desembre 1984) 720/ py B. POLAK and G. RIBIERE,:"Note sur le convergence de methodes de directions conjuguees", Rev. Fran. Infor. Rech. oper. 16, 35-43 (1969). M.J.D. POWELL, the conjugate eradient method", Mathe- i*Restart procedures for matical Programming 12, 241-254 (1977).

You might also like