Livro PNL

UM CURSO DE OTIMIZAC
AO
Ademir Alves Ribeiro
Elizabeth Wegner Karas
Curitiba
2011
Sumario
Prefacio 1
Introducao 2
1 Revisao de Conceitos 4
1.1 Sequencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Denicoes e resultados cl assicos . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Ordem de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Noc oes de topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Resultados de algebra linear . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 F ormula de Taylor e teorema da func ao implcita . . . . . . . . . . . . . . 16
1.5 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 Introducao à Otimizacao 25
2.1 O problema de otimiza cao . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Condic oes de otimalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Convexidade 34
3.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Func oes convexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Algoritmos 44
4.1 Algoritmos de descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Metodos de busca unidirecional . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.1 Busca exata - metodo da se cao aurea . . . . . . . . . . . . . . . . . 47
4.2.2 Busca inexata - condicao de Armijo . . . . . . . . . . . . . . . . . . 52
4.3 Convergencia global de algoritmos . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Convergencia global de algoritmos de descida . . . . . . . . . . . . 55
4.3.2 Teorema de Polak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
ii
5 Metodos de Otimizacao Irrestrita 61
5.1 Metodo do gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.2 Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1.3 Velocidade de convergencia . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.2.1 Motivac ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.3 Metodo de direc oes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . 71
5.3.1 Direcoes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3.2 Algoritmo de gradientes conjugados . . . . . . . . . . . . . . . . . . 75
5.3.3 Extensao para funcoes n ao quadr aticas . . . . . . . . . . . . . . . . 78
5.3.4 Complexidade algortmica . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 Metodos quase-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.4.1 O algoritmo b asico . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4.2 O metodo DFP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4.3 O metodo BFGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.5 Metodo de regi ao de conanca . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.5.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.5.2 O passo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.5.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.5.4 O metodo dogleg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.5 O metodo GC-Steihaug . . . . . . . . . . . . . . . . . . . . . . . . . 103
6 Implementacao Computacional 108
6.1 Banco de funcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.2 Implementacao dos algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.3 Compara cao de diferentes algoritmos . . . . . . . . . . . . . . . . . . . . . 113
6.4 Outras discussoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7 Otimizacao com Restric oes 118
7.1 Cones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.2 Condic oes de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . 125
7.2.1 O cone vi avel linearizado . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2.2 O cone gerado pelos gradientes das restric oes . . . . . . . . . . . . . 127
7.2.3 O cone tangente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.4 O teorema de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . 132
iii
7.2.5 A direc ao do gradiente projetado . . . . . . . . . . . . . . . . . . . 134
7.3 Condic oes de qualicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.3.1 Problemas com restric oes lineares . . . . . . . . . . . . . . . . . . . 137
7.3.2 Condicao de qualicac ao de Slater . . . . . . . . . . . . . . . . . . . 138
7.3.3 Condicao de qualicac ao de independencia linear . . . . . . . . . . 139
7.3.4 Condicao de qualicac ao de Mangasarian-Fromovitz . . . . . . . . . 140
7.4 Condic oes de otimalidade de segunda ordem . . . . . . . . . . . . . . . . . 143
7.4.1 Problemas com restric oes de igualdade . . . . . . . . . . . . . . . . 144
7.4.2 Problemas com restric oes de igualdade e desigualdade . . . . . . . . 146
8 Metodos para Otimizacao com Restric oes 155
8.1 Programacao quadratica sequencial . . . . . . . . . . . . . . . . . . . . . . 155
8.1.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.1.2 Convergencia local . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.2 Metodos de ltro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.2.1 O algoritmo geral de ltro . . . . . . . . . . . . . . . . . . . . . . . 162
8.2.2 Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Apendice: Dicas ou Soluc oes dos Exerccios 169
Referencias Bibliogracas 196
iv
Prefacio
O presente texto foi escrito com o prop osito de servir como material didatico
para um curso de otimizac ao. Procuramos abordar aspectos teoricos e computacionais.
Interpreta coes geometricas sao evocadas sempre que possvel com o auxlio de diversas
guras que aparecem no texto para ilustrar conceitos, exemplos e teoremas. A teoria de
otimizac ao com restric oes e apresentada com uma abordagem de cones que, alem de ter
um forte apelo geometrico, consideramos ser mais moderna.
Para um bom aproveitamento do livro, e desejavel que o estudante tenha co-
nhecimentos de

Algebra Linear e Analise no IR
n
. Alem disso, e importante dar especial
atenc ao aos varios exerccios que aparecem no nal de cada captulo. Muitos exerccios
servem para xar os conceitos, outros para vericar se o leitor consegue identicar e apli-
car certos conceitos para resolver um determinado problema e outros ainda servem para
complementar a teoria. Apresentamos, no nal do livro, dicas, soluc oes ou respostas de
alguns dos exerccios propostos. Entretanto, recomendamos fortemente que o estudante
tente fazer os exerccios antes de ver a soluc ao, pois e desta forma que o aprendizado
e bem sucedido. Este livro pode ser usado tanto em cursos de graduacao quanto na
p os-graduac ao. Entretanto, para alunos de graduac ao, que ainda n ao possuem uma certa
maturidade matematica, algumas sec oes podem ser omitidas, pois apresentam argumentos
mais elaborados.
Gostaramos de manifestar nossa imensa gratid ao ao Professor Cl ovis Caesar
Gonzaga, com quem aprendemos muito. Estamos certos que neste livro h a muito dele e
esperamos que estas paginas reitam sua maneira de fazer matem atica com simplicidade
e elegancia, de quem sempre busca uma forte motiva cao geometrica na abordagem dos
conceitos.
Agradecemos ` a Professora Sandra Augusta Santos, que tem nos apoiado em nossa
trajetoria academica e que contribuiu muito para a melhoria deste trabalho.
Tambem somos gratos aos nossos alunos que acompanharam o desenvolvimento
deste trabalho, atraves de semin arios e sugestoes: Flavia Fernandes, Gislaine Pericaro,
Karla Arsie, Leonardo Moreto, Paulo Conejo, Priscila Savulski, Rodrigo Eust aquio e
Tuanny Brufati.
Ademir e Elizabeth
Curitiba, 03 de Dezembro de 2011.
Introducao
Otimizac ao, direta ou indiretamente, faz parte do nosso dia a dia. Varios campos
da ciencia fazem uso das ferramentas apresentadas neste texto, com o objetivo de ajudar
na tomada de decisoes. Dentre eles, podemos citar a conabilidade estrutural, economia,
inform atica, logstica, medicina, processos ssmicos e transporte. Quase sempre o obje-
tivo e minimizar ou maximizar certa variavel, como o custo ou o lucro em determinado
processo.
Mais formalmente, podemos dizer que otimizac ao consiste em encontrar pontos
de mnimo ou de maximo de uma fun cao real sobre um conjunto IR
n
. Isto pode ser
colocado na forma
(P
)
minimizar f(x)
sujeito a x .
Em geral, o conjunto e denido por restric oes de igualdade e/ou desigualdade,
ou seja,
= x IR
n
[ c
E
(x) = 0, c
I
(x) 0,
onde c
E
: IR
n
IR
m
e c
I
: IR
n
IR
p
s ao func oes quaisquer. O problema de otimizac ao
pode entao ser reescrito como
(P)
minimizar f(x)
sujeito a c
E
(x) = 0
c
I
(x) 0,
Conforme as caractersticas do conjunto e as propriedades das func oes objetivo,
teremos os diferentes problemas de otimizac ao. Por exemplo, as fun coes envolvidas no
problema podem ser contnuas ou nao, diferenciaveis ou n ao, lineares ou n ao. O caso
particular em que a funcao objetivo e as func oes que denem s ao fun coes lineares e
conhecido como um Problema de Programacao Linear (PPL) e e resolvido por metodos
especcos [38], como o famoso Metodo Simplex. Esta abordagem nao sera tratada neste
trabalho. Estudaremos aqui problemas onde todas as func oes usadas para den-los sao
continuamente diferenci aveis e, normalmente, nao lineares, isto e, estudaremos o problema
geral de Programacao Nao Linear (PNL).
Um caso particular e o problema irrestrito, quando = IR
n
. O problema irrestrito
Introduc ao 3
pode ser considerado simples em comparac ao com o problema geral de PNL e o estudo de
suas propriedades bem como dos metodos que o resolvem e de fundamental import ancia
em otimiza cao, porque muitos metodos para resolver o problema geral de PNL fazem uso
dos metodos que resolvem o caso irrestrito.
E conhecido na literatura que se o conjunto vi avel e formado apenas por res-

tric oes de igualdade e x
e um minimizador, entao existe
IR
m
tal que
f(x
) +
m
i=1
i
c
i
(x
) = 0.
As componentes do vetor
s ao chamadas de Multiplicadores de Lagrange e a condi cao

acima e um resultado central na teoria de otimizacao.
Contudo, um pouco antes de 1950, foi observado que existiam aplica coes impor-
tantes nos problemas em que eram envolvidas restric oes representadas por desigualdades.
Por esta razao, alguns matem aticos tem desenvolvido metodos para tratar de problemas
com este tipo de restri coes. As primeiras condic oes de otimalidade neste sentido foram
estabelecidas por Fritz-John [24] em 1948 e depois por Kuhn e Tucker [27] em 1951. Mais
tarde foi descoberto que as condic oes de Kuhn-Tucker j a teriam sido estabelecidas por
W. Karush em 1939 em sua dissertac ao de mestrado, porem essa dissertac ao nunca foi
publicada, mas partes essenciais foram reproduzidas por Kuhn [28] em 1976. Assim as
condic oes de Kuhn-Tucker passaram a ser chamadas de condic oes de Karush-Kuhn-Tucker
(KKT).
Este trabalho apresenta o desenvolvimento teorico das condi coes de otimalidade
para o problema geral de otimizacao, bem como metodos iterativos para obter soluc oes.
Captulo 1
Revisao de Conceitos
Neste captulo apresentamos algumas deni coes b asicas e alguns resultados de
An alise e

Algebra Linear relevantes para este trabalho. As principais referencias deste
captulo s ao [21, 29, 30, 31].
1.1 Sequencias
Uma sequencia em IR
n
e uma aplicac ao k IN x
k
IR
n
, denida no conjunto
IN dos n umeros naturais. Denotaremos uma sequencia por (x
k
)
kIN
, ou simplesmente por
(x
k
). Por conveniencia, consideramos que IN = 0, 1, 2, 3, . . ..
1.1.1 Denicoes e resultados classicos
Denicao 1.1 Diz-se que o ponto x IR
n
e o limite da sequencia (x
k
) quando, para todo
> 0 dado, e possvel obter k
0
IN tal que
k k
0
|x
k
x| < .
Neste caso, tambem dizemos que a sequencia (x
k
) converge para x e indicamos este fato
por x
k
x ou lim
k
x
k
= x.
Vemos da Deni cao 1.1 que o ponto x IR
n
e o limite da sequencia (x
k
) se para
cada > 0, o conjunto IN
1
= k IN [ |x
k
x| e nito, ou seja, fora da bola B( x, )
s o poder ao estar, no maximo, os termos x
0
, . . . , x
k
0
1
.
Uma subsequencia de (x
k
) e a restric ao desta sequencia a um subconjunto innito
IN
= k
1
< k
2
< . . . < k
i
< . . . IN. Equivalentemente, uma subsequencia de (x
k
) e
uma sequencia do tipo (x
k
)
kIN
ou (x
k
i
)
iIN
, onde (k
i
)
iIN
e uma sequencia crescente de
inteiros positivos. Note que k
i
i, para todo i IN.
Teorema 1.2 Se uma sequencia (x
k
) converge para um limite x, entao toda subsequencia
(x
k
i
)
iIN
tambem converge para x.
4
Revis ao de Conceitos 5
Demonstracao. Dado > 0 existe um k
0
tal que para todo k > k
0
tem-se |x
k
x| < .
Como os ndices da subsequencia formam um subconjunto innito, existe entre eles um
k
i
0
k
0
. Ent ao para k
i
k
i
0
temos k
i
k
0
. Logo |x
k
i
x| < .
O limite de uma subsequencia (x
k
)
kIN
e chamado valor de aderencia ou ponto
de acumulac ao da sequencia (x
k
).
Exemplo 1.3 A sequencia x
k
= (1)
k
+
1
k + 1
tem dois pontos de acumulacao e portanto
nao e convergente.
De fato, temos x
2i
1 e x
2i+1
1.
Exemplo 1.4 A sequencia
_
1,
1
2
, 3,
1
4
, 5,
1
6
, . . .
_
tem um unico ponto de acumulacao. En-
tretanto, nao e convergente.
Exemplo 1.5 Considere uma sequencia (t
k
) IR tal que t
k

t > 0. Dado <

t, existe
k
0
IN tal que para k k
0
tem-se t
k
> .
De fato, para =

t > 0, existe k
0
IN tal que para k k
0
tem-se [t
k
t[ < . Assim,
t
k
> .
Denicao 1.6 Uma sequencia (x
k
) IR
n
e limitada, quando o conjunto formado pelos
seus elementos e limitado, ou seja, quando existe um n umero real M > 0 tal que |x
k
| M
para todo k IN.
Denicao 1.7 Seja (x
k
) IR uma sequencia limitada. Denimos o limite inferior da
sequencia (x
k
) como seu menor ponto de acumulacao e denotamos por liminf x
k
. Analo-
gamente denimos o limite superior da sequencia como seu maior ponto de acumulacao
e denotamos por limsup x
k
.
Exemplo 1.8 Determine liminf x
k
e limsup x
k
, sendo x
k
= (1)
k
+
1
k + 1
.
Como vimos no Exemplo 1.3, a sequencia (x
k
) tem somente dois pontos de acumulac ao,
1 = liminf x
k
e 1 = limsup x
k
.
Exemplo 1.9 Faca o mesmo para (x
k
) = (1, 2, 3, 1, 2, 3, . . .).
Neste caso temos liminf x
k
= 1 e limsup x
k
= 3.
Denicao 1.10 Sejam (v
k
) IR
n
e (
k
) IR 0 sequencias com
k
0. Dizemos
que v
k
= o(
k
) quando
v
k
k
0. Mais geralmente, considere g : J IR IR
n
com 0
sendo um ponto de acumulacao de J. Dizemos que g() = o() quando g(
k
) = o(
k
)
para toda sequencia (
k
) J com
k
0.
A seguir enunciaremos alguns resultados importantes. As demonstracoes podem
ser encontradas em [30, 31].
Teorema 1.11 Toda sequencia convergente e limitada.
Teorema 1.12 Toda sequencia (x
k
) IR monotona limitada e convergente.
Teorema 1.13 (Bolzano-Weierstrass) Toda sequencia limitada em IR
n
possui uma
subsequencia convergente.
Teorema 1.14 Uma sequencia limitada em IR
n
e convergente se, e somente se, possui
um unico ponto de acumulacao.
`
A luz do Teorema 1.14, reveja o Exemplo 1.4.
O proximo resultado ser a util na an alise da convergencia de algoritmos, que tra-
taremos no Captulo 4.
Teorema 1.15 Seja (x
k
) IR uma sequencia monotona que possui uma subsequencia
convergente, digamos x
k
IN
x. Entao x
k
x.
Demonstracao. Suponha que (x
k
) e nao crescente (os demais casos sao an alogos). Ar-
mamos que x
k
x, para todo k IN. De fato, do contr ario existiria k
0
IN tal que
x
k
x
k
0
< x, para todo k IN, k k
0
. Assim nenhuma subsequencia de (x
k
) poderia
convergir para x. Provamos entao que (x
k
) e limitada, pois x x
k
x
0
, para todo
k IN. Pelo Teorema 1.12, temos que (x
k
) e convergente e aplicando o Teorema 1.2 segue
que x
k
x.
1.1.2 Ordem de convergencia
No contexto de otimizac ao existe outro aspecto importante a ser analisado em
uma sequencia: a velocidade de convergencia. Este conceito ser a discutido em seguida
e denominado ordem de convergencia. Para um estudo mais aprofundado, indicamos a
referencia [37], que apresenta uma ampla discuss ao sobre este assunto.
Considere as sequencias
x
k
=
1
k + 6
, y
k
=
1
3
k
, w
k
=
1
2
k
2
e z
k
=
1
2
2
k
.
Vemos que todas elas convergem para 0, mas n ao com a mesma rapidez, conforme sugere
a Tabela 1.1.
Diante disto, e conveniente estabelecer uma maneira de medir a velocidade de
sequencias convergentes. Considere ent ao uma sequencia (x
k
) IR
n
convergente para
x IR
n
. Assim, e
k
= |x
k
x| 0. O que faremos e avaliar como o erro e
k
tende para
0. Na primeira forma o erro a cada iterac ao n ao supera uma frac ao do erro anterior.
k 0 1 2 3 4 5 6
x
k
0,1667 0,1429 0,1250 0,1111 0,1000 0,0909 0,0833
y
k
1,0000 0,3333 0,1111 0,0370 0,0123 0,0041 0,0014
w
k
1,0000 0,5000 0,0625 0,0020 1,510
5
310
8
1,410
11
z
k
0,5000 0,2500 0,0625 0,0039 1,510
5
2,310
10
5,410
20
Tabela 1.1: Termos iniciais de algumas sequencias.
Denicao 1.16 Dizemos que a sequencia (x
k
) IR
n
converge linearmente para x IR
n
,
com razao de convergencia r [0, 1), quando
limsup
|x
k+1
x|
|x
k
x|
= r. (1.1)
Note que a condic ao (1.1) implica que x
k
x, pois tomando s (r, 1), temos
|x
k+1
x| > s|x
k
x| para no maximo uma quantidade nita de ndices. Assim, existe
k
0
IN tal que
|x
k
0
+p
x| s
p
|x
k
0
x|,
para todo p IN.
k
=
1
k + 6
converge para 0 mas nao linearmente.
De fato, temos
|x
k+1
|
|x
k
|
=
k + 6
k + 7
1.
Exemplo 1.18 A sequencia y
k
=
1
3
k
converge linearmente para 0.
Basta notar que
|y
k+1
|
|y
k
|
=
1
3
.
Vejamos agora uma forma mais veloz de convergencia.
Denicao 1.19 A sequencia (x
k
) IR
n
converge superlinearmente para x IR
n
quando
|x
k+1
x|
|x
k
x|
0. (1.2)
Note que a condi cao (1.2) tambem implica que x
k
x. Alem disso, e imediato
vericar que a convergencia superlinear implica na convergencia linear.
k
=
1
2
k
2
converge superlinearmente para 0.
Temos
|x
k+1
|
|x
k
|
=
2
k
2
2
(k+1)
2
=
1
2
2k+1
0.
Outra forma de convergencia, ainda mais r apida, e denida a seguir.
Denicao 1.21 A sequencia (x
k
) IR
n
converge quadraticamente para x IR
n
quando
x
k
x e existe uma constante M > 0 tal que
|x
k+1
x|
|x
k
x|
2
M. (1.3)
E importante observar que apenas a condic ao (1.3) n ao implica que x

k
x, como
podemos ver na sequencia x
k
= 2
k
com x = 0.
Exemplo 1.22 A sequencia z
k
=
1
2
2
k
converge quadraticamente para 0.
Temos
|x
k+1
|
|x
k
|
2
=
(2
2
k
)
2
2
2
k+1
= 1.
N ao e difcil provar que a convergencia quadr atica implica na convergencia super-
linear (veja o Exerccio 1.5). No entanto, a recproca e falsa, conforme vemos no proximo
exemplo.
k
=
1
k!
converge superlinearmente mas nao quadratica-
mente para 0.
Temos
|x
k+1
|
|x
k
|
=
k!
(k + 1)!
=
1
k + 1
0.
e
|x
k+1
|
|x
k
|
2
=
(k!)
2
(k + 1)!
=
k!
k + 1
=
k
k + 1
(k 1)! .
Exemplo 1.24 Considere a sequencia (x
k
) denida por x
0
=
1
2
e x
k+1
= x
k
_
x
k
+
1
10
_
.
Mostre que (x
k
) e convergente, calcule o seu limite e determine a ordem de convergencia.
Vemos por induc ao que 0 x
k
<
9
10
, para todo k IN. Alem disso,
x
k+1
= x
k
_
x
k
+
1
10
_
< x
k
_
9
10
+
1
10
_
= x
k
.
Como (x
k
) e monotona e limitada, conclumos que e convergente, digamos x
k
x.
Portanto, x = x
_
x +
1
10
_
. Donde segue que x = 0 ou x =
9
10
. Como x
0
=
1
2
e a
sequencia e decrescente, temos que x = 0. A convergencia e linear com raz ao
1
10
, pois
x
k+1
x
k
= x
k
+
1
10

1
10
.
Exemplo 1.25 Considere 0 < r < s < 1 e a sequencia (x
k
) denida por x
0
= 1 e
x
k+1
=
_
rx
k
, se k e par
sx
k
, se k e mpar.
Mostre que (x
k
) e convergente, calcule o seu limite e determine a ordem de convergencia.
Note que x
k+1
< x
k
, para todo k IN. Portanto, 0 x
k
x
0
, para todo k IN. Sendo
(x
k
) decrescente e limitada, conclumos que e convergente, digamos x
k
x. Portanto,
x = r x, donde segue que x = 0. Como
limsup
x
k+1
x
k
= s < 1,
temos que a convergencia e linear com razao s.
1.2 Nocoes de topologia
Denicao 1.26 Um ponto x IR
n
e dito ponto de fronteira de um conjunto X IR
n
quando qualquer vizinhanca de x contem algum elemento de X e algum elemento do
complementar de X. O conjunto dos pontos fronteira de X e chamado de fronteira de X
e sera denotado por X.
O fecho de um conjunto X e a uni ao de X com a fronteira de X e ser a denotado
por X.
Denicao 1.27 Um conjunto X e fechado quando contem sua fronteira, ou seja, quando
X X. Se alem disso X for limitado, diremos que ele e compacto.
De forma equivalente, podemos dizer que X IR
n
e fechado se, e somente se,
toda sequencia convergente formada por elementos de X tem seu limite em X. Tambem
podemos caracterizar a compacidade de X em termos de sequencias. O conjunto X e
compacto se, e somente se, toda sequencia de elementos de X possui uma subsequencia
que converge para algum elemento de X (Veja os Exerccios 1.9 e 1.10).
Exemplo 1.28 Dados X IR
n
e x X, existem sequencias (x
k
) X e (y
k
) IR
n
X
tais que x
k
x e y
k
x.
Temos que B
_
x,
1
k
_
X ,= e B
_
x,
1
k
_
(IR
n
X) ,= , para todo k IN.
Exemplo 1.29 Determine a fronteira dos conjuntos dados e verique se sao compactos.
1. X =
_
x IR
2
[ x
4
1
+ 8x
2
2
16
_
;
2. B = x IR
n
[ |x| < 1;
3. S = x IR
n
[ |x| = 1;
4. =
_
x IR
n
[ u
T
x b
_
, onde u IR
n
0 e b IR sao dados.
Temos
X =
_
x IR
2
[ x
4
1
+ 8x
2
2
= 16
_
, B = S = S.
Quanto ao conjunto , note que se u
T
x < b, ent ao a desigualdade e mantida em uma
vizinhanca de x. O mesmo ocorre se u
T
x > b. Por outro lado, se u
T
x = b, temos que
u
T
(x+tu) = b +t|u|
2
, para todo t IR. Assim, qualquer vizinhanca de x contem pontos
de e de IR
n
. Portanto,
=
_
x IR
n
[ u
T
x = b
_
.
Vejamos agora que X e compacto. Se x X, entao 2 x
1
2 e
2 x
2

2.
Assim, X e limitado. Alem disso, se x
k
X e x
k
x, entao
x
k
1
x
1
, x
k
2
x
2
e (x
k
1
)
4
+ 8(x
k
2
)
2
16.
Portanto, x
4
1
+ 8x
2
2
16, donde segue que X e fechado. O conjunto B n ao e compacto
pois n ao contem sua fronteira; S e compacto; n ao e compacto, pois nao e limitado (note
que tomando um elemento x e um vetor v u, temos x +tv , para todo t IR).
A Figura 1.1 ilustra o conjunto X e sua fronteira.
2 1 0 1 2
1
0.5
0
0.5
1
1.5
Figura 1.1: Ilustracao do conjunto X do Exemplo 1.29.
Denicao 1.30 Um ponto x X IR
n
e chamado um ponto interior de X quando
e centro de alguma bola aberta contida em X, ou seja, quando existe > 0 tal que
B( x, ) X.
O interior de um conjunto X e formado pelos pontos interiores a X e denotado
por intX.
Denicao 1.31 Um conjunto X IR
n
e aberto quando todos os seus pontos sao interio-
res, ou seja, intX = X.
Exemplo 1.32 Determine o interior dos conjuntos dados no Exemplo 1.29 e verique se
sao abertos.
Podemos vericar que intX =
_
x IR
2
[ x
4
1
+ 8x
2
2
< 16
_
, intB = B, intS = e
int =
_
x IR
n
[ u
T
x < b
_
. Desta forma, apenas o conjunto B e aberto.
Denicao 1.33 Dado um conjunto X IR, limitado inferiormente, existe um unico
c IR tal que
(i) c x, para todo x X;
(ii) Para todo > 0, existe x X tal que x < c + .
Dizemos que c e o nmo do conjunto X e denotamos c = inf X.
Podemos dizer que inf X e a maior das cotas inferiores do conjunto X. De modo
an alogo, denimos a menor das cotas superiores como o supremo do conjunto.
Denicao 1.34 Se X IR e limitado superiormente, entao existe um unico s IR tal
que
(i) x s, para todo x X;
(ii) Para todo > 0, existe x X tal que x > s .
Dizemos que s e o supremo do conjunto X e denotamos s = sup X.
1.3 Resultados de algebra linear
As principais referencias desta se cao sao [21, 29].
Denicao 1.35 O n ucleo de uma matriz A IR
mn
, denotado por ^(A), e um subcon-
junto de IR
n
formado por todas as solucoes do sistema homogeneo Ax = 0, ou seja,
^(A) = x IR
n
[ Ax = 0.
Temos que ^(A) e um subespa co vetorial de IR
n
. O n umero dim(^(A)) e cha-
mado nulidade de A.
Lema 1.36 Considere A IR
mn
. Entao ^(A
T
A) = ^(A).
Demonstracao. Seja x ^(A
T
A), isto e, A
T
Ax = 0. Multiplicando por x
T
, obtemos
0 = x
T
A
T
Ax = (Ax)
T
Ax = |Ax|
2
. Assim, Ax = 0, logo x ^(A). Reciprocamente,
se x ^(A), ent ao Ax = 0. Multiplicando por A
T
, obtemos A
T
Ax = A
T
0 = 0, o que
completa a prova.
Denicao 1.37 A imagem de uma matriz A IR
mn
e o conjunto
Im(A) = y IR
m
[ y = Ax, para algum x IR
n
.
Note que Im(A) e o espaco vetorial gerado pelas colunas de A, chamado espaco
coluna de A. O posto de A e denido por posto(A) = dim(Im(A)).
Prova-se em algebra linear que posto(A) = posto(A
T
), ou seja, o espaco-linha e
o espaco-coluna de A tem a mesma dimens ao. Portanto, posto(A) minm, n. Quando
ocorre a igualdade na express ao acima, dizemos que a matriz A tem posto cheio ou
posto completo e em consequencia disto, ou as colunas ou as linhas de A s ao linearmente
independentes.
Outro fato cl assico arma que dim(^(A)) + dim(Im(A)) = n, o que equivale a
dim(^(A)) + posto(A) = n. (1.4)
Exemplo 1.38 Dada uma matriz A IR
mn
, temos posto(A) = posto(A
T
A).
Segue direto do Lema 1.36 e da relac ao (1.4).
Exemplo 1.39 Dada a matriz A = (1 1 0), determine ^(A) e Im(A
T
). Represente
geometricamente estes subespacos.
Temos que x ^(A) se, e somente se, x
1
+ x
2
= 0. Assim, ^(A) =
_
_
_
_
_
1
1
0
_
_
_
,
_
_
_
0
0
1
_
_
_
_
_
.
Alem disso, Im(A
T
) =
_
_
_
_
_
1
1
0
_
_
_
_
_
.
Exemplo 1.40 Considere uma matriz A IR
mn
. Mostre que ^(A) Im(A
T
).
Dados x ^(A) e z Im(A
T
), temos x
T
z = x
T
A
T
y = (Ax)
T
y = 0.
Denicao 1.41 Seja Y IR
n
. O complemento ortogonal de Y e o conjunto dado por
Y

= x IR
n
[ x
T
y = 0 para todo y Y .
Lema 1.42 Se A IR
mn
, entao ^(A) = Im(A
T
)
.
Demonstracao. Dado x Im(A
T
)
, temos (Ax)
T
y = x
T
A
T
y = 0, para todo y IR
m
.
Portanto, Ax = 0, o que implica que x ^(A). Reciprocamente, se x ^(A), ent ao
Ax = 0. Logo x
T
(A
T
y) = (Ax)
T
y = 0, para todo y IR
m
, isto e, x Im(A
T
)
. Portanto
^(A) = Im(A
T
)
.
A denic ao que segue e de fundamental import ancia em otimizac ao. Ela ser a
usada mais adiante para estabelecer condicoes de otimalidade de um problema de oti-
mizac ao.
Denicao 1.43 Seja A IR
nn
uma matriz simetrica. Dizemos que A e denida positiva
quando x
T
Ax > 0, para todo x IR
n
0. Tal propriedade e denotada por A > 0. Se
x
T
Ax 0, para todo x IR
n
, A e dita semidenida positiva, fato este denotado por
A 0.
Cabe salientar que a deni cao geral de positividade de uma matriz n ao exige que
ela seja simetrica. No entanto, no contexto deste livro vamos supor a simetria quando
considerarmos matrizes positivas.
Exemplo 1.44 Considere A =
_
a b
b c
_
. Se A > 0, entao a > 0 e det(A) > 0.
De fato, dado x =
_
x
1
x
2
_
, temos
x
T
Ax = ax
2
1
+ 2bx
1
x
2
+ cx
2
2
> 0.
Em particular, fazendo x =
_
1
0
_
, obtemos a > 0. Alem disso, tomando x =
_
t
1
_
,
obtemos at
2
+ 2bt +c > 0, para todo t IR. Isto implica que o discriminante 4b
2
4ac e
negativo, donde segue que det(A) = ac b
2
> 0.
A recproca do fato provado no exemplo anterior tambem e verdadeira. Mais
ainda, o resultado vale em IR
nn
. Veja o Exerccio 1.14 no nal do captulo.
O pr oximo lema nos permite provar a positividade de uma matriz sem ter que
vericar a desigualdade em todo o IR
n
.
Lema 1.45 Sejam A IR
nn
uma matriz simetrica e > 0. Se x
T
Ax 0, para todo
x IR
n
tal que |x| = , entao x
T
Ax 0, para todo x IR
n
.
Demonstracao. Considere x IR
n
0. Tomando y =
x
|x|
, temos que |y| = . Portanto,
usando a hip otese, temos que
_

|x|
_
2
x
T
Ax = y
T
Ay 0. Assim, x
T
Ax 0.
Podemos inverter as desigualdades na Denic ao 1.43 para dizer o que e uma
matriz denida negativa ou semidenida negativa. Entretanto, existem matrizes que n ao
s ao nem positivas nem negativas, o que motiva a seguinte denic ao.
nn
uma matriz simetrica. Dizemos que A e indenida
quando existem x, y IR
n
tais que x
T
Ax < 0 < y
T
Ay.
Sabemos que toda matriz simetrica A IR
nn
possui uma base ortonormal de
autovetores, digamos v
1
, v
2
, . . . , v
n
. Indicando por
1
,
2
, . . . ,
n
os autovalores corres-
pondentes, P = (v
1
v
2
. . . v
n
) e D = diag(
1
,
2
, . . . ,
n
), temos
AP = (Av
1
Av
2
. . . Av
n
) = (
1
v
1
2
v
2
. . .
n
v
n
) = PD.
Alem disso, P
T
P = I e, portanto,
A = PDP
T
. (1.5)
A rela cao (1.5) permite caracterizar a positividade de uma matriz em funcao dos
seus autovalores. Basta notar que dado x IR
n
, denindo y = P
T
x, temos
x
T
Ax = y
T
Dy =
n
i=1
i
y
2
i
. (1.6)
Os detalhes s ao deixados para o Exerccio 1.15, no nal do captulo.
Outros resultados importantes que decorrem de (1.5) s ao apresentados nos se-
guintes lemas.
Lema 1.47 Se A IR
nn
e uma matriz simetrica com
1
e
n
sendo o menor e o maior
autovalor, respectivamente, entao
1
|x|
2
x
T
Ax
n
|x|
2
,
para todo x IR
n
.
Demonstracao. Use a relac ao (1.6) e note que |y|
2
= y
T
y = x
T
x = |x|
2
.
Lema 1.48 Seja A IR
nn
uma matriz denida positiva. Entao existe B IR
nn
tal
que A = BB
T
. Alem disso, dado x IR
n
, temos
(x
T
x)
2
(x
T
Ax)(x
T
A
1
x).
Demonstracao. No contexto da rela cao (1.5), denindo
D = diag(
1
,
2
, . . . ,
n
)
e B = P
D, podemos escrever A = BB
T
. Fazendo u = B
T
x e v = B
1
x, temos que
u
T
v = x
T
x, u
T
u = x
T
Ax e v
T
v = x
T
A
1
x. Aplicando a desigualdade de Cauchy-Schwarz,
obtemos a outra armac ao do lema.
Vamos agora relacionar os autovalores de um polin omio avaliado em uma matriz
A IR
nn
com os autovalores de A. Para isto, se q(t) = a
0
+a
1
t + +a
k
t
k
usaremos a
notac ao
q(A) = a
0
I + a
1
A + + a
k
A
k
.
Lema 1.49 Seja A IR
nn
uma matriz simetrica com autovalores
1
,
2
, . . . ,
n
. Se
q : IR IR e um polinomio, entao q(
1
), q(
2
), . . . , q(
n
) sao os autovalores de q(A).
Demonstracao. Por (1.5), temos A = PDP
T
, onde P
T
P = I e D = diag(
1
,
2
, . . . ,
n
).
Se q(t) = a
0
+ a
1
t + + a
k
t
k
, ent ao
q(A) = a
0
I + a
1
PDP
T
+ + a
k
(PDP
T
)
k
= P
_
a
0
I + a
1
D + + a
k
D
k
_
P
T
.
Notando que
a
0
I + a
1
D + + a
k
D
k
= diag
_
q(
1
), q(
2
), . . . , q(
n
)
_
conclumos a demonstrac ao.
No proximo resultado utilizaremos a norma de uma matriz, denida por
|A| = sup |Ax| [ |x| = 1 . (1.7)
Lema 1.50 Seja A IR
nn
uma matriz simetrica com autovalores
1
,
2
, . . . ,
n
. Se
considerarmos a norma euclideana em (1.7), entao
|A| = max [
1
[, [
2
[, . . . , [
n
[ .
Demonstracao. Considere x IR
n
tal que |x| = 1. Temos
|Ax|
2
= x
T
A
2
x = x
T
PD
2
P
T
x.
Denindo y = P
T
x e r = argmax [
i
[ [ i = 1, 2, . . . , n, podemos escrever
|Ax|
2
= y
T
D
2
y =
n
i=1
2
i
y
2
i

2
r
|y|
2
.
Como |y|
2
= x
T
PP
T
x = |x|
2
= 1, temos |A| [
r
[. Alem disso, existe v IR
n
tal que
|v| = 1 e Av =
r
v. Assim,
|Av|
2
= v
T
A
2
v =
2
r
v
T
v =
2
r
,
Portanto, |A| = [
r
[, o que completa a demonstracao.
1.4 F ormula de Taylor e teorema da funcao implcita
As aproximac oes de Taylor para uma func ao constituem uma das mais importan-
tes ferramentas em otimizac ao, tanto no desenvolvimento da teoria quanto na construc ao
de algoritmos. Aparecem por exemplo, na demonstra cao das condicoes de otimalidade
de segunda ordem, que veremos no pr oximo captulo, bem como na ideia do Metodo de
Newton. Tambem apresentaremos nesta secao o teorema da func ao implcita, um outro
conceito de analise que ser a importante no desenvolvimento teorico na parte de otimizac ao
com restric oes.
A Figura 1.2 ilustra as aproximac oes de Taylor de ordens 1 e 2 da fun cao seno.
6 4 2 0 2 4 6
2
1.5
1
0.5
0
0.5
1
1.5
2
6 4 2 0 2 4 6
2
1.5
1
0.5
0
0.5
1
1.5
2
Figura 1.2: Aproximac oes de Taylor de ordens 1 e 2.
Trabalharemos aqui com aproximac oes de primeira e segunda ordem. As de ordem
superior, apesar de serem mais precisas (veja Figura 1.3), deixam de ser convenientes pelo
alto custo computacional para o calculo das derivadas.
6 4 2 0 2 4 6
2
1.5
1
0.5
0
0.5
1
1.5
2
6 4 2 0 2 4 6
2
1.5
1
0.5
0
0.5
1
1.5
2
6 4 2 0 2 4 6
2
1.5
1
0.5
0
0.5
1
1.5
2
Figura 1.3: Aproximac oes de Taylor de ordens 3, 4 e 5.
Antes de apresentar as f ormulas de Taylor vamos trabalhar um pouco com deri-
vadas em varias vari aveis. Inicialmente, considere f : IR
n
IR uma func ao de classe (
2
.
Indicaremos o gradiente e a hessiana de f, respectivamente, por
f =
_
_
_
_
_
_
f
x
1
.
.
.
f
x
n
_
_
_
_
_
_
e
2
f =
_
_
_
_
_
_
2
f
x
1
x
1

2
f
x
1
x
n
.
.
.
.
.
.
.
.
.
2
f
x
n
x
1

2
f
x
n
x
n
_
_
_
_
_
_
.
Agora considere uma fun cao vetorial f : IR
n
IR
m
. Sua derivada, chamada de jacobiana,
e a matriz
J
f
= f
=
_
_
_
_
_
_
f
1
x
1

f
1
x
n
.
.
.
.
.
.
.
.
.
f
m
x
1

f
m
x
n
_
_
_
_
_
_
.
Note que a linha i da jacobiana de f e o gradiente transposto da componente f
i
. Em
particular, para m = 1, temos f
= (f)
T
. Alem disso,
2
f = J
f
.
Exemplo 1.51 Considere f : IR
n
IR dada por f(x) = |x|
2
= x
T
x. Calcule f(x) e
2
f(x). Generalizando, faca o mesmo para g : IR
n
IR dada por g(x) = x
T
Ax, onde
A IR
nn
e uma matriz arbitraria.
Temos f(x) = 2x e
2
f(x) = 2I, onde I IR
nn
e a matriz identidade. Para o caso
geral, note que
g(x + te
i
) g(x)
t
= e
T
i
(A + A
T
)x + te
T
i
Ae
i
.
Portanto, g(x) = (A + A
T
)x e
2
g(x) = A + A
T
.
O gradiente de uma func ao tem propriedades muito interessantes, tanto algebricas
quanto geometricas. Destacamos algumas delas.
1. O gradiente e uma direc ao de crescimento da func ao;
2. e a dire cao de crescimento mais r apido e
3. o gradiente e perpendicular à curva de nvel da func ao.
As justicativas dessas armac oes podem ser encontradas no Captulo 3 de [31]. A Figura
1.4 ilustra as propriedades citadas.
Outra relac ao importante surge quando restringimos uma fun cao denida em IR
n
aos pontos de um segmento de reta. Mais formalmente, dados x, d IR
n
e f : IR
n
IR,
denimos : I IR IR por (t) = f( x+td). Vamos calcular as derivadas de . Temos
(t) = lim
s0
(t + s) (t)
s
=
f
d
( x + td) = f( x + td)
T
d.
Figura 1.4: Propriedades do vetor gradiente.
Para calcular
, note que
(t) =
n
j=1
d
j
f
x
j
( x + td). Assim
(t) =
n
j=1
d
j
f
x
j
( x + td)
T
d = d
T
2
f( x + td)d.
Na Figura 1.5 temos uma superfcie ilustrando o graco de f, um segmento de reta
representando os pontos x + td e uma curva sendo o graco de . Uma generalizac ao da
discuss ao anterior e proposta no Exerccio 1.25, onde trocamos o segmento x+td por uma
curva diferenci avel.
Figura 1.5: Restric ao de uma funcao a um segmento.
Finalmente vamos apresentar as Formulas de Taylor. As demonstra coes podem
ser encontradas em [31].
Teorema 1.52 (Taylor de primeira ordem) Considere f : IR
n
IR uma funcao di-
ferenciavel e x IR
n
. Entao podemos escrever
f(x) = f( x) +f( x)
T
(x x) + r(x),
com lim
x x
r(x)
|x x|
= 0.
O polin omio p
1
(x) = f( x) + f( x)
T
(x x) e chamado polin omio de Taylor de
ordem 1 da func ao f. Dentre todos os polinomios de grau menor ou igual a 1, ele e o que
melhor aproxima f.

E tambem o unico que satisfaz
p( x) = f( x) e p
( x) = f
( x).
Na Figura 1.6 ilustramos o erro cometido ao se aproximar f por p
1
.
x x
f(x)
T
(xx)
r(x)
f(x)
f(x)
Figura 1.6: Resto de Taylor de ordem 1.
O limite nulo no Teorema 1.52 signica que para x pr oximo de x o resto r(x) e
muito pequeno e vai para zero mais r apido que |x x|.
Tambem e conveniente observar que podemos reescrever o Teorema 1.52 fazendo
uma simples mudanca de variavel. De fato, denindo d = x x, temos
f( x + d) = f( x) +f( x)
T
d + r(d),
com lim
d0
r(d)
|d|
= 0.
Agora podemos nos perguntar qual e a melhor quadr atica que aproxima uma
dada func ao em uma vizinhanca de um ponto. A resposta e dada pelo pr oximo teorema.
Teorema 1.53 (Taylor de segunda ordem) Se f : IR
n
IR e uma funcao duas vezes
diferenciavel e x IR
n
, entao
f(x) = f( x) +f( x)
T
(x x) +
1
2
(x x)
T
2
f( x)(x x) + r(x),
com lim
x x
r(x)
|x x|
2
= 0.
Analogamente ao que vimos anteriormente, o polin omio
p
2
(x) = f( x) +f( x)
T
(x x) +
1
2
(x x)
T
2
f( x)(x x)
e chamado polin omio de Taylor de ordem 2 da func ao f e e a melhor aproximacao para f
dentre todos os polinomios de grau menor ou igual a 2. Alem disso e o unico que satisfaz
p( x) = f( x), p
( x) = f
( x) e p
( x) = f
( x).
Na Figura 1.7 ilustramos o erro cometido ao se aproximar f por p
2
.
x x
f(x)
T
(xx)
r(x)
f(x)
f(x)
1
2
(xx)
T
2
f(x)(xx)
Figura 1.7: Resto de Taylor de ordem 2.
O limite nulo no Teorema 1.53 signica que para x pr oximo de x, o resto r(x) e
muito pequeno e vai para zero muito mais r apido que |x x|
2
.
Aqui tambem podemos reescrever o Teorema 1.53 fazendo d = x x. Ficamos
com
f( x + d) = f( x) +f( x)
T
d +
1
2
d
T
2
f( x)d + r(d),
com lim
d0
r(d)
|d|
2
= 0.
Exemplo 1.54 Considere a funcao f : IR
2
IR dada por f(x) = x
1
cos x
2
+ x
2
sin x
1
.
Determine as aproximacoes de Taylor de ordens 1 e 2 para f em torno de 0. Estime o
erro da aproximacao linear na regiao [1, 1] [1, 1].
Temos f(x) =
_
cos x
2
+ x
2
cos x
1
sin x
1
x
1
sin x
2
_
. Assim, p
1
(x) = f(0) + f(0)
T
x = x
1
. Para
estimar o erro, note que se [z[ 1, entao cos z >
1
2
e [ sin z[ <
3
2
. Portanto,
[f(x) p
1
(x)[ = [f(x) x
1
[ [x
1
[[ cos x
2
1[ +[x
2
sin x
1
[ < 1, 367.
Esta estimativa e razo avel pois
f
_
1
1
_
1
1,3.
Veremos agora outra f ormula de Taylor, na qual n ao supomos d 0 para estimar
a diferenca f( x +d) f( x). Para ordem 1, ela e exatamente o Teorema do Valor Medio.
De modo geral a chamamos de Taylor com resto de Lagrange.
Teorema 1.55 (Teorema do Valor Medio) Sejam f : IR
n
IR contnua e x, d
IR
n
. Se f e diferenciavel no segmento ( x, x + d), entao existe t (0, 1) tal que
f( x + d) = f( x) +f( x + td)
T
d.
A Figura 1.8 ilustra o TVM.
x x+d x+td
Figura 1.8: Teorema do Valor Medio.
Teorema 1.56 (Taylor com resto de Lagrange) Considere f : IR
n
IR uma funcao
de classe (
1
e x, d IR
n
. Se f e duas vezes diferenciavel no segmento ( x, x + d), entao
existe t (0, 1) tal que
f( x + d) = f( x) +f( x)
T
d +
1
2
d
T
2
f( x + td)d.
O pr oximo teorema garante que, sob certas hipoteses, podemos denir implici-
tamente uma variavel como funcao de outra em uma equac ao. A prova deste resultado
tambem pode ser encontrada em [31].
Teorema 1.57 (Teorema da funcao implcita) Seja : IR
n+1
IR
n
uma funcao de
classe (
1
. Considere o sistema de n equacoes e n + 1 variaveis denido por
_
x
t
_
= 0, (1.8)
onde x IR
n
e t IR. Se o ponto
_
x
0
_
e uma solucao de (1.8), na qual a jacobiana de
em relacao a x tem posto n, entao existe uma curva diferenciavel : (, ) IR
n
tal
que
_
(t)
t
_
= 0, para todo t (, ). Alem disso, a funcao e unica.
1.5 Exerccios do captulo
1.1. Considere a sequencia denida por x
1
= 1, x
k+1
=
1 + x
k
. Mostre que:
(a) 1 x
k
2 para todo k IN;
(b) (x
k
) e crescente;
(c) (x
k
) e convergente e calcule seu limite.
1.2. Considere a sequencia denida por y
1
= 0, y
k+1
=
1
1 + 2y
k
. Mostre que:
(a) 0 y
k
1 para todo k IN;
(b) (y
2k1
)
kIN
e crescente e (y
2k
)
kIN
e decrescente;
(c) y
k
1
2
.
1.3. Considere as sequencias denidas por a
1
= 0, a
2
= 1, a
k+2
=
a
k+1
+ a
k
2
e x
1
= 0,
x
2
= 1, x
k+2
= x
k+1
+ 2x
k
. Mostre que:
(a) a
k
=
x
k
2
k2
para todo k IN;
(b) x
k+1
+ x
k
= 2
k1
para todo k IN;
(c)
x
k
x
k+1

1
2
;
(d) a
k
2
3
.
1.4. Generalize o exerccio anterior. Considere a sequencia denida por a
1
= , a
2
= ,
a
k+2
=
a
k+1
+ a
k
2
, com < e mostre que a
k
+
2
3
( ).
1.5. Mostre que a convergencia quadratica implica na superlinear.
1.6. Seja x
k
=
2
k
k!
, k IN. Mostre que (x
k
) converge para zero com ordem superlinear
mas nao quadr atica. Faca o mesmo para x
k
=
1
k
k
e x
k
= e
k
2
.
1.7. Considere a sequencia denida por x
1
=
2, x
k+1
=
2 + x
k
. Mostre que:
(a) 1 x
k
2 para todo k IN;
(b) (x
k
) e crescente;
(c) x
k
2 linearmente com taxa
1
4
.
1.8. Sejam A IR
mn
uma matriz de posto n e x
k
x. Dena y
k
= Ax
k
e y = A x.
Mostre que se a convergencia de (x
k
) e superlinear, ent ao o mesmo vale para (y
k
). Isto
continua v alido se trocarmos superlinear por linear?
1.9. Mostre que X IR
n
e fechado se, e somente se, dada (x
k
) X tal que x
k
x,
temos x X.
1.10. Mostre que X IR
n
e compacto se, e somente se, toda sequencia (x
k
) X possui
uma subsequencia que converge para algum elemento de X.
1.11. Considere X IR
n
e (z
k
) X, tal que z
k
x. Mostre que x X.
1.12. Se V e um subespaco de IR
n
, entao IR
n
= V V

.
1.13. Seja A IR
nn
uma matriz simetrica. Sendo v
1
, v
2
, . . . , v
n
uma base ortonor-
mal de autovetores e
1
,
2
, . . . ,
n
os autovalores associados. Supondo que nenhum
autovalor e nulo, obtenha uma express ao para a inversa A
1
.
1.14. A matriz simetrica A IR
nn
e denida positiva se, e somente se, os determinantes
principais sao positivos.
1.15. A matriz simetrica A IR
nn
e denida positiva se, e somente se, todos os seus
autovalores s ao positivos.
1.16. Seja A IR
mn
uma matriz de posto n. Mostre que A
T
A e denida positiva.
1.17. Suponha que as matrizes A, B IR
nn
s ao denidas positivas e que A
2
= B
2
.
Mostre que A = B.
1.18. Sejam A IR
mn
e B IR
nn
tais que posto(A) = m e B e denida positiva
no n ucleo de A, isto e, d
T
Bd > 0 para todo d ,= 0, d ^(A). Mostre que a matriz
_
B A
T
A 0
_
e inversvel.
1.19. Considere A IR
nn
simetrica singular e v
1
, . . . , v
n
uma base ortonormal de
autovetores de A tal que v
1
, . . . , v
1
s ao os autovetores associados ao autovalor nulo e
v
, . . . , v
n
os autovetores associados aos autovalores n ao nulos. Mostre que
[v
1
, . . . , v
1
] = ^(A) e [v
, . . . , v
n
] = Im(A).
nn
semidenida positiva singular e b Im(A). Mostre existe
um unico x
Im(A) satisfazendo Ax
+ b = 0. Alem disso, se
e o menor autovalor
positivo de A, entao |Ax
|x
|.
mn
com posto(A) = n. Mostre existe c > 0 tal que |Ax| c|x|,
para todo x IR
n
.
1.22. [Sherman-Morrison] Considere uma matriz inversvel Q IR
nn
e dois vetores
arbitr arios u, v IR
n
. Mostre que Q+uv
T
e inversvel se, e somente se, 1 +v
T
Q
1
u ,= 0.
Alem disso, verique a igualdade
(Q + uv
T
)
1
= Q
1
Q
1
uv
T
Q
1
1 + v
T
Q
1
u
.
1.23. Considere g : IR
n
IR
m
e dena f(x) = |g(x)|
2
2
. Calcule f(x) e
2
f(x).
1.24. Considere f : IR
n
IR dada por f(x) = |Ax b|
2
2
, onde A IR
mn
e b IR
m
.
Calcule f(x).
1.25. Considere uma func ao f : IR
n
IR e uma curva : I IR IR
n
, ambas duas
vezes diferenciaveis. Dena : I IR por (t) = f
_
(t)
_
. Obtenha expressoes para as
derivadas
(t) e
(t).
1.26. Obtenha os polin omios de Taylor de ordens 1 e 2 das func oes dadas em torno do
ponto 0 IR
2
.
(a) f(x) =
x
1
1 + x
2
;
(b) f(x) = e
x
1
_
1 + x
2
2
.
1.27. Aproxime f(x) = e
x
em x = 0 pelos polin omios de Taylor de ordem 3 e 4. A
seguir, calcule os valores dessas aproximac oes em x = 0,2 e x = 1 e compare com os
valores corretos.
1.28. Calcule os polin omios de Taylor de ordem 1, 2 e 3 das func oes f(x) =
x + 1 e
g(x) = ln(x + 1) em x = 0. A seguir, calcule os valores dessas aproximac oes em x = 0,2
e x = 1 e compare com os valores corretos.
Captulo 2
Introducao à Otimizacao
Estudaremos neste captulo os conceitos b asicos de otimizacao. Comecamos com
algumas situac oes que garantem a existencia de um minimizador e em seguida discuti-
mos as condic oes de otimalidade para o problema de minimiza cao irrestrita. Algumas
referencias para este assunto sao [13, 14, 22, 35].
2.1 O problema de otimizacao
Vamos considerar aqui o problema
minimizar f(x)
sujeito a x ,
(2.1)
onde f : IR
n
IR e uma func ao arbitraria e IR
n
e um conjunto qualquer.
Denicao 2.1 Considere uma funcao f : IR
n
IR e x
IR
n
. Dizemos que x
e
um minimizador local de f em quando existe > 0, tal que f(x
) f(x), para todo

x B(x
, ) . Caso f(x
) f(x), para todo x , x
e dito minimizador global de

f em .
Quando as desigualdades na Deni cao 2.1 forem estritas para x ,= x
, diremos
que x
e minimizador estrito. Se nao for mencionado o conjunto , signica que = IR

n
e portanto estamos trabalhando com um problema irrestrito.
Veremos em seguida condic oes que garantem a existencia de minimizadores. Na
Sec ao 2.2 discutiremos criterios de otimalidade.
Teorema 2.2 (Weierstrass) Sejam f : IR
n
IR contnua e IR
n
compacto nao
vazio. Entao existe minimizador global de f em .
Demonstracao. Vejamos primeiro que o conjunto f() = f(x) [ x e limitado
inferiormente. Suponha por absurdo que n ao. Entao, para todo k IN, existe x
k
25
Otimizac ao Irrestrita 26
tal que f(x
k
) k. Como a sequencia (x
k
) esta no compacto , ela possui uma
subsequencia convergente para um ponto de , digamos x
k
IN
x . Pela continuidade
de f, temos f(x
k
)
IN
f( x), uma contradicao. Portanto, f() = f(x) [ x e limitado

inferiormente. Considere f
= inff(x) [ x . Entao, para todo k IN, existe x

k

tal que
f
f(x
k
) f
+
1
k
,
o que implica f(x
k
) f
. Repetindo o argumento acima, obtemos f(x

k
)
IN
f(x
), com
x
. Pela unicidade do limite, temos f(x
) = f
f(x), para todo x , o que

completa a demonstracao.
O Teorema 2.2 tem uma consequencia interessante, que pode garantir a existencia
de minimizador global em IR
n
.
Corolario 2.3 Seja f : IR
n
IR contnua e suponha que existe c IR tal que o conjunto
L = x IR
n
[ f(x) c e compacto nao vazio. Entao f tem um minimizador global.
Demonstracao. Pelo Teorema 2.2, existe x
L tal que f(x
) f(x), para todo x L.

Por outro lado, se x / L, temos f(x) > c f(x
). Assim, f(x
) f(x), para todo

x IR
n
.
Exemplo 2.4 Seja f : IR
n
T
Ax, onde A IR
nn
e uma matriz
simetrica. Mostre que f tem um minimizador global x
em S = x IR
n
[ |x| = 1.
Mostre tambem que existe IR tal que x
T
Ax |x|
2
, para todo x IR
n
.
Como f e contnua e S e compacto, a primeira arma cao segue do Teorema 2.2. Alem
disso, dado x IR
n
0, temos que
x
|x|
S. Portanto, denindo = (x
)
T
Ax
, temos
x
T
Ax |x|
2
, para todo x IR
n
.
Veremos agora outro resultado que garante a existencia de minimizador global
em IR
n
, sem supor compacidade. Em contrapartida, fazemos uma hip otese a mais sobre
a funcao.
Denicao 2.5 Dizemos que a funcao f : IR
n
IR e coerciva quando lim
x
f(x) = .
Teorema 2.6 Seja f : IR
n
IR uma funcao contnua e coerciva. Entao, f tem um
minimizador global.
Demonstracao. Considere a IR
n
e b = f(a). Como lim
x
f(x) = , existe r > 0 tal que
f(x) > b, sempre que |x| > r. Como o conjunto B = x IR
n
[ |x| r e compacto,
o Teorema 2.2 garante que existe x
B tal que f(x
) f(x), para todo x B. Alem

disso, a B, pois f(a) = b. Para x / B, temos f(x) > b = f(a) f(x
). Isto prova que

x
e minimizador de f.
Observacao: o Exerccio 2.11 no nal do captulo fornece outra demonstrac ao
para o Teorema 2.6.
Exemplo 2.7 Sejam A IR
nn
uma matriz simetrica, b IR
n
e c IR. Suponha que a
funcao f : IR
n
IR dada por
f(x) =
1
2
x
T
Ax + b
T
x + c
tem um minimizador local x
. Mostre que Ax
+b = 0. Mostre tambem que x
e minimi-
zador global.
Dado d IR
n
, temos
f(x
+ td) f(x
) =
1
2
t
2
d
T
Ad + t(Ax
+ b)
T
d.
Como x
e minimizador local, temos que

1
2
td
T
Ad+(Ax
+b)
T
d 0 para t sucientemente
pequeno e positivo. Portanto, Ax
+ b = 0. Para ver que x
e global, note que

1
2
d
T
Ad = f(x
+ d) f(x
) 0
para d pr oximo de 0, donde segue que d
T
Ad 0 para todo d IR
n
, tendo em vista o
Lema 1.45.
Exemplo 2.8 Considere a quadratica denida no Exemplo 2.7 e suponha que A e denida
positiva. Mostre que f e coerciva.
Se e o menor autovalor de A, temos f(x)

2
|x|
2
|b||x| + c.
2.2 Condicoes de otimalidade
Veremos agora as condic oes necessarias e sucientes para caracterizar um mini-
mizador de um problema irrestrito.
Teorema 2.9 (Condicao necessaria de 1
a
ordem) Seja f : IR
n
IR diferenciavel
no ponto x
IR
n
. Se x
e um minimizador local de f, entao

f(x
) = 0. (2.2)
Demonstracao. Considere d IR
n
0 arbitr ario. Como x
e minimizador local, existe

> 0 tal que
f(x
) f(x
+ td), (2.3)
para todo t (0, ). Pela expansao de Taylor,
f(x
+ td) = f(x
) + tf(x
)
T
d + r(t),
com lim
t0
r(t)
t
= 0. Usando (2.3) e dividindo por t, obtemos 0 f(x
)
T
d+
r(t)
t
. Passando
o limite quando t 0, obtemos f(x
)
T
d 0. Se f(x
) nao fosse nulo, poderamos

escolher d = f(x
), resultando em |f(x
)|
2
= f(x
)
T
d 0, o que e uma
contradi cao. Logo f(x
) = 0.
Denicao 2.10 Um ponto x
IR
n
que cumpre a condicao (2.2) e dito ponto crtico ou
estacionario da funcao f.
Exemplo 2.11 Seja f : IR
3
IR dada por f(x) = sen(3x
2
1
+x
2
2
)+cos(x
2
1
x
2
2
)+5x
3
. Veri-
que se f tem minimizadores em IR
3
. E no conjunto B =
_
x IR
3
[ x
2
1
+
x
2
2
4
+
x
2
3
9
1
_
?
Note que f(x) ,= 0, para todo x IR
3
, pois
f
x
3
(x) = 5. Portanto, pelo Teorema 2.9,
n ao existe minimizador de f em IR
3
. Por outro lado, como B e compacto, o Teorema 2.2
garante que existe minimizador de f em B.
Teorema 2.12 (Condicao necessaria de 2
a
ordem) Seja f : IR
n
IR duas vezes
diferenciavel no ponto x
IR
n
. Se x
e um minimizador local de f, entao a matriz

Hessiana de f no ponto x
e semidenida positiva, isto e,

d
T
2
f(x
)d 0, (2.4)
para todo d IR
n
.
n
0 arbitr ario. Por Taylor,
f(x
+ td) = f(x
) + tf(x
)
T
d +
t
2
2
d
T
2
f(x
)d + r(t),
com lim
t0
r(t)
t
2
= 0. Como x
e minimizador local, o Teorema 2.9 garante que f(x
) = 0.
Portanto, para t sucientemente pequeno,
0 f(x
+ td) f(x
) =
t
2
2
d
T
2
f(x
)d + r(t),
Dividindo por t
2
e passando o limite quando t 0, obtemos d
T
2
f(x
)d 0.
Exemplo 2.13 [13, Exerc. 2.6] Seja f : IR
2
IR dada por f(x) = (x
1
x
2
2
)(x
1
1
2
x
2
2
).
Verique que x = 0 e o unico ponto estacionario de f e nao e minimizador. No entanto,
xada qualquer direcao d IR
n
0, x minimiza localmente f ao longo de d.
Temos f(x) =
_
2x
1
3
2
x
2
2
3x
1
x
2
+ 2x
3
2
_
. Assim, se f(x) = 0, entao x = 0. Alem disso,
f
_
2
3
x
2
2
x
2
_
=
x
4
2
18
< 0, o que signica que x = 0 n ao e minimizador local de f. Porem,
dado d IR
n
0, temos
f( x + td) = t
2
_
d
1
td
2
2
_
_
d
1
1
2
td
2
2
_
.
Se d
1
= 0, ent ao f( x + td) =
1
2
t
4
d
4
2
0. Caso d
1
,= 0, a express ao (d
1
td
2
2
)(d
1
1
2
td
2
2
) e
positiva em t = 0 e, por continuidade, tambem para t pr oximo de 0. A Figura 2.1 ilustra
este exemplo.
Figura 2.1: Ilustracao do Exemplo 2.13.
Convem observar aqui que se x
e minimizador local de f, entao dado d IR

n
0,
existe > 0 tal que
f(x
) f(x
+ td),
para todo t (, ). Este argumento foi usado, por exemplo, na demonstrac ao do
Teorema 2.9. Entretanto, o Exemplo 2.13 mostra que a recproca nao e verdadeira.
Teorema 2.14 (Condicao suciente de 2
a
ordem) Seja f : IR
n
IR duas vezes di-
ferenciavel no ponto x
IR
n
. Se x
e um ponto estacionario da funcao f e

2
f(x
) e
denida positiva, entao x
e minimizador local estrito de f.

Demonstracao. Seja o menor autovalor de
2
f(x
). Como esta matriz e denida po-

sitiva, temos > 0. Alem disso, pelo Lema 1.47 (veja tambem o Exemplo 2.4 da Sec ao
2.1), d
T
2
f(x
)d |d|
2
, para todo d IR
n
. Por Taylor, j a usando o fato de x
ser
estacion ario, temos
f(x
+ d) = f(x
) +
1
2
d
T
2
f(x
)d + r(d) f(x
) +
1
2
|d|
2
+ r(d),
onde lim
d0
r(d)
|d|
2
= 0. Podemos ent ao escrever
f(x
+ d) f(x
)
|d|
2

2
+
r(d)
|d|
2
. Como
lim
d0
_
2
+
r(d)
|d|
2
_
> 0, existe > 0 tal que

2
+
r(d)
|d|
2
> 0, para todo d B(0, ) 0,
donde segue que f(x
+d) f(x
) > 0, para todo d B(0, ) 0, ou, equivalentemente,

f(x
) < f(x),
para todo x B(x
, ) x
.
Salientamos que as denic oes e resultados envolvendo minimizadores podem ser
reformulados para maximizadores de forma inteiramente analoga. No entanto, convem
estudar com mais detalhes alguns pontos que nao sao nem minimizadores nem maximi-
zadores.
Denicao 2.15 Considere uma funcao diferenciavel f : IR
n
IR e x IR
n
um ponto
estacionario de f. Dizemos que x e um ponto de sela da funcao f quando para todo > 0,
existem x, y B( x, ) tais que
f(x) < f( x) < f(y).
O proximo teorema nos fornece uma condic ao suciente (mas n ao necess aria)
para que um ponto seja sela.
n
IR duas vezes diferenciavel no ponto estacionario x IR
n
.
Se
2
f( x) e indenida, entao x e ponto de sela de f.
n
tal que d
T
2
f( x)d < 0. Por Taylor, j a usando o fato
de x ser estacionario, temos
f( x + td) f( x)
t
2
=
1
2
d
T
2
f( x)d +
r(t)
t
2
,
com lim
t0
r(t)
t
2
= 0. Portanto,
f( x + td) < f( x),
para todo t sucientemente pequeno. Considere agora v IR
n
tal que v
T
2
f( x)v > 0.
Analogamente, podemos concluir que f( x + tv) > f( x), para t sucientemente pequeno.
Isto prova que x e ponto de sela.
Exemplo 2.17 [13, Exerc. 2.5] Seja f : IR
2
IR dada por
f(x) = 2x
3
1
3x
2
1
6x
1
x
2
(x
1
x
2
1).
Descreva os pontos estacionarios da funcao f.
Temos f(x) =
_
6x
2
1
12x
1
x
2
6x
1
+ 6x
2
2
+ 6x
2
6x
2
1
+ 12x
1
x
2
+ 6x
1
_
. Logo, os pontos estacionarios sao
soluc oes do sistema
_
6x
2
2
+ 6x
2
= 0
6x
2
1
12x
1
x
2
6x
1
= 0
,
que podemos vericar que sao x
1
=
_
0
0
_
, x
2
=
_
1
0
_
, x
3
=
_
0
1
_
e x
4
=
_
1
1
_
. Alem
disso,
2
f(x) =
_
12x
1
12x
2
6 12x
1
+ 12x
2
+ 6
12x
1
+ 12x
2
+ 6 12x
1
_
.
Fazendo A
j
=
1
6
2
f(x
j
), temos A
1
=
_
1 1
1 0
_
, A
2
=
_
1 1
1 2
_
, A
3
=
_
1 1
1 0
_
e A
4
=
_
1 1
1 2
_
. Note que A
1
e indenida, pois u =
_
1
0
_
e v =
_
1
1
_
fornecem
u
T
A
1
u < 0 e v
T
A
1
v > 0. Portanto x
1
e ponto de sela. J a o ponto x
2
e minimizador local,
pois A
2
> 0. Alem disso, A
3
= A
1
tambem e indenida, sendo ent ao x
3
ponto de sela.
Finalmente, A
4
= A
2
< 0, o que implica que x
4
e maximizador local. A Figura 2.2
ilustra este exemplo.
2 1 0 1 2
2
1.5
1
0.5
0
0.5
Exemplo 2.18 [22, Exerc. 1.3.5] Dado > 1, mostre que o sistema
_
cos x
1
sin x
2
+ x
1
e
x
2
1
+x
2
2
= 0
sin x
1
cos x
2
+ x
2
e
x
2
1
+x
2
2
= 0
tem uma solucao x ,= 0.
Considere f : IR
2
IR dada por f(x) = sin x
1
sin x
2
+
1
2
e
x
2
1
+x
2
2
. Fazendo u = x
2
1
+ x
2
2
,
temos que f(x) =
_
cos x
1
sin x
2
+ x
1
e
u
sin x
1
cos x
2
+ x
2
e
u
_
e
2
f(x) =
_
sin x
1
sin x
2
+ e
u
+ 2x
2
1
e
u
cos x
1
cos x
2
+ 2x
1
x
2
e
u
cos x
1
cos x
2
+ 2x
1
x
2
e
u
sin x
1
sin x
2
+ e
u
+ 2x
2
2
e
u
_
.
Portanto,
2
f(0) =
_
1
1
_
. Como > 1,
2
f(0) nao e semidenida positiva e assim,
x = 0 n ao pode ser minimizador local de f. Mas f e coerciva e portanto tem um
minimizador local x ,= 0.
Alguns dos exerccios propostos abaixo foram tirados ou reformulados a partir
daqueles apresentados em [13, Captulo 2]. Indicaremos, quando for o caso, o exerccio
correspondente desta referencia.
2.1. [13, Exerc. 2.1] Sejam g : IR IR uma fun cao estritamente crescente e f : IR
n
IR.
Prove que minimizar f(x) e equivalente a minimizar g
_
f(x)
_
.
2.2. [13, Exerc. 2.3(a)] Considere n umeros reais a < b < c e as funcoes f, g : IR IR,
denidas por
f(x) = [x a[ +[x b[ e g(x) = [x a[ +[x b[ +[x c[.
Determine os minimizadores destas func oes.
2.3. [13, Exerc. 2.4] Sejam a, b IR dois n umeros reais positivos. Considere a func ao
de Rosenbrock f(x) = a(x
2
x
2
1
)
2
+ b(1 x
1
)
2
. Encontre o ( unico) ponto estacionario
de f e verique se e minimizador local. Prove que
2
f(x) e singular se e somente se
x
2
x
2
1
=
b
2a
.
2.4. Sejam f : IR
n
IR contnua, x
IR
n
e f
= f(x
). Suponha que todo x, tal que

f(x) = f
, e um minimizador local de f. Mostre que x
e um minimizador global de f.
2.5. Seja f : IR
2
IR dada por f(x) = sin x
1
sin x
2
+ e
x
2
1
+x
2
2
. Mostre que x = 0 e ponto
estacion ario de f. Diga se e minimizador, maximizador ou sela.
2.6. Verique se a fun cao f(x) = (x
1
+ x
2
)
2
+ x
3
1
tem algum ponto estacion ario. Caso
armativo diga se e minimizador, maximizador ou sela.
2.7. Seja f : IR
2
2
1
+ x
2
2
x
1
x
2
2
. Determine e fa ca um esboco do
conjunto x IR
2
[
2
f(x) > 0.
2.8. Seja f : IR
2
2
1
x
1
x
2
+ 2x
2
2
2x
1
+
2
3
x
2
+ e
x
1
+x
2
.
(a) Mostre que x =
1
3
_
1
1
_
e um ponto estacionario de f;
(b) Calcule
2
f( x) e diga se x e minimizador local.
2.9. [13, Exerc. 2.10] Considere o problema irrestrito
minimizar f(x) = x
2
1
x
1
x
2
+ 2x
2
2
2x
1
+ e
x
1
+x
2
sujeito a x IR
2
.
(a) Verique que o ponto x = 0 n ao e otimo;
(b) Minimize a func ao a partir de x na direc ao d = f( x).
2.10. [13, Exerc. 2.17] Se for possvel, determine a e b de modo que f(x) = x
3
+ax
2
+bx
tenha um m aximo local em x = 0 e um mnimo local em x = 1.
2.11. Seja f : IR
n
IR uma func ao contnua e coerciva. Dado a IR
n
, mostre que o
conjunto L = x IR
n
[ f(x) f(a) e compacto nao vazio.
2.12. Sejam f : IR
n
IR contnua e x IR
n
tal que x IR
n
[ f(x) f( x) e limitado.
Mostre que f tem minimizador global.
2.13. Resolva o Exerccio 1.21 usando a continuidade da func ao x |Ax| na esfera
unit aria.
n
T
Ax + b
T
x, onde A IR
nn
e uma
matriz simetrica e b IR
n
Im(A). Prove que f n ao possui minimizador.
Captulo 3
Convexidade
Dentre as v arias classes de func oes estudadas em matem atica, existe uma que
se destaca pelas excelentes propriedades que possui: a classe das func oes convexas. Em
otimizac ao, a convexidade permite por exemplo concluir que minimizadores locais s ao
globais, ou ainda, que pontos estacion arios sao minimizadores. Algumas referencias para
este assunto s ao [2, 19, 40].
3.1 Conjuntos convexos
Os conjuntos convexos constituem o domnio natural para as func oes convexas,
conforme veremos agora.
Denicao 3.1 Um conjunto C IR
n
e dito convexo quando dados x, y C, o segmento
[x, y] = (1 t)x + ty [ t [0, 1] estiver inteiramente contido em C.
Na Figura 3.1 ilustramos 2 conjuntos, um convexo e outro nao.
x
y
x
y
Figura 3.1: Conjuntos convexo e n ao convexo.
Exemplo 3.2 Sejam C
i
, i = 1, . . . , m conjuntos convexos. Entao o conjunto C =
m
i=1
C
i
tambem e convexo. Por outro lado, a uniao de convexos nao e convexa.
Exemplo 3.3 Mostre que o conjunto solucao de um sistema de equacoes lineares e con-
vexo.
34
Convexidade 35
Seja C = x IR
n
[ Ax = b. Se Ax = b e Ay = b, entao A
_
(1 t)x + ty
_
= b.
Veremos agora alguns resultados que alem de sua import ancia em an alise convexa,
podem tambem ser usados para provar o cl assico Lema de Farkas, fundamental para a
obtenc ao das condi coes de Karush-Kuhn-Tucker para problemas com restricoes.
Lema 3.4 Sejam u, v IR
n
com u ,= v. Se |u|
2
= |v|
2
= r, entao |(1 t)u +tv|
2
< r,
para todo t (0, 1).
Demonstracao. Pela desigualdade triangular, temos
|(1 t)u + tv|
2
(1 t)|u|
2
+ t|v|
2
= r.
Suponha, por absurdo, que |(1 t)u + tv|
2
= r. Ent ao
(1 t)
2
u
T
u + 2t(1 t)u
T
v + t
2
v
T
v = |(1 t)u + tv|
2
2
= r
2
.
Como u
T
u = v
T
v = r
2
e t (0, 1), obtemos u
T
v = r
2
. Portanto,
|u v|
2
= u
T
u 2u
T
v + v
T
v = 0,
o que e uma contradic ao. Isto nos permite concluir que |(1t)u+tv|
2
< r, completando
a demonstrac ao.
Considere agora um conjunto S IR
n
, um ponto z IR
n
e o problema de
encontrar um ponto de S mais proximo de z. Este problema pode n ao ter soluc ao e
quando tem, n ao garantimos unicidade. No entanto, conforme provaremos a seguir, se S
e fechado, entao existe solucao. Se alem de fechado, for convexo, a soluc ao e unica e sera
chamada de projecao de z sobre S, denotada por proj
S
(z). Veja ilustrac ao na Figura 3.2.
z S
z
S
z S
proj
S
z
Figura 3.2: Minimizac ao da dist ancia de um ponto a um conjunto.
Lema 3.5 Seja S IR
n
um conjunto fechado nao vazio. Dado z IR
n
, existe z S tal
que
|z z| |z x|,
para todo x S.
Convexidade 36
Demonstracao. Seja = inf|z x| [ x S. Ent ao, para todo k IN, existe x
k
S tal
que
|z x
k
| +
1
k
. (3.1)
Em particular, |z x
k
| + 1, para todo k IN. Logo, existe uma subsequencia
convergente, digamos, x
k
IN
z. Sendo S fechado, temos que z S. Alem disso,

|z x
k
|
IN
|z z|.
Mas por (3.1), |z x
k
| , donde segue que |z z| = , completando a prova.
Ao contr ario do lema anterior, o proximo resultado depende da norma e sera
estabelecido usando a norma euclidiana.
Lema 3.6 Seja S IR
n
um conjunto nao vazio, convexo e fechado. Dado z IR
n
, existe
um unico z S tal que
|z z|
2
|z x|
2
,
para todo x S.
Demonstracao. A existencia e garantida pelo Lema 3.5. Para provar a unicidade, suponha
que existam z ,= z em S tais que
|z z|
2
|z x|
2
e |z z|
2
|z x|
2
, (3.2)
para todo x S. Tomando x = z na primeira desigualdade e x = z na segunda, obtemos
|z z|
2
= |z z|
2
.
Por outro lado, o ponto z
=
1
2
( z + z) est a no convexo S. Alem disso, pelo Lema 3.4,
com r = |z z|
2
= |z z|
2
e t =
1
2
, temos
|z z
|
2
= |(1 t)(z z) + t(z z)|
2
< r,
contradizendo (3.2).
No contexto do Lema 3.6, denotaremos
z = proj
S
(z).
Veja a terceira situac ao na Figura 3.2.
Vejamos agora um dos principais resultados desta sec ao. Por simplicidade vamos
indicar a norma euclidiana por | |.
Convexidade 37
Teorema 3.7 Sejam S IR
n
um conjunto nao vazio, convexo e fechado, z IR
n
e
z = proj
S
(z). Entao
(z z)
T
(x z) 0,
para todo x S.
Demonstracao. Considere um ponto arbitrario x S. Dado t (0, 1), pela convexidade
de S, temos que (1 t) z + tx S. Portanto,
|z z| |z (1 t) z tx| = |z z + t( z x)|.
Assim,
|z z|
2
|z z + t( z x)|
2
= |z z|
2
+ 2t(z z)
T
( z x) + t
2
| z x|
2
.
Como t > 0, temos que 2(z z)
T
(x z) t| z x|
2
. Passando o limite quando t 0,
obtemos
(z z)
T
(x z) 0,
completando a demonstracao (veja ilustrac ao na Figura 3.3).
z S
proj
S
z
x
Figura 3.3: Ilustracao do Teorema 3.7.
A condic ao dada no Teorema 3.7, alem de necess aria, e tambem suciente para
caracterizar a projec ao. Isto e provado no seguinte resultado.
Lema 3.8 Sejam S IR
n
um conjunto nao vazio, convexo e fechado e z IR
n
. Se z S
satisfaz
(z z)
T
(x z) 0,
para todo x S, entao z = proj
S
(z).
Demonstracao. Dado x S, temos
|z z|
2
|z x|
2
= 2z
T
z + z
T
z + 2z
T
x x
T
x
= (x z)
T
(2z x z)
= (x z)
T
_
2(z z) (x z)
_
0.
Isto prova que z = proj
S
(z).
O Lema 3.8 pode ser usado para se obter uma condic ao necessaria de otimalidade
quando se deseja minimizar uma funcao em um conjunto convexo fechado.
Convexidade 38
Teorema 3.9 Sejam f : IR
n
IR uma funcao diferenciavel e C IR
n
convexo e fechado.
Se x
C e minimizador local de f em C, entao

proj
C
_
x
f(x
)
_
= x
,
para todo 0.
Demonstracao. Fixado x C, temos f(x
) f
_
(1 t)x
+tx
_
, para todo t 0, sucien-
temente pequeno. Portanto,
0 f
_
x
+ t(x x
)
_
f(x
) = tf(x
)
T
(x x
) + r(t),
onde lim
t0
r(t)
t
= 0. Dividindo por t e passando o limite, obtemos f(x
)
T
(x x
) 0.
Assim, dado 0, temos
_
x
f(x
) x
_
T
(x x
) 0.
Pelo Lema 3.8, temos o resultado desejado (veja a Figura 3.4).
C
x
f
C
x
f
A recproca da armacao feita no Teorema 3.9 tambem e verdadeira para uma
classe especial de func oes, conforme veremos no Teorema 3.15 da proxima sec ao.
3.2 Funcoes convexas
As func oes que trataremos agora tem otimas propriedades, particularmente no
contexto de otimizac ao.
Denicao 3.10 Seja C IR
n
um conjunto convexo. Dizemos que a funcao f : IR
n
IR
e convexa em C quando
f
_
(1 t)x + ty
_
(1 t)f(x) + tf(y),
para todos x, y C e t [0, 1].
Convexidade 39
Geometricamente, podemos dizer que qualquer arco no graco de uma func ao
convexa est a sempre abaixo do segmento que liga as extremidades. Veja na Figura 3.5
uma func ao convexa e outra nao convexa.
x y 1t ( )x+ty
f(x)
f(y)
f((1t)x+ty)
(1t)f(x)+tf(y)
x y (1t)x+ty
f(x)
f(y)
f((1t)x+ty)
(1t)f(x)+tf(y)
Figura 3.5: Func oes convexa e nao convexa.
Apesar deste conceito ser muito simples, pode n ao ser tao f acil provar diretamente
da denic ao que uma func ao e convexa, mesmo ela sendo elementar.
Exemplo 3.11 Mostre, pela denicao, que as funcoes f, g : IR IR dadas por f(x) = x
2
e g(x) = e
x
sao convexas.
A convexidade de f decorre de
_
x + t(y x)
_
2
= x
2
+ 2tx(y x) + t
2
(y x)
2
x
2
+ 2tx(y x) + t(y x)
2
= x
2
+ t(y
2
x
2
).
Para ver que g e convexa, considere z = (1 t)x+ty. Como e
d
1 +d, para todo d IR,
temos
e
x
e
z
+ e
z
(x z) e e
y
e
z
+ e
z
(y z).
Multiplicando a primeira por (1 t) e a segunda por t, obtemos e
z
(1 t)e
x
+ te
y
.
O teorema seguinte justica o fato de func oes convexas serem muito bem vistas
em otimizac ao.
Teorema 3.12 Sejam C IR
n
convexo e f : C IR uma funcao convexa. Se x
C e
minimizador local de f, entao x
e minimizador global de f.
Demonstracao. Seja > 0 tal que f(x
) f(x), para todo x B(x
, ) C. Dado y C,
y / B(x
, ), tome t > 0 de modo que t|y x
| < . Assim, o ponto x = (1 t)x
+ ty
satisfaz
|x x
| = t|y x
| <
Convexidade 40
e portanto, x B(x
, ) C (veja a Figura 3.6). Deste modo temos

f(x
) f(x) (1 t)f(x
) + tf(y),
donde segue que f(x
) f(y).
x x
*
y
Figura 3.6: Ilustracao auxiliar para o Teorema 3.12.
Quando temos diferenciabilidade, podemos caracterizar a convexidade de forma
mais simples. Apresentamos a seguir dois resultados importantes.
n
IR uma funcao diferenciavel e C IR
n
convexo. A
funcao f e convexa em C se, e somente se,
f(y) f(x) +f(x)
T
(y x)
para todos x, y C.
Demonstracao. Seja f convexa. Para x, y C e t (0, 1] quaisquer, denindo d = y x,
temos x + td C e
f(x + td) = f
_
(1 t)x + ty
_
(1 t)f(x) + tf(y).
Portanto,
f(y) f(x) lim
t0
+
f(x + td) f(x)
t
= f(x)
T
d = f(x)
T
(y x).
Para provar a recproca, considere z = (1 t)x + ty e observe que
f(x) f(z) +f(z)
T
(x z) e f(y) f(z) +f(z)
T
(y z).
Multiplicando a primeira por (1 t) e a segunda por t obtemos
(1 t)f(x) + tf(y) f
_
(1 t)x + ty
_
,
completando a demonstracao.
Podemos interpretar geometricamente este resultado dizendo que uma fun cao
convexa est a sempre acima da sua aproximacao linear. Veja a Figura 3.7.
Convexidade 41
x
Figura 3.7: Aproximac ao linear de f.
O Teorema 3.13 tambem tem uma consequencia forte em otimizac ao, dada no
seguinte resultado.
Corolario 3.14 Sejam f : IR
n
IR uma funcao convexa, diferenciavel e C IR
n
convexo. Se f(x
)
T
(y x
) 0, para todo y C, entao x
e um minimizador global de
f em C. Em particular, todo ponto estacionario e minimizador global.
A Figura 3.8 ilustra uma situa cao que satisfaz as condicoes do Corolario 3.14 e
outra onde isto n ao se verica.
C
x
*
f
y
C
x
f
y
Figura 3.8: Ilustracao do Corolario 3.14.
Utilizando o resultado anterior podemos provar a recproca do Teorema 3.9 no
caso de f ser convexa.
n
IR uma funcao convexa diferenciavel e C IR
n
convexo
e fechado. Se
proj
C
_
x
f(x
)
_
= x
,
entao x
C e minimizador global de f em C.
Demonstracao. Pelo Teorema 3.7, temos
f(x
) =
_
x
f(x
) x
_
T
(x x
) 0.
Portanto, o Corolario 3.14 garante que x
C e minimizador global de f em C.
Convexidade 42
O proximo teorema nos fornece outro criterio para caracterizar convexidade.
n
IR uma funcao de classe (
2
e C IR
n
convexo.
(i) Se
2
f(x) 0, para todo x C, entao f e convexa em C.
(ii) Se f e convexa em C e int(C) ,= , entao
2
f(x) 0, para todo x C.
Demonstracao. (i) Dados x C e d IR
n
tal que x + d C, pelo Teorema 1.56,
f(x + d) = f(x) +f(x)
T
d +
1
2
d
T
2
f(x + td)d
para algum t (0, 1). Como
2
f(x) 0, conclumos que f(x + d) f(x) + f(x)
T
d.
Pelo Teorema 3.13, f e convexa.
(ii) Considere primeiro x int(C). Dado d IR
n
, temos que x + td C, para t
sucientemente pequeno. Portanto, pela convexidade de f, Teorema 3.13 e Teorema 1.53,
obtemos
0 f(x + td) f(x) tf(x)
T
d =
t
2
2
d
T
2
f(x)d + r(t),
onde lim
t0
r(t)
t
2
= 0. Dividindo por t
2
e passando o limite, obtemos d
T
2
f(x)d 0. Agora
considere x C, arbitrario. Como existe y int(C), o Exerccio 3.1 garante que todos
os pontos do segmento (x, y] est ao em int(C). Pelo que ja provamos, dados d IR
n
e
t (0, 1], vale d
T
2
f
_
(1 t)x + ty
_
d 0. Fazendo t 0
+
e usando a continuidade de
2
f, obtemos d
T
2
f(x)d 0, completando a demonstra cao.
3.1. Sejam C IR
n
convexo, x C e y int(C). Mostre que (x, y] int(C).
3.2. Mostre que o interior de um conjunto convexo e convexo.
3.3. Sejam T : IR
n
IR
m
linear e C IR
n
convexo. Mostre que T(C) e convexo.
3.4. Seja S IR
n
convexo. Mostre que o fecho S e convexo.
3.5. Seja S IR
n
convexo fechado. Mostre que dados x, y IR
n
, temos
|proj
S
(x) proj
S
(y)| |x y|.
3.6. Sejam a, x IR
n
, S IR
n
convexo fechado e L = x + S = x + d [ d S. Mostre
que L e convexo fechado e que proj
L
(a) = x + proj
S
(a x).
3.7. Seja S IR
n
um subespaco vetorial. Mostre que se z = proj
S
(z), entao z z S
.
Convexidade 43
3.8. Seja L = x IR
n
[ Ax + b = 0, onde A IR
mn
e tal que posto(A) = m e b IR
m
.
Dado a IR
n
, mostre que proj
L
(a) = a A
T
(AA
T
)
1
(Aa + b).
3.9. Sejam C IR
n
convexo e f : C IR convexa. Mostre que o conjunto C onde
f atinge seu valor mnimo e convexo.
3.10. Sejam A IR
mn
e C = x IR
n
[ Ax 0. Mostre que C e um conjunto convexo.
3.11. Mostre que
_
x
1
2
+
x
2
3
+
x
3
12
+
x
4
12
_
4
x
4
1
2
+
x
4
2
3
+
x
4
3
12
+
x
4
4
12
.
n
IR uma funcao convexa. Mostre que o conjunto de nvel
L = x IR
n
[ f(x) 0 e convexo.
3.13. Seja C IR
n
convexo. A fun cao f : C IR e convexa se, e somente se, o seu
epigrafo epi(f) =
__
x
y
_
IR
n+1
[ x C, y f(x)
_
e convexo.
3.14. Considere C um conjunto convexo e f, g : C IR funcoes convexas.
(a) Mostre que f + g e convexa;
(b) A diferenca f g e uma func ao convexa? Justique;
(c) Que condicao sobre a IR, garante que a funcao af e convexa.
3.15. Seja f : IR
2
2
1
x
1
x
2
+ 2x
2
2
2x
1
+
2
3
x
2
+ e
x
1
+x
2
. Mostre
que f e convexa.
3.16. Considere a funcao quadratica
f(x) =
1
2
x
T
Ax + b
T
x,
com A IR
nn
simetrica e b IR
n
. Mostre que se f e limitada inferiormente, ent ao A e
semidenida positiva e f possui minimizador global.
3.17. Dentre todos os minimizadores da fun cao f do Exerccio 3.16, mostre que existe
um unico que pertence a Im(A).
3.18. Refazer o Exemplo 3.11 da Se cao 3.2 usando o Teorema 3.13 e tambem usando o
Teorema 3.16.
Captulo 4
Algoritmos
Em um problema de otimizacao, dicilmente conseguimos resolver, de forma di-
reta, o sistema (normalmente n ao linear) de n equac oes e n inc ognitas dado por f(x) = 0.
Normalmente, a solucao e obtida por meio de um processo iterativo. Consideramos
um ponto inicial x
0
, obtemos um ponto melhor x
1
e repetimos o processo gerando uma
sequencia (x
k
) IR
n
na qual a func ao objetivo decresce.
Basicamente temos tres aspectos concernentes aos metodos de otimizac ao. O
primeiro consiste na criac ao do algoritmo propriamente dito, que deve levar em conta a
estrutura do problema e as propriedades satisfeitas pelas solu coes, entre outras coisas.
O segundo aspecto se refere às sequencias geradas pelo algoritmo, onde a principal
quest ao e se tais sequencias realmente convergem para uma solucao do problema. Um
algoritmo e dito globalmente convergente quando para qualquer sequencia (x
k
) gerada
pelo algoritmo e qualquer ponto de acumulac ao x de (x
k
), temos que x e estacion ario.
Apresentamos na Secao 4.3 uma discussao mais detalhada deste conceito.
O terceiro ponto a ser considerado e a velocidade com que a sequencia converge
para uma soluc ao, o que e conhecido como convergencia local (reveja a Sec ao 1.1.2).
Naturalmente, para ns pr aticos, n ao basta que uma sequencia seja convergente.

E preciso
que uma aproximac ao do limite possa ser obtida em um tempo razo avel. Deste modo, bons
algoritmos sao os que geram sequencias que convergem rapidamente para uma soluc ao.
Vamos agora descrever um modelo geral de algoritmo para minimizar uma func ao
em IR
n
. No Captulo 5, estudaremos algoritmos especcos, analisando os aspectos men-
cionados acima. Algumas referencias para este assunto s ao [13, 14, 32, 39].
4.1 Algoritmos de descida
Uma forma geral de construir um algoritmo consiste em escolher, a partir de
cada ponto obtido, uma dire cao para dar o proximo passo. Uma possibilidade razoavel e
determinar uma direcao segundo a qual f decresce.
44
Algoritmos 45
Denicao 4.1 Considere uma funcao f : IR
n
IR, um ponto x IR
n
e uma direcao
d IR
n
0. Dizemos que d e uma direcao de descida para f, a partir de x, quando
existe > 0 tal que f( x + td) < f( x), para todo t (0, ).
Apresentamos abaixo uma condicao suciente para uma dire cao ser de descida.
Teorema 4.2 Se f( x)
T
d < 0, entao d e uma direcao de descida para f, a partir de x.
Demonstracao. Sabemos que
f( x)
T
d =
f
d
( x) = lim
t0
f( x + td) f( x)
t
.
Pela hip otese e pela preservac ao do sinal, existe > 0 tal que
f( x + td) f( x)
t
< 0,
para todo t (, ), t ,= 0. Portanto, f( x + td) < f( x), para todo t (0, ), o que
completa a demonstracao.
Quando n = 2 ou n = 3, podemos interpretar geometricamente o Teorema 4.2,
dizendo que as direcoes que formam um angulo obtuso com f( x) s ao de descida. Veja
a Figura 4.1.
x
f(x)
d
Exemplo 4.3 Sejam f : IR
2
IR dada por f(x) =
1
2
(x
2
1
x
2
2
) e x =
_
1
0
_
. Se d =
_
d
1
d
2
_
e tal que d
1
0, entao d e uma direcao de descida para f, a partir de x.
Temos f( x)
T
d = d
1
. Caso d
1
< 0, podemos aplicar o Teorema 4.2 para concluir o
que se pede. Entretanto, se d
1
= 0, nao podemos usar o teorema, mas basta notar que
f( x + td) = f
_
1
td
2
_
= f( x)
(td
2
)
2
2
. A Figura 4.2 ilustra este caso.
Algoritmos 46
Exemplo 4.4 Considere a mesma funcao do Exemplo 4.3 e x =
_
0
1
_
. O que podemos
dizer sobre d =
_
1
0
_
?
N ao podemos aplicar o Teorema 4.2, pois f( x)
T
d = 0. Procedendo de modo analogo ao
exemplo anterior, obtemos f( x + td) = f
_
t
1
_
= f( x) +
t
2
2
. Portanto, a fun cao cresce
ao longo de d. A Figura 4.2 ilustra este exemplo.
f
d
f
d
Figura 4.2: Ilustrac ao dos Exemplos 4.3 e 4.4.
Os dois exemplos anteriores mostram que nada se pode armar, a princpio,
quando f( x)
T
d = 0.
Vamos agora apresentar um algoritmo basico para minimizar f e discutir a sua
convergencia.
Algoritmo 4.1 Algoritmo basico
Dado: x
0
IR
n
k = 0
repita enquanto f(x
k
) ,= 0
Calcule d
k
tal que f(x
k
)
T
d
k
< 0
Escolha t
k
> 0 tal que f(x
k
+ t
k
d
k
) < f(x
k
)
Faca x
k+1
= x
k
+ t
k
d
k
k = k + 1
O Algoritmo 4.1 ou encontra um ponto estacion ario em um n umero nito de
iterac oes ou gera uma sequencia ao longo da qual f decresce. A quest ao agora e saber
se esta sequencia tem algum ponto de acumulac ao e, caso armativo, se este ponto e
estacion ario. Infelizmente, n ao podemos tirar conclusoes boas. Considere f : IR IR
dada por f(x) = x
2
e as sequencias x
k
= 1 +
1
k + 1
e y
k
= (1)
k
+
(1)
k
k + 1
. Ambas
podem ser obtidas pelo algoritmo, x
k
1 e (y
k
) tem dois pontos de acumula cao, 1 e 1.
Entretanto, nenhum desses pontos e estacionario. Veja a Figura 4.3.
Algoritmos 47
2 1 0 1 2
1
0
1
2
3
4
2 1 0 1 2
1
0
1
2
3
4
Figura 4.3: O Algoritmo 4.1 pode n ao encontrar um ponto estacionario.
Deste modo, se queremos garantir convergencia, a escolha da dire cao d
k
e do
tamanho do passo t
k
, no Algoritmo 4.1, n ao pode ser arbitr aria. Discutiremos na pr oxima
sec ao como obter t
k
, tendo dada uma dire cao. A determinac ao de uma direcao de busca
ser a tratada no Captulo 5.
4.2 Metodos de busca unidirecional
Dada uma func ao f : IR
n
IR, um ponto x IR
n
e uma direc ao de descida
d IR
n
, queremos encontrar

t > 0 tal que
f( x +

td) < f( x).
Como vimos anteriormente precisamos balancear o tamanho do passo t com o decrescimo
promovido em f. Veremos duas abordagens para este problema. A primeira consiste em
fazer uma busca exata a partir do ponto x segundo a direc ao d. A segunda procura uma
reduc ao suciente de f que seja de certo modo proporcional ao tamanho do passo.
4.2.1 Busca exata - metodo da secao aurea
Nosso objetivo neste caso e ambicioso e consiste em minimizar f a partir do ponto
x na direc ao d (veja a Figura 4.4). Mais precisamente, temos que resolver o problema
minimizar f( x + td)
sujeito a t > 0.
(4.1)
Este problema e, em geral, difcil de se resolver. Entretanto, para certas funcoes
especiais, existem algoritmos para resolve-lo. Veremos adiante tais func oes, bem como
um algoritmo. Antes porem vamos fazer um exemplo que pode ser resolvido de forma
direta.
Algoritmos 48
Figura 4.4: Busca unidirecional exata.
2
IR dada por f(x) =
1
2
(x
1
2)
2
+(x
2
1)
2
, x =
_
1
0
_
e d =
_
3
1
_
. Faca a busca exata a partir de x, na direcao d.
Note primeiro que d e de fato uma direc ao de descida, pois
f( x)
T
d = (1 2)
_
3
1
_
= 5 < 0.
Para fazer a busca, considere
(t) = f( x + td) = f
_
1 + 3t
t
_
=
11t
2
2
5t +
3
2
,
cujo minimizador satisfaz
(t) = 11t 5 = 0. Assim,
t =
5
11
e x +

td =
1
11
_
26
5
_
_
2, 36
0, 45
_
.
A Figura 4.5 ilustra este exemplo.
Na pr atica e claro que os problemas s ao bem mais complexos que o Exemplo 4.5
e s o podem ser resolvidos por meio de algoritmos. Vamos agora denir func ao unimodal,
para a qual existem algoritmos para minimiza-la. Em seguida veremos o algoritmo da
sec ao aurea, que encontra um ponto pr oximo de um minimizador com a precisao que se
queira. Este algoritmo ser a entao aplicado para a fun cao : [0, ) IR denida por
(t) = f( x + td).
Algoritmos 49
1 0 1 2 3 4 5
1.5
1
0.5
0
0.5
1
1.5
2
2.5
3
f
x
x+td
d
Denicao 4.6 Uma funcao contnua : [0, ) IR e dita unimodal quando admite
um conjunto de minimizadores [t
1
, t
2
], e estritamente decrescente em [0, t
1
] e estritamente
crescente em [t
2
, ).
Na Figura 4.6 temos duas funcoes unimodais. Na segunda o intervalo de minimi-
zadores e degenerado.
t
1
t
2
t
1
=t
2
Figura 4.6: Exemplos de func oes unimodais.
Para facilitar a descri cao do algoritmo, vamos considerar a Figura 4.7.
Suponha que um minimizador de pertence ao intervalo [a, b].
(i) Considere a < u < v < b em [0, );
(ii) Se (u) < (v) ent ao o trecho [v, b] n ao pode conter um minimizador e pode ser
descartado;
(iii) Se (u) (v) ent ao o trecho [a, u] pode ser descartado;
(iv) Particione o intervalo que cou e repita o processo.
Vamos discutir agora como particionar o intervalo [a, b]. A obtencao deste inter-
valo, que deve conter um minimizador de , sera tratada adiante.
Algoritmos 50
a u v b
Figura 4.7: Secao aurea.
Uma estrategia que parece natural e dividir o intervalo em tres partes iguais, ou
seja, denir
u = a +
1
3
(b a) e v = a +
2
3
(b a).
Assim, descartamos
1
3
do intervalo corrente a cada etapa. Entretanto, esta forma de
particionar o intevalo tem uma desvantagem. Precisamos fazer duas novas avaliac oes de
func ao por etapa, pois o ponto que sobrou, u ou v, n ao pode ser aproveitado. Veja a
Figura 4.8.
a b u v
a
+
b
+
u
+
v
+
Figura 4.8: Partic ao do intervalo [a, b].
Uma estrategia que veremos ser mais inteligente consiste em escolher os pontos
u e v que dividem o segmento [a, b] na raz ao aurea, de acordo com a seguinte denic ao.
Denicao 4.7 Um ponto c divide o segmento [a, b] na razao aurea quando a razao entre o
maior segmento e o segmento todo e igual à razao entre o menor e o maior dos segmentos.
Tal razao e conhecida como o n umero de ouro e vale
5 1
2
0, 618.
Desta forma, temos que u e v devem satisfazer
b u
b a
=
u a
b u
e
v a
b a
=
b v
v a
.
Considerando
1
e
2
tais que
u = a +
1
(b a) e v = a +
2
(b a), (4.2)
Algoritmos 51
obtemos 1
1
=

1
1
1
e
2
=
1
2
2
. Portanto,
1
=
3
5
2
0, 382 e
2
=
5 1
2
0, 618.
Note que
1
+
2
= 1 e
2
2
=
1
. (4.3)
Uma das vantagens da divis ao na razao aurea em relac ao ` a divis ao em tres partes
iguais e que descartamos mais de 38% do intervalo ao inves de 33, 33%. Outra vantagem
se refere a economia em avaliac ao de fun cao como veremos a seguir.
No processo iterativo, a cada etapa descartamos o intervalo [a, u] ou [v, b], obtendo
um novo segmento que devera ser particionado novamente. Indicamos por [a
+
, b
+
] o novo
intervalo que ser a particionado pelos ponto u
+
e v
+
.
Conforme veremos no pr oximo resultado, o ponto u e aproveitado na proxima
etapa e passa a ser v
+
quando descartamos [v, b]. Assim, o valor da funcao (u) e apro-
veitado para a pr oxima etapa.
Lema 4.8 No metodo da secao aurea, se [v, b] e descartado entao v
+
= u.
Demonstracao. Como [v, b] foi descartado b
+
= v e a
+
= a. Portanto, usando (4.2), temos
que
v
+
= a
+
+
2
(b
+
a
+
) = a +
2
(v a)
Usando (4.2) novamente e a relacao (4.3), obtemos
v
+
= a +
2
2
(b a) = a +
1
(b a) = u,
completando a prova.
A Figura 4.9 ilustra esta propriedade.
a b u v
a
+
b
+
u
+
v
+
Figura 4.9: Partic ao do intervalo [a, b].
Apresentamos agora o algoritmo da secao aurea, que tem duas fases. Na primeira,
obtemos um intervalo [a, b] que contem um minimizador de . A ideia desta etapa e
considerar um intervalo inicial [0, 2], com > 0, e ampli a-lo, deslocando para a direita,
ate que um crescimento de seja detectado.
Algoritmos 52
Na segunda fase, o intervalo [a, b] e reduzido, por meio do descarte de subin-
tervalos, ate que reste um intervalo de tamanho suciente para que uma precisao seja
alcancada.
Algoritmo 4.2 Secao

Aurea
Dados: > 0, > 0,
1
=
3
5
2
,
2
= 1
1
Fase 1: Obtenc ao do intervalo [a, b]
a = 0, s = e b = 2
repita enquanto (b) < (s)
a = s, s = b e b = 2b
Fase 2: Obtenc ao de

t [a, b]
u = a +
1
(b a), v = a +
2
(b a)
repita enquanto b a >
se (u) < (v)
b = v, v = u, u = a +
1
(b a)
sen
ao
a = u, u = v, v = a +
2
(b a)
Dena

t =
u + v
2
Caso seja unimodal, o Algoritmo 4.2 funciona perfeitamente e encontra uma
aproxima cao para um minimizador dentro de uma tolerancia dada. Caso a func ao n ao
seja unimodal, o algoritmo pode nao ser ecaz. Um estudo mais detalhado sobre o metodo
da secao aurea pode ser encontrado em [9].
4.2.2 Busca inexata - condicao de Armijo
Em muitas situac oes n ao convem aplicar a busca exata, ou porque n ao e uni-
modal, ou pelo alto custo computacional de se fazer uma busca exata a cada iteracao do
Algoritmo 4.1. O metodo de Armijo procura uma boa reduc ao da func ao ao longo da
direc ao, sem tentar minimiz a-la.
Considere entao um ponto x IR
n
, uma direc ao de descida d IR
n
e (0, 1).
Basicamente, a regra de Armijo encontra

t > 0 tal que
f( x +

td) f( x) +
tf( x)
T
d. (4.4)
A condic ao acima signica que queremos mais que uma simples reduc ao em f.
Esta reduc ao deve ser proporcional ao tamanho do passo. O pr oximo resultado garante
que isto pode ser de fato obtido.
Algoritmos 53
Teorema 4.9 Considere uma funcao diferenciavel f : IR
n
IR, um ponto x IR
n
, uma
direcao de descida d IR
n
e (0, 1). Entao existe > 0 tal que
f( x + td) f( x) + tf( x)
T
d,
para todo t [0, ).
Demonstracao. Caso f( x)
T
d = 0, o resultado segue da denic ao de direcao de descida.
Suponha entao que f( x)
T
d < 0. Assim, como < 1, temos
lim
t0
f( x + td) f( x)
t
= f( x)
T
d < f( x)
T
d.
Portanto, existe > 0 tal que
f( x + td) f( x)
t
< f( x)
T
d,
para todo t (0, ). Isto implica que
f( x + td) f( x) + tf( x)
T
d,
o que completa a demonstrac ao.
A condic ao de Armijo pode parecer articial mas na realidade pode ser interpre-
tada de forma bem interessante. Considere a fun cao : [0, ) IR dada por
(t) = f( x + td).
A aproximac ao de primeira ordem de em torno de t = 0, tambem chamada de modelo
linear, e
p(t) = (0) + t
(0) = f( x) + tf( x)
T
d.
Assim, podemos reescrever a relacao (4.4) como
(0) (
t) = f( x) f( x +

td)
_
p(0) p(
t)
_
.
Isto signica que procuramos um passo cuja reducao na funcao objetivo seja pelo menos
uma frac ao da reduc ao obtida no modelo linear. Veja uma ilustra cao na Figura 4.10.
Note tambem nesta gura a reta dada por
q(t) = f( x) + tf( x)
T
d.
A condicao de Armijo e satisfeita para os pontos tais que est a abaixo de q.
Tanto do ponto de vista computacional quanto te orico, e importante que o ta-
manho de passo

t, satisfazendo (4.4), n ao seja muito pequeno. Uma maneira de garantir
Algoritmos 54
p(t)
q
p(0)=f(x)
f(x+td)
t
Figura 4.10: Interpretac ao da condic ao de Armijo.
tal propriedade consiste em iniciar com t = 1 e, se necess ario, reduzir t ate que (4.4) seja
satisfeita. Sintetizamos isto no seguinte algoritmo.
Algoritmo 4.3 Busca de Armijo
Dados: x IR
n
, d IR
n
(direc ao de descida), , (0, 1)
t = 1
repita enquanto f( x + td) > f( x) + tf( x)
T
d
t = t
O metodo de Armijo nao encontra um ponto pr oximo a um minimizador unidi-
recional, mas e muito eciente. Para algoritmos bem projetados, faz um n umero muito
pequeno de c alculos de func ao, sendo portanto muito r apido.
2
IR dada por f(x) =
1
2
(x
1
2)
2
+(x
2
1)
2
, x =
_
1
0
_
e d =
_
3
1
_
. Faca uma busca de Armijo a partir de x, na direcao d.
Temos que d e uma direc ao de descida, pois
f( x)
T
d = (1 2)
_
3
1
_
= 5 < 0.
Alem disso, a relacao f( x + td) f( x) + tf( x)
T
d pode ser escrita como
f
_
1 + 3t
t
_
f
_
1
0
_
+ t(1 2)
_
3
1
_
,
o que equivale a
t
10(1 )
11
.
Algoritmos 55
Considere por exemplo =
1
4
e = 0, 8. Ent ao qualquer t satisfazendo t
15
22
0, 6818
e aceit avel. Come cando com t = 1, teremos o passo recusado. Entao fazemos t = 0, 8 1,
que tambem e recusado. Enm, fazendo t = 0, 8 0, 8 = 0, 64, teremos o passo aceito.
Assim,
t = 0, 64 e x +

td =
_
2, 92
0, 64
_
.
Veja a Figura 4.11, onde tambem representamos o ponto obtido pela busca exata, x
ex
.
1 0 1 2 3 4 5
1.5
1
0.5
0
0.5
1
1.5
2
2.5
3
3.5
f
x
x+td
x
ex
d
Salientamos que, normalmente, n ao conseguimos explicitar t, na condicao de
Armijo, como zemos no exemplo anterior e portanto, temos que seguir os passos do
Algoritmo 4.3, testando a desigualdade para cada valor particular de t.
4.3 Convergencia global de algoritmos
Nesta sec ao discutiremos a convergencia global de algoritmos de descida. Pri-
meiro, vamos considerar o Algoritmo 4.1 com a direc ao denida por uma transformac ao
do gradiente via matrizes denidas positivas. Em seguida, apresentaremos uma discussao
mais geral sobre convergencia de algoritmos, sintetizada no Teorema de Polak [43].
4.3.1 Convergencia global de algoritmos de descida
Seja H : IR
n
IR
nn
uma func ao contnua que associa a cada x IR
n
uma matriz
denida positiva H(x) IR
nn
. Assim, se f(x) ,= 0, temos que d = H(x)f(x) e
uma direc ao de descida. De fato, f(x)
T
d = f(x)
T
H(x)f(x) < 0.
Temos assim uma maneira de obter dire coes de descida para o Algoritmo 4.1.
Para facilitar, vamos reescrever o algoritmo com esta escolha da direc ao de busca. A
determinac ao do tamanho do passo pode ser feita pela busca exata ou de acordo com o
criterio de Armijo, pelo Algoritmo 4.3.
Algoritmos 56
Algoritmo 4.4 Algoritmo de descida
Dado: x
0
IR
n
k = 0
repita enquanto f(x
k
) ,= 0
Dena d
k
= H(x
k
)f(x
k
)
Obtenha t
k
> 0 tal que f(x
k
+ t
k
d
k
) < f(x
k
)
Faca x
k+1
= x
k
+ t
k
d
k
k = k + 1
Vamos analisar a convergencia global do Algoritmo 4.4 de acordo com a seguinte
denic ao.
Denicao 4.11 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (x
k
) gerada pelo algoritmo e qualquer ponto de acumulacao x de (x
k
), temos que
x e estacionario.
Nos dois teoremas que seguem, vamos supor que a func ao f, a ser minimizada, e
de classe (
1
.
Teorema 4.12 O Algoritmo 4.4, com o tamanho do passo calculado pela busca exata, e
globalmente convergente.
Demonstracao. Sejam (x
k
) uma sequencia gerada pelo algoritmo e x um ponto de acu-
mulac ao de (x
k
), digamos x
k
IN
x. Suponha por absurdo que x n ao seja estacion ario,

isto e, f( x) ,= 0. Assim,

d = H( x)f( x) e uma direcao de descida, o que garante a
existencia de

t > 0 tal que = f( x) f( x +

t
d) > 0. Considere h : IR
n
IR dada por
h(x) = f(x) f
_
x
tH(x)f(x)
_
. Como h e contnua, temos que h(x
k
)
IN
h( x) = .
Portanto,
f(x
k
) f(x
k
+

td
k
) = h(x
k
)

2
,
para todo k IN
, sucientemente grande. Deste modo, como t

k
foi obtido pela busca
exata, podemos concluir que
f(x
k+1
) = f(x
k
+ t
k
d
k
) f(x
k
+

td
k
) f(x
k
)

2
,
ou seja,
f(x
k
) f(x
k+1
)

2
, (4.5)
para todo k IN
, sucientemente grande. Por outro lado, pela continuidade de f, temos

f(x
k
)
IN
f( x). Como a sequencia (f(x

k
))
kIN
e decrescente, o Teorema 1.15 garante que
f(x
k
) f( x), contradizendo (4.5).
Se utilizarmos a busca de Armijo para calcular t
k
, tambem podemos garantir a
convergencia.
Algoritmos 57
Teorema 4.13 O Algoritmo 4.4, com o tamanho do passo calculado pela condicao de
Armijo (Algoritmo 4.3), e globalmente convergente.
k
mulac ao de (x
k
), digamos x
k
IN
x. Suponha por absurdo que x n ao seja estacionario, isto

e, f( x) ,= 0. Pela continuidade de f, temos f(x
k
)
IN
f( x). Como a sequencia (f(x

k
)) e
decrescente, podemos aplicar o Teorema 1.15 para concluir que f(x
k
) f( x). Por outro
lado, pela condicao de Armijo, temos
f(x
k+1
) = f(x
k
+ t
k
d
k
) f(x
k
) + t
k
f(x
k
)
T
d
k
.
Usando a deni cao de d
k
e a positividade de H(x
k
), obtemos
f(x
k
) f(x
k+1
) t
k
f(x
k
)
T
H(x
k
)f(x
k
) 0.
Portanto, t
k
f(x
k
)
T
H(x
k
)f(x
k
) 0. Mas
f(x
k
)
T
H(x
k
)f(x
k
)
IN
f( x)
T
H( x)f( x) ,= 0,
donde segue que t
k
IN
0. Entao, t
k
< 1, para todo k IN
, sucientemente grande. Pelo

Algoritmo 4.3, o passo
t
k
existiu e foi recusado. Assim,

f(x
k
+ t
k
d
k
) f(x
k
) + t
k
f(x
k
)
T
d
k
e f
_
x
k
+
t
k
d
k
_
> f(x
k
) +
t
k
f(x
k
)
T
d
k
.
Como a fun cao (t) = f(x
k
+td
k
) f(x
k
) tf(x
k
)
T
d
k
e contnua, o teorema do valor
intermedi ario garante a existencia de s
k

_
t
k
,
t
k
_
tal que (s
k
) = 0, isto e,
f(x
k
+ s
k
d
k
) f(x
k
) = s
k
f(x
k
)
T
d
k
.
Aplicando agora o teorema do valor medio (Teorema 1.55), obtemos
f(x
k
+
k
s
k
d
k
)
T
(s
k
d
k
) = f(x
k
+ s
k
d
k
) f(x
k
) = s
k
f(x
k
)
T
d
k
,
com
k
(0, 1). Portanto,
f(x
k
+
k
s
k
d
k
)
T
H(x
k
)f(x
k
) = f(x
k
)
T
H(x
k
)f(x
k
).
Como s
k
IN
0, pois s
k

_
t
k
,
t
k
_
e t
k
IN
0, podemos concluir que

f( x)
T
H( x)f( x) = f( x)
T
H( x)f( x),
o que e uma contradicao.
Algoritmos 58
4.3.2 Teorema de Polak
Apresentamos aqui alguns conceitos gerais sobre convergencia de algoritmos. Ba-
sicamente, se o passo for eciente, no sentido de que, perto de um ponto nao desejavel a
func ao objetivo decresce bastante, ent ao o algoritmo nao erra. Esta condi cao, que ser a
formalizada a seguir, e conhecida como criterio de Polak [43] para convergencia global de
algoritmos.
Denicao 4.14 Seja IR
n
e T uma propriedade qualquer. Dizemos que x e
desejavel quando satisfaz a propriedade T.
Dado um conjunto fechado IR
n
e uma propriedade T, considere o seguinte
problema geral
(P) Encontrar um ponto desej avel x .
Denicao 4.15 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (x
k
) gerada pelo algoritmo e qualquer ponto de acumulacao x de (x
k
), temos que
x e desejavel.
Um algoritmo que gera apenas sequencias que nao tem pontos de acumula cao e
um algoritmo globalmente convergente. De fato, n ao podemos encontrar uma sequencia
gerada pelo algoritmo com um ponto de acumulac ao nao desejavel. Veja o Exemplo 4.16.
Exemplo 4.16 O algoritmo
Dado: x
0
IR
k = 0
repita
x
k+1
= x
k
1
k = k + 1
gera sequencias sem pontos de acumulacao, pois [x
m
x
n
[ 1 para todos m, n IN.
Denicao 4.17 Considere uma funcao : IR. Dizemos que um algoritmo e de
descida para o problema (P), com relacao a , quando para qualquer sequencia (x
k
)
gerada pelo algoritmo temos (x
k+1
) (x
k
), para todo k IN. Tal funcao e chamada
funcao de merito.
Teorema 4.18 (Polak) Considere o problema (P) e suponha que existe uma funcao de
merito contnua : IR tal que para toda sequencia (x
k
) gerada pelo algoritmo e todo
ponto x nao desejavel, existe uma vizinhanca V de x e uma constante > 0 tais
que se x
k
V , entao (x
k+1
) (x
k
) . Entao todo ponto de acumulacao de (x
k
) e
desejavel.
Algoritmos 59
k
mulac ao de (x
k
), digamos x
k
IN
x. Suponha por absurdo que x n ao seja desej avel. Ent ao

existe uma vizinhanca V de x e uma constante > 0 tais que
(x
k+1
) (x
k
) ,
se x
k
V . Como x
k
IN
x, podemos redenir IN
, se necess ario, de modo que x

k
V , para
todo k IN
. Assim,
(x
k
) (x
k+1
) , (4.6)
para todo k IN
. Por outro lado, utilizando a continuidade de , temos (x

k
)
IN
( x).
Como a sequencia ((x
k
))
kIN
e mon otona n ao crescente, podemos aplicar o Teorema 1.15
para concluir que (x
k
) ( x), o que contradiz 4.6. Portanto, x e desej avel.
2
IR dada por f(x) =
1
2
(x
1
2)
2
+(x
2
1)
2
e x =
_
1
0
_
. Mostre
que d =
_
0
1
_
e uma direcao de descida para f e faca a busca exata a partir de x, na
direc ao d.
4.2. Sejam f : IR
2
IR dada por f(x) =
1
2
(x
2
1
+ x
2
2
), x =
_
1
0
_
e d =
_
d
1
d
2
_
. Mostre
que se d
1
< 0, ent ao d e uma direc ao de descida para f, a partir de x. Estude o caso
d
1
= 0.
4.3. [13, Exerc. 4.6 e 4.7] Considere f : IR
n
IR dada por f(x) =
1
2
x
T
Ax + b
T
x + c,
onde A IR
nn
e uma matriz denida positiva, b IR
n
e c IR.
(a) Mostre que se f(x)
T
d = 0, ent ao a func ao cresce a partir de x ao longo de d;
(b) Suponha que d e uma direc ao de descida a partir de x. Mostre que a busca exata
fornece t
=
f(x)
T
d
d
T
Ad
;
(c) Mostre que se t
satisfaz a condi cao de Armijo

f(x + t
d) f(x) + t
f(x)
T
d,
ent ao
1
2
.
4.4. [13, Exerc. 6.7] Considere f : IR
n
IR dada por f(x) =
1
2
x
T
Ax + b
T
x + c, onde
A IR
nn
n
e c IR. Sejam x
o minimizador de
Algoritmos 60
f e v IR
n
um autovetor de A. Fa ca uma busca exata a partir do ponto x = x
+ v,
na direc ao d = f(x). Que ponto e obtido? Qual e a interpreta cao geometrica deste
exerccio?
4.5. [13, Exerc. 4.9] Sejam f : IR
n
IR, f (
2
e x IR
n
tal que f( x) = 0 e
2
f( x)
n ao e semidenida positiva. Prove que existe uma direc ao de descida d em x.
4.6. Prove que se [a, u] e descartado no algoritmo da sec ao aurea, entao u
+
= v.
Captulo 5
Metodos de Otimizacao Irrestrita
No Captulo 4 vimos modelos gerais de algoritmos com o prop osito de resolver o
problema irrestrito
minimizar f(x)
sujeito a x IR
n
.
(5.1)
Vamos agora estudar alguns metodos especcos de minimizac ao para o problema (5.1).
Abordaremos aspectos de convergencia global bem como a velocidade de convergencia de
tais metodos. Para o desenvolvimento dos conceitos neste captulo suporemos que f e
uma func ao de classe (
2
. Algumas referencias para este assunto s ao [13, 14, 23, 32, 39].
5.1 Metodo do gradiente
Uma das estrategias mais conhecidas para minimizar uma func ao e o metodo
cl assico do gradiente, tambem chamado metodo de Cauchy.

E um processo iterativo que
a cada etapa faz uma busca na direc ao oposta ao vetor gradiente da func ao objetivo no
ponto corrente. A justicativa desta escolha se baseia no fato de que, dentre as dire coes
ao longo das quais f decresce, a dire cao oposta ao gradiente e a de decrescimento mais
acentuado. De fato, se d = f(x) e v IR
n
e tal que |v| = |d|, ent ao
f
d
(x) = f(x)
T
d = |f(x)|
2
= |f(x)||v| f(x)
T
v =
f
v
(x).
5.1.1 Algoritmo
No algoritmo apresentado a seguir, deixamos em aberto a determinacao do ta-
manho do passo. Dentre as diversas formas de busca existentes, podemos utilizar a busca
exata (algoritmo da sec ao aurea) ou inexata (busca de Armijo) ja discutidas anterior-
mente.
61
Metodos para Otimizac ao Irrestrita 62
Algoritmo 5.1 Metodo do Gradiente
Dado: x
0
IR
n
k = 0
repita enquanto f(x
k
) ,= 0
Dena d
k
= f(x
k
)
Obtenha t
k
> 0 tal que f(x
k
+ t
k
d
k
) < f(x
k
)
Faca x
k+1
= x
k
+ t
k
d
k
k = k + 1
Cabe salientar que este algoritmo e exatamente o Algoritmo 4.4, onde conside-
ramos H(x
k
) = I IR
nn
, para todo k IN. Isto nos permite aplicar aqui a analise de
convergencia feita no Captulo 4, conforme veremos no Teorema 5.2.
A Figura 5.1 mostra 4 iterac oes do algoritmo com a busca exata aplicado para
minimizar uma fun cao quadr atica convexa. Esta gura sugere duas propriedades do
algoritmo. Uma delas, formalizada no Lema 5.1, e o fato de duas direc oes consecutivas
serem ortogonais. A outra propriedade se refere ` a convergencia, que sera discutida na
pr oxima se cao.
Figura 5.1: Passos do algoritmo do gradiente.
Lema 5.1 No Algoritmo 5.1, se t
k
e obtido por uma minimizacao local de f(x
k
+ td
k
),
entao (d
k+1
)
T
d
k
= 0.
Demonstracao. Denindo : IR IR por (t) = f(x
k
+ td
k
), temos
(t
k
) = f(x
k
+ t
k
d
k
)
T
d
k
= f(x
k+1
)
T
d
k
.
Portanto, como a busca e feita por uma minimiza cao local, conclumos que
(d
k+1
)
T
d
k
= f(x
k+1
)
T
d
k
=
(t
k
) = 0,
o que prova a arma cao.
5.1.2 Convergencia global
A convergencia global do Algoritmo do gradiente e uma consequencia imediata
do que foi estabelecido no Captulo 4.
Teorema 5.2 O Algoritmo 5.1, com o tamanho do passo t
k
calculado pela busca exata, e
globalmente convergente, segundo a Denicao 4.11. O mesmo resultado vale se utilizarmos
a busca de Armijo para calcular t
k
.
Demonstracao. As armac oes seguem diretamente dos Teoremas 4.12 e 4.13, considerando
H(x) = I IR
nn
.
Salientamos que a convergencia no caso da busca de Armijo e assegurada se
utilizarmos o Algoritmo 4.3 para calcular t
k
. Caso o tamanho do passo seja escolhido
apenas pela relac ao (4.4), ele pode car arbitrariamente pequeno e o algoritmo pode n ao
convergir. Veja o Exerccio 5.3 no nal do captulo.
5.1.3 Velocidade de convergencia
Os resultados mais importantes sobre a velocidade de convergencia do algoritmo
do gradiente s ao revelados quando a fun cao objetivo e quadratica. Vamos ent ao considerar
f(x) =
1
2
x
T
Ax + b
T
x + c, (5.2)
com A IR
nn
denida positiva, b IR
n
e c IR. Assim, f e convexa e tem um unico
minimizador x
, que e global e satisfaz

Ax
+ b = f(x
) = 0. (5.3)
Mostraremos agora que, usando a norma euclidiana, a sequencia gerada pelo
Algoritmo 5.1 com busca exata converge linearmente para x
, com taxa de convergencia

_
1

1
n
,
onde
1
e o menor e
n
o maior autovalor de A. Esta abordagem n ao aparece na lite-
ratura classica de otimizac ao, que estabelece a convergencia linear da sequencia (f(x
k
))
ou, equivalentemente, a convergencia linear da sequencia (x
k
), na norma induzida pela
Hessiana da quadr atica. Para mais detalhes sobre esta discussao, veja [25].
Primeiramente, note que o comprimento do passo otimo e dado por
t
k
=
(d
k
)
T
d
k
(d
k
)
T
Ad
k
. (5.4)
De fato, como pode ser visto no Exerccio 4.3, basta fazer
f(x
k
+ td
k
)
T
d
k
=
d
dt
f(x
k
+ td
k
) = 0.
Vejamos agora um lema tecnico que sera util na analise da velocidade de con-
vergencia do metodo do gradiente, que sera feita em seguida.
Lema 5.3 Dado x IR
n
, x ,= 0, considere d = Ax. Entao,
d
T
d
d
T
Ad

x
T
Ax
x
T
A
2
x
.
Demonstracao. Temos x
T
Ax = d
T
A
1
d e x
T
A
2
x = d
T
d. Portanto,
d
T
d
d
T
Ad
x
T
A
2
x
x
T
Ax
=
(d
T
d)
2
(d
T
Ad)(d
T
A
1
d)
.
Como A e denida positiva, podemos usar o Lema 1.48 para concluir que
d
T
d
d
T
Ad
x
T
A
2
x
x
T
Ax
1,
Teorema 5.4 Considere a funcao quadratica dada em (5.2) e a sequencia (x
k
) gerada
pelo Algoritmo 5.1, com busca exata. Se =
_
1

1
n
, entao
|x
k+1
x
|
2
|x
k
x
|
2
,
para todo k IN.
Demonstracao. Para simplicar a notac ao, vamos assumir que x
= 0 e f(x
) = 0, isto e,
f(x) =
1
2
x
T
Ax.
Isto nao tira a generalidade da demonstra cao em virtude do Exerccio 5.6. Temos ent ao
d
k
= f(x
k
) = Ax
k
, donde segue que
|x
k+1
|
2
2
= (x
k
+ t
k
d
k
)
T
(x
k
+ t
k
d
k
)
= (x
k
)
T
x
k
+ 2t
k
(x
k
)
T
d
k
+ t
2
k
(d
k
)
T
d
k
= |x
k
|
2
2
2t
k
(x
k
)
T
Ax
k
+ t
2
k
(x
k
)
T
A
2
x
k
.
Usando (5.4) e o Lemma 5.3, obtemos
|x
k+1
|
2
2
|x
k
|
2
2
2t
k
(x
k
)
T
Ax
k
+ t
k
(x
k
)
T
Ax
k
= |x
k
|
2
2
t
k
(x
k
)
T
Ax
k
.
Caso x
k
= 0 nao ha nada a fazer. Suponha entao que x
k
,= 0. Usando novamente (5.4),
obtemos
|x
k+1
|
2
2
|x
k
|
2
2
1
(d
k
)
T
d
k
(d
k
)
T
Ad
k
(x
k
)
T
Ax
k
(x
k
)
T
x
k
.
Utilizando o Lema 1.47, segue que
|x
k+1
|
2
2
|x
k
|
2
2
1

1
n
,
Este teorema tem uma interpretac ao geometrica interessante. As curvas de nvel
de f s ao elips oides cuja excentricidade depende da diferenca entre o maior e o menor
autovalor de A. Se
1
=
n
, entao as curvas de nvel sao esferas e a convergencia ocorre
em um unico passo. Entretanto, se
1

n
, ent ao os elips oides cam muito excentricos
e a convergencia se da de forma lenta. Veja ilustrac ao na Figura 5.2.
Figura 5.2: Excentricidade no algoritmo do gradiente.
Os resultados estabelecidos para func oes quadr aticas podem ser estendidos para
func oes gerais, como vemos no seguinte teorema, demonstrado em [32].
n
IR de classe (
2
. Suponha que x
IR
n
seja um minimizador
local de f, com
2
f(x
) denida positiva, e que a sequencia (x

k
), gerada pelo algoritmo
do gradiente, com busca exata, converge para x
. Entao a sequencia
_
f(x
k
)
_
converge
linearmente para f(x
) com taxa nao superior a

_
n
+
1
_
2
, onde
1
e o menor e
n
o
maior autovalor de
2
f(x
).
5.2 Metodo de Newton
O metodo de Newton e uma das ferramentas mais importantes em otimizac ao.
Tanto o algoritmo b asico, chamado de Newton Puro, quanto suas variantes, que incorpo-
ram busca linear, s ao muito utilizados para resolver sistemas nao lineares e tambem para
minimizac ao de fun coes.
5.2.1 Motivacao
Considere uma funcao f : IR
n
IR de classe (
2
. Nosso objetivo consiste em
encontrar um minimizador de f. De acordo com as condicoes necess arias de otimalidade,
devemos resolver o sistema de n equac oes e n inc ognitas dado por f(x) = 0.
Generalizando, considere F : IR
n
IR
n
de classe (
1
e o problema de resolver o
sistema (normalmente nao linear)
F(x) = 0.
Como na maioria das vezes n ao conseguimos resolve-lo de forma direta, os processos
iterativos constituem a forma mais eciente de lidar com tais situacoes.
A ideia e aproximar F por seu polin omio de Taylor de primeira ordem. Dada
uma estimativa x, considere o sistema linear
F( x) + J
F
( x)(x x) = 0, (5.5)
onde J
F
representa a matriz jacobiana de F. Caso J
F
( x) seja inversvel, o sistema (5.5)
pode ser resolvido, fornecendo
x
+
= x
_
J
F
( x)
_
1
F( x).
Isto corresponde a uma iterac ao do metodo de Newton para resoluc ao de equac oes (veja
a Figura 5.3).
x
+
x
Figura 5.3: Uma itera cao do metodo de Newton.
Voltando agora ao problema de minimizar f, aplicamos a estrategia acima para
F = f, obtendo
x
+
= x
_
2
f( x)
_
1
f( x). (5.6)
5.2.2 Algoritmo
Com base na relacao (5.6) podemos agora formalizar o metodo de Newton para
minimizar a func ao f. Basicamente, temos tres variantes no algoritmo. Uma delas e
o metodo puro, onde nao fazemos busca unidirecional e aceitamos o passo completo
(t
k
= 1, para todo k IN). As outras duas fazem uso de busca (exata ou Armijo).
Algoritmo 5.2 Newton
Dado: x
0
IR
n
k = 0
repita enquanto f(x
k
) ,= 0
Dena d
k
=
_
2
f(x
k
)
_
1
f(x
k
)
Determine o tamanho do passo t
k
> 0
Faca x
k+1
= x
k
+ t
k
d
k
k = k + 1
Cabe ressaltar que do ponto de vista computacional, o calculo da direc ao d
k
e
feito resolvendo-se o sistema de equac oes lineares
2
f(x
k
)d = f(x
k
),
que tem um custo computacional menor do que o gasto para inverter uma matriz. Outra
observa cao e que, diferentemente do que acontece no algoritmo do gradiente, o passo
de Newton pode n ao estar bem denido, caso a matriz Hessiana
2
f(x
k
) seja singular.
Alem disso, mesmo que o passo d
k
seja calculado, esta direcao pode nao ser de descida.
Entretanto, se
2
f(x
k
) e denida positiva, entao o passo d
k
est a bem denido e e uma
direc ao de descida.
O passo de Newton tambem pode ser obtido por uma abordagem diferente da
que foi exposta acima. Para isto considere a aproximac ao de Taylor de segunda ordem de
f, dada por
p(x) = f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
2
f(x
k
)(x x
k
).
Com o objetivo de minimizar p, fazemos
f(x
k
) +
2
f(x
k
)(x x
k
) = p(x) = 0,
obtendo exatamente o passo d
k
do Algoritmo 5.2. Desta forma, se
2
f(x
k
) e denida
positiva, ent ao o passo de Newton minimiza o modelo quadratico de f em torno de x
k
.
A Figura 5.4 ilustra esta abordagem. O primeiro gr aco mostra, para n = 1, a func ao
e o modelo, bem como os pontos x
k
e x
k+1
. O outro gr aco ilustra o passo para n = 2.
Neste caso, mostramos as curvas de nvel da funcao e do modelo, bem como os pontos x
k
e x
k+1
.
x
k
x
k+1
x
k
x
k+1
Figura 5.4: Uma itera cao do metodo de Newton.
Esta ultima abordagem sugere que se o metodo de Newton for aplicado em uma
func ao quadratica, entao basta uma itera cao para resolver o problema. De fato, considere
a quadratica dada em (5.2). Dado x
0
IR
n
, o passo obtido e
d
0
=
_
2
f(x
0
)
_
1
f(x
0
) = A
1
(Ax
0
+ b) = x
0
A
1
b.
Portanto, o minimizador x
e obtido em um s o passo, pois

x
1
= x
0
+ d
0
= A
1
b = x
.
5.2.3 Convergencia
Como j a observamos antes, a direc ao de Newton pode n ao ser de descida. Por-
tanto, n ao garantimos convergencia global quando o problema a ser resolvido envolver
uma func ao arbitr aria. No entanto, para uma classe de fun coes convexas, podemos tirar
conclus oes positivas, pois podemos aplicar o que foi estabelecido no Captulo 4.
Teorema 5.6 Suponha que
2
f(x) e denida positiva, para todo x IR
n
. Entao o
Algoritmo 5.2, com o tamanho do passo t
k
calculado pela busca exata, e globalmente
convergente, segundo a Denicao 4.11. O mesmo resultado vale se utilizarmos a busca de
Armijo para calcular t
k
.
Demonstracao. Note que o algoritmo de Newton pode ser considerado situa cao particular
do Algoritmo 4.4, com H(x
k
) =
_
2
f(x
k
)
_
1
, para todo k IN. Assim, as armacoes
feitas seguem diretamente dos Teoremas 4.12 e 4.13.
Para estabelecer propriedades a respeito da ordem de convergencia do metodo de
Newton, vamos precisar dos seguintes resultados.
Lema 5.7 Suponha que
2
f( x) e denida positiva. Entao existem constantes , M > 0
tais que
2
f(x) e denida positiva e
_
_
_
2
f(x)
_
1
_
_
M,
para todo x B( x, ).
Demonstracao. Seja > 0 o menor autovalor de
2
f( x). Pela continuidade de
2
f,
existe > 0 tal que
|
2
f(x)
2
f( x)| <

2
, (5.7)
para todo x B( x, ). Assim, dado d IR
n
, com |d| = 1, podemos usar o Lema 1.47 e
a desigualdade de Cauchy-Schwarz para concluir que
d
T
2
f(x)d = d
T
2
f( x)d + d
T
[
2
f(x)
2
f( x)]d

2
=

2
,
provando que
2
f(x) e denida positiva para todo x B( x, ). Para provar a outra
armac ao, considere x B( x, ). Vamos denotar A =
2
f( x) e B =
2
f(x). Usando
novamente o Lema 1.47, agora aplicado em A
2
, obtemos
|Ad|
2
= d
T
A
2
d
2
|d|
2
,
para todo d IR
n
. Portanto, usando (5.7), conclumos que
|Bd| = |Ad + (B A)d| |Ad| |(B A)d| |d|

2
|d| =

2
|d|.
Considere agora y IR
n
, com |y| = 1. Aplicando a relacao acima para d = B
1
y,
conclumos que
1 = |y| = |BB
1
y|

2
|B
1
y|.
Portanto, para M =
2
, temos
_
_
_
2
f(x)
_
1
_
_
= |B
1
| M, completando a demons-
trac ao.
Lema 5.8 Seja U IR
n
um conjunto aberto e convexo. Suponha que existe > 0 tal
que sup
x,yU
|
2
f(x)
2
f(y)| . Entao
|f(x) f(y)
2
f(y)(x y)| |x y|,
para todos x, y U.
Demonstracao. Fixado y U, considere h : IR
n
IR
n
dada por h(x) = f(x)
2
f(y)x.
Assim,
|J
h
(x)| = |
2
f(x)
2
f(y)| ,
para todo x U. Usando a desigualdade do valor medio, obtemos
|f(x) f(y)
2
f(y)(x y)| = |h(x) h(y)| |x y|,
Lema 5.9 Seja U IR
n
aberto e convexo. Se
2
f e Lipschitz com constante L, entao
|f(x) f(y)
2
f(y)(x y)| L|x y|
2
,
para todos x, y U.
Demonstracao. Fixados x, y U, dena = L|x y| e h : IR
n
IR
n
dada por
h(z) = f(z)
2
f(y)z. Assim, para todo z [x, y], temos
|J
h
(z)| = |
2
f(z)
2
f(y)| L|z y| L|x y| = .
Usando a desigualdade do valor medio, obtemos
|f(x) f(y)
2
f(y)(x y)| = |h(x) h(y)| |x y| = L|x y|
2
,
O proximo resultado estabelece a convergencia quadratica do metodo de Newton
puro, isto e, com t
k
= 1, para todo k IN.
n
IR de classe (
2
. Suponha que x
IR
n
seja um minimiza-
dor local de f, com
2
f(x
) denida positiva. Entao existe > 0 tal que se x

0
B(x
, ),
o Algoritmo 5.2, aplicado com t
k
= 1 para todo k IN, gera uma sequencia (x
k
) tal que:
(i)
2
f(x
k
) e denida positiva, para todo k IN;
(ii) (x
k
) converge superlinearmente para x
;
(iii) Se
2
f e Lipschitz, entao a convergencia e quadratica.
Demonstracao. Sejam e M as constantes denidas no Lema 5.7 e U = B(x
, ). Assim,
se x
k
U, o passo de Newton est a bem denido e, como f(x
) = 0, vale
x
k+1
x
=
_
2
f(x
k
)
_
1
_
f(x
) f(x
k
)
2
f(x
k
)(x
x
k
)
_
. (5.8)
Podemos diminuir , se necessario, de modo que sup
x,yU
|
2
f(x)
2
f(y)| <
1
2M
. Pelos
Lemas 5.7 e 5.8, conclumos que
|x
k+1
x
|
1
2
|x
k
x
|.
Isto prova que a sequencia (x
k
) esta bem denida, que x
k
U, para todo k IN e
que x
k
x
, donde segue (i). Vejamos que a convergencia e superlinear. Dado > 0,

considere
0
< tal que sup
x,yU
0
|
2
f(x)
2
f(y)| <

M
, onde U
0
= B(x
,
0
). Tome
k
0
IN tal que x
k
U
0
, para todo k k
0
. Aplicando novamente os Lemas 5.7 e 5.8 na
relac ao (5.8), obtemos
|x
k+1
x
| |x
k
x
|,
provando assim (ii). Finalmente, se
2
f e Lipschitz, podemos usar os Lemas 5.7 e 5.9
em (5.8) para obter
|x
k+1
x
| ML|x
k
x
|
2
,
Podemos reescrever os resultados anteriores para o contexto de equac oes. Para
referencia, vamos enunciar o teorema que estabelece a convergencia quadratica do metodo
de Newton para resoluc ao de sistemas de equac oes.
Teorema 5.11 Seja F : IR
n
IR
n
de classe (
1
. Suponha que x IR
n
seja uma raiz de
F, com J
F
( x) inversvel. Entao existe > 0 tal que se x
0
B( x, ), o metodo de Newton
para equacoes gera uma sequencia (x
k
) tal que:
(i) J
F
(x
k
) e inversvel, para todo k IN;
(ii) (x
k
) converge superlinearmente para x;
(iii) Se J
F
e Lipschitz, entao a convergencia e quadratica.
O Teorema 5.10 signica que se o palpite inicial est a perto de um minimizador
de f, a convergencia e muito rapida, o que e uma caracterstica desejavel em otimizac ao.
Entretanto, o metodo de Newton tem um alto custo computacional, pois faz uso de
derivadas de segunda ordem. No metodo de Cauchy, o custo e baixo, mas a convergencia
e lenta. Veremos agora uma classe de metodos que tenta obter as qualidades de ambos.
5.3 Metodo de direc oes conjugadas
Metodos de direcoes conjugadas s ao metodos de primeira ordem (usam apenas
informac oes da funcao e do gradiente) com convergencia mais r apida que o metodo de
Cauchy e custo computacional menor do que Newton. Enquanto Cauchy pode gastar
uma innidade de passos para resolver uma quadr atica, Newton a resolve em um passo.
Veremos que os metodos de direc oes conjugadas minimizam uma quadr atica denida em
IR
n
usando no m aximo n passos.
5.3.1 Direc oes conjugadas
Apresentamos nesta secao a denic ao e os principais resultados sobre direc oes
conjugadas.
nn
uma matriz denida positiva. Dizemos que os vetores
d
0
, d
1
, . . . , d
k
IR
n
0 sao A-conjugados se
(d
i
)
T
Ad
j
= 0,
para todos i, j = 0, 1, . . . , k, com i ,= j.
Note que, no caso particular onde A e a matriz identidade, vetores A-conjugados
s ao ortogonais no sentido usual. No caso geral, podemos provar a independencia linear
de vetores A-conjugados.
Lema 5.13 Seja A IR
nn
uma matriz denida positiva. Um conjunto qualquer de
vetores A-conjugados e linearmente independente.
Demonstracao. Sejam d
0
, d
1
, . . . , d
k
IR
n
0 vetores A-conjugados. Considere constan-
tes a
0
, a
1
, . . . , a
k
IR tais que
a
0
d
0
+ a
1
d
1
+ . . . + a
k
d
k
= 0.
Dado i 0, 1, . . . , k, multiplicando os dois membros da igualdade acima por (d
i
)
T
A,
obtemos
a
i
(d
i
)
T
Ad
i
= 0,
donde segue que a
i
= 0, pois A e denida positiva.
Veremos agora que o conhecimento de direc oes conjugadas permite obter o mini-
mizador de uma func ao quadratica. Considere a func ao f : IR
n
IR dada por
f(x) =
1
2
x
T
Ax + b
T
x + c, (5.9)
com A IR
nn
n
e c IR. A funcao f tem um unico minimizador
x
, que e global e satisfaz

Ax
+ b = f(x
) = 0. (5.10)
Dado um conjunto qualquer de direc oes A-conjugadas d
0
, d
1
, . . . , d
n1
, vamos
denir uma sequencia nita do seguinte modo: tome x
0
IR
n
arbitr ario e dena para
k = 0, 1, . . . , n 1,
x
k+1
= x
k
+ t
k
d
k
, (5.11)
onde
t
k
= argmin
tIR
_
f(x
k
+ td
k
)
_
.
Note que a minimizac ao acima e calculada sobre toda a reta e n ao apenas para valores
positivos de t, pois a direc ao d
k
pode nao ser de descida para f no ponto x
k
. Alem disso,
como f e quadratica, podemos obter uma f ormula explcita para t
k
. Para isso, dena
: IR IR por (t) = f(x
k
+ td
k
). Usando a denic ao de t
k
, obtemos
f(x
k+1
)
T
d
k
= f(x
k
+ t
k
d
k
)
T
d
k
=
(t
k
) = 0. (5.12)
Por outro lado, temos
f(x
k+1
) = A(x
k
+ t
k
d
k
) + b = f(x
k
) + t
k
Ad
k
. (5.13)
Substituindo isto em (5.12), obtemos
t
k
=
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
. (5.14)
O teorema a seguir mostra que o algoritmo dado por (5.11) minimiza a quadratica
denida em (5.9) com no m aximo n passos.
Teorema 5.14 Considere a funcao quadratica dada por (5.9) e seu minimizador x
, de-
nido em (5.10). Dado x
0
IR
n
, a sequencia nita denida em (5.11) cumpre x
n
= x
.
Demonstracao. Pelo Lema 5.13, o conjunto d
0
, d
1
, . . . , d
n1
e uma base de IR
n
. Portanto,
existem escalares
i
IR, i = 0, 1, . . . , n 1, tais que
x
x
0
=
n1
i=0
i
d
i
. (5.15)
Considere k 0, 1, . . . , n 1 arbitr ario. Multiplicando a relac ao (5.15) por (d
k
)
T
A e
levando em conta que as direc oes sao A-conjugadas, temos que
(d
k
)
T
A(x
x
0
) =
k
(d
k
)
T
Ad
k
.
Assim,
k
=
(d
k
)
T
A(x
x
0
)
(d
k
)
T
Ad
k
. (5.16)
Por outro lado, pela denic ao de x
k
em (5.11), temos
x
k
= x
0
+ t
0
d
0
+ t
1
d
1
+ + t
k1
d
k1
,
que multiplicando por (d
k
)
T
A, implica
(d
k
)
T
Ax
k
= (d
k
)
T
Ax
0
,
pois as direc oes sao A-conjugadas. Substituindo isto em (5.16) e usando (5.10), obtemos
k
=
(d
k
)
T
(b + Ax
k
)
(d
k
)
T
Ad
k
=
(d
k
)
T
f(x
k
)
(d
k
)
T
Ad
k
= t
k
.
Portanto, de (5.15) segue que
x
= x
0
+
n1
i=0
t
i
d
i
= x
n
,
Veremos agora um resultado que ser a usado para provar que o ponto x
k
minimiza
a quadr atica n ao apenas em uma reta como tambem na variedade am de dimensao k,
dada por x
0
+ [d
0
, d
1
, . . . , d
k1
].
Lema 5.15 Dado x
0
IR
n
, considere a sequencia nita denida em (5.11). Entao
f(x
k
)
T
d
j
= 0,
para todo j = 0, 1, . . . , k 1.
Demonstracao. Pela relac ao (5.12), temos que f(x
k
)
T
d
k1
= 0, provando a armac ao
para j = k 1. Considere agora j < k 1. Usando (5.13) e o fato das direcoes serem
A-conjugadas, obtemos
f(x
k
)
T
d
j
=
_
f(x
k1
) + t
k1
Ad
k1
_
T
d
j
= f(x
k1
)
T
d
j
.
O resultado desejado segue por indu cao.
Teorema 5.16 Dado x
0
IR
n
, considere a sequencia nita denida em (5.11). Entao o
ponto x
k
minimiza f sobre a variedade am C = x
0
+ [d
0
, d
1
, . . . , d
k1
].
Demonstracao. Note primeiro que, por (5.11), temos x
k
C. Assim,
x x
k
[d
0
, d
1
, . . . , d
k1
],
para todo x C. Portanto, pelo Lema 5.15, temos que
f(x
k
)
T
(x x
k
) = 0.
Como f e convexa e C e um conjunto convexo, podemos aplicar o Corol ario 3.14 para
concluir a demonstracao.
A abordagem cl assica do metodo de direc oes conjugadas que vimos aqui considera
minimizac ao unidirecional e em seguida estabelece a equivalencia com a minimizacao em
variedades ans de dimens ao crescente, partindo de 1 e chegando em n. Contudo, e
possvel inverter a apresentac ao destes temas, comecando com variedades e depois obtendo
minimizac ao unidirecional. Este tratamento, que pode ser encontrado em Conn, Gould e
Toint [6], e resumido nos Exerccios 5.13 a 5.16.
5.3.2 Algoritmo de gradientes conjugados
Vimos na Secao 5.3.1 como obter o minimizador de uma func ao quadr atica es-
tritamente convexa a partir de um conjunto de direcoes conjugadas. Veremos agora um
modo de gerar tais direcoes.
Dado x
0
IR
n
, dena d
0
= f(x
0
) e, para k = 0, 1, . . . , n 2,
d
k+1
= f(x
k+1
) +
k
d
k
, (5.17)
onde x
k+1
e dado por (5.11) e
k
e calculado de modo que d
k
e d
k+1
sejam A-conjugadas,
ou seja,
(d
k
)
T
A
_
f(x
k+1
) +
k
d
k
_
= (d
k
)
T
Ad
k+1
= 0.
Isto nos fornece
k
=
(d
k
)
T
Af(x
k+1
)
(d
k
)
T
Ad
k
. (5.18)
Podemos agora apresentar o algoritmo de gradientes conjugados.
Algoritmo 5.3 Gradientes conjugados
Dado x
0
IR
n
, faca d
0
= f(x
0
)
k = 0
repita enquanto f(x
k
) ,= 0
t
k
=
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
x
k+1
= x
k
+ t
k
d
k
k
=
(d
k
)
T
Af(x
k+1
)
(d
k
)
T
Ad
k
d
k+1
= f(x
k+1
) +
k
d
k
k = k + 1
Salientamos que o Algoritmo 5.3 esta bem denido, isto e, se f(x
k
) ,= 0, entao
d
k
,= 0 e assim o novo ponto pode ser calculado. De fato, usando a relac ao (5.12), obtemos
f(x
k
)
T
d
k
= f(x
k
)
T
_
f(x
k
) +
k1
d
k1
_
= |f(x
k
)|
2
. (5.19)
Outra caracterstica deste algoritmo, que n ao era necessariamente valida para
direc oes conjugadas em geral, e que as direc oes geradas aqui sao de descida, como pode
ser visto pela relac ao (5.19).
O pr oximo resultado estabelece que as dire coes geradas pelo algoritmo s ao, de
fato, A-conjugadas e que os gradientes sao ortogonais.
Teorema 5.17 Se x
k
e d
k
foram gerados pelo Algoritmo 5.3, entao
f(x
k
)
T
f(x
j
) = 0 e (d
k
)
T
Ad
j
= 0,
para todo j = 0, 1, . . . , k 1.
Demonstracao. Para simplicar a notacao, vamos escrever g
i
= f(x
i
). O resultado ser a
provado usando induc ao em k. Para k = 1, usando (5.12), obtemos g
T
1
g
0
= g
T
1
d
0
= 0.
Alem disso, a denic ao de
0
em (5.18) implica (d
1
)
T
Ad
0
= 0. Suponha agora que o
resultado vale ate k. Vamos provar que vale para k + 1. Pela hipotese de induc ao, as
direc oes d
0
, d
1
, . . . , d
k
s ao A-conjugadas. Assim, podemos aplicar o Lema 5.15 e concluir
que g
T
k+1
d
j
= 0, para j = 0, 1, . . . , k. Assim, usando (5.17), obtemos
g
T
k+1
g
j
= g
T
k+1
_
d
j
+
j1
d
j1
_
= 0, (5.20)
para j = 0, 1, . . . , k. Finalmente, da denic ao de
k
em (5.18), temos que (d
k+1
)
T
Ad
k
= 0.
Alem disso, para j < k, a hip otese de indu cao nos fornece
(d
k+1
)
T
Ad
j
=
_
g
k+1
+
k
d
k
_
T
Ad
j
= g
T
k+1
Ad
j
.
Usando a rela cao (5.13) e o que foi estabelecido em (5.20), obtemos
(d
k+1
)
T
Ad
j
= g
T
k+1
_
g
j+1
g
j
t
j
_
= 0.
A Figura 5.5 ilustra a aplicacao do algoritmo de gradientes conjugados para a
minimizac ao de uma func ao quadr atica em IR
2
. Note a ortogonalidade dos gradientes nos
iterandos e que a soluc ao e obtida em 2 passos.
x
0
x
1
x
2
f
0
f
1
Figura 5.5: Minimizac ao de uma quadratica pelo metodo de gradientes conjugados.
O Teorema 5.17 e os resultados da Sec ao 5.3.1 garantem que o Algoritmo 5.3
minimiza qualquer quadr atica denida em IR
n
com no maximo n passos. No entanto, vale
dizer que se pode tirar esta conclus ao sem apelar para o que foi visto naquela se cao. De
fato, se o ponto x
n
foi gerado pelo algoritmo, ent ao os gradientes f(x
j
), j = 0, 1, . . . , n1
s ao n ao nulos. Assim, pelo Teorema 5.17, eles formam uma base (ortogonal) de IR
n
e
f(x
n
)
T
f(x
j
) = 0,
para todo j = 0, 1, . . . , n 1. Portanto, f(x
n
) = 0.
O calculo de
k
pela formula original, dada em (5.18), pode ser caro em virtude
dos produtos pela matriz Hessiana. Apresentamos a seguir outras formas de calcular este
coeciente. Uma delas, proposta por Polak e Ribière [44], e dada por
PR
k
=
f(x
k+1
)
T
_
f(x
k+1
) f(x
k
)
_
f(x
k
)
T
f(x
k
)
, (5.21)
enquanto a outra, devida a Fletcher e Reeves [12], considera
FR
k
=
f(x
k+1
)
T
f(x
k+1
)
f(x
k
)
T
f(x
k
)
. (5.22)
Tais express oes tem a vantagem computacional de utilizar apenas produto de vetores e
coincidem no caso quadr atico, o que e estabelecido no proximo teorema. No entanto, para
func oes nao quadraticas tais expressoes podem n ao ser iguais, o que fornece variantes do
metodo de gradientes conjugados, conforme veremos na pr oxima se cao.
Teorema 5.18 Se f e uma funcao quadratica, entao as expressoes (5.18), (5.21) e (5.22)
coincidem, ou seja
k
=
PR
k
=
FR
k
.
Demonstracao. Usaremos novamente a notac ao g
i
= f(x
i
). Por (5.13), temos que
Ad
k
=
g
k+1
g
k
t
k
.
Portanto,
k
=
g
T
k+1
Ad
k
(d
k
)
T
Ad
k
=
g
T
k+1
(g
k+1
g
k
)
(d
k
)
T
(g
k+1
g
k
)
.
Usando o Lema 5.15 e (5.19), obtemos
k
=
g
T
k+1
(g
k+1
g
k
)
g
T
k
g
k
,
provando assim a primeira igualdade. A outra express ao segue do fato de que g
T
k+1
g
k
= 0,
provado no Teorema 5.17.
5.3.3 Extensao para func oes nao quadraticas
O metodo de gradientes conjugados visto na se cao anterior pode ser adaptado
para minimizar funcoes n ao quadr aticas. Para tanto, e necess ario discutir como calcular
o tamanho do passo t
k
e o coeciente
k
. A busca linear, que no caso quadr atico era feita
de forma fechada pela f ormula (5.14), agora pode ser executada por meio dos metodos
unidimensionais discutidos no Captulo 4, como busca exata (sec ao aurea) ou inexata
(Armijo). Para o calculo de
k
, podemos utilizar a expressao de Polak-Ribière (5.21)
ou de Fletcher-Reeves (5.22). Combinando estas escolhas, obtemos diversas variantes do
metodo.
Cabe ressaltar que estas variantes para func oes nao quadr aticas nao terminam
necessariamente em n passos. Desta forma e usual considerar uma reinicializac ao das
direc oes de busca a cada n passos, fazendo
k
= 0, o que equivale a tomar a direc ao
do gradiente. Tais considerac oes d ao origem ao seguinte algoritmo para minimizac ao
irrestrita.
Algoritmo 5.4 Gradientes conjugados para funcoes nao quadraticas
Dado x
0
IR
n
, faca d
0
= f(x
0
)
k = 0
repita enquanto f(x
k
) ,= 0
Calcule o comprimento do passo t
k
Faca x
k+1
= x
k
+ t
k
d
k
se (k + 1) mod n ,= 0
Calcule
k
por (5.21) ou por (5.22)
sen
ao
k
= 0
Dena d
k+1
= f(x
k+1
) +
k
d
k
k = k + 1
Note que se t
k
for calculado por uma minimiza cao unidirecional local, ent ao as
direc oes geradas pelo Algoritmo 5.4 s ao de descida, pois a rela cao (5.19) tambem se verica
neste caso. Entretanto, a busca de Armijo nao assegura tal propriedade. Para contornar
esta diculdade existem salvaguardas que podem ser encontradas com detalhes em [39].
5.3.4 Complexidade algortmica
Nesta sec ao veremos que o metodo de gradientes conjugados para minimiza cao de
func oes quadr aticas tem complexidade algortmica da ordem O
_
1
k
2
_
. Para estabelecer
este resultado precisaremos estudar dois conceitos fundamentais, que s ao os espacos de
Krylov e os polin omios de Chebyshev.
Vamos considerar aqui a fun cao quadr atica f : IR
n
IR dada por
f(x) =
1
2
x
T
Ax + b
T
x + c, (5.23)
com A IR
nn
n
e c IR. Como j a sabemos, o minimizador de
f, indicado por x
, e global e satisfaz
Ax
+ b = f(x
) = 0. (5.24)
Espacos de Krylov
Os espacos de Krylov desempenham um papel importante em otimizac ao, tanto
no aspecto teorico quanto no computacional. Eles s ao denidos por potencias de A mul-
tiplicadas pelo gradiente de f em um ponto dado.
Denicao 5.19 Dados x
0
IR
n
e k IN, denimos o k-esimo espaco de Krylov por
/
k
= [A(x
0
x
), A
2
(x
0
x
), . . . , A
k
(x
0
x
)].
Note que, por (5.24), A(x
0
x
) = Ax
0
+ b = f(x
0
). Assim, podemos escrever
o espaco de Krylov como
/
k
= [f(x
0
), Af(x
0
), . . . , A
k1
f(x
0
)]. (5.25)
O pr oximo teorema relaciona o espa co gerado pelos gradientes f(x
k
) e o espaco
gerado pelas direc oes d
k
, obtidos pelo algoritmo de gradientes conjugados, com os espacos
de Krylov.
Teorema 5.20 Considere as sequencias (x
k
) e (d
k
), geradas pelo Algoritmo 5.3. Se o
metodo nao termina em x
k1
, entao
(i) /
k
= [f(x
0
), f(x
1
), . . . , f(x
k1
)];
(ii) /
k
= [d
0
, d
1
, . . . , d
k1
].
Demonstracao. Vamos provar simultaneamente (i) e (ii) por inducao. Isto e imediato
para k = 1 em virtude de (5.25). Suponha agora que o teorema e valido para um certo
k. Pela relac ao (5.13), temos
f(x
k
) = f(x
k1
) + t
k1
Ad
k1
.
Usando a hip otese de indu cao, podemos concluir que
f(x
k1
) /
k
/
k+1
e d
k1
/
k
.
Portanto, Ad
k1
/
k+1
, donde segue que f(x
k
) /
k+1
. Isto prova que
[f(x
0
), f(x
1
), . . . , f(x
k
)] /
k+1
.
Por outro lado, como o algoritmo n ao termina em x
k
, os gradientes f(x
j
), j = 0, 1, . . . , k
s ao n ao nulos. Assim, pelo Teorema 5.17 eles geram um espaco de dimensao k + 1. Mas
dim(/
k+1
) k + 1. Logo
/
k+1
= [f(x
0
), f(x
1
), . . . , f(x
k
)],
provando (i). Finalmente, pela hipotese de induc ao, temos d
k1
/
k
/
k+1
. Portanto,
pelo Algoritmo 5.3 e o que acabamos de provar, obtemos
d
k
= f(x
k
) +
k1
d
k1
/
k+1
.
Alem disso, por (5.19), os vetores d
j
, j = 0, 1, . . . , k s ao nao nulos e pelo Teorema 5.17, s ao
A-conjugados. Consequentemente, pelo Lema 5.13, eles geram um espaco de dimensao
k + 1. Assim,
/
k+1
= [d
0
, d
1
, . . . , d
k
],
Estamos interessados em discutir as propriedades de minimiza cao de f na varie-
dade am
V
k
= x
0
+/
k
. (5.26)
Considere T
k
o conjunto dos polin omios p : IR IR de grau menor ou igual a k tais que
p(0) = 1, ou seja,
T
k
=
_
1 + a
1
t + a
2
t
2
+ + a
k
t
k
[ a
i
IR, i = 1, . . . , k
_
. (5.27)
Lema 5.21 Temos x V
k
se, e somente se,
x x
= p(A)(x
0
x
),
para algum polinomio p T
k
.
Demonstracao. Dado x V
k
temos
x = x
0
+ a
1
A(x
0
x
) + a
2
A
2
(x
0
x
) + + a
k
A
k
(x
0
x
).
Subtraindo x
de ambos os membros, obtemos

x x
= (I + a
1
A + a
2
A
2
+ + a
k
A
k
)(x
0
x
).
A recproca se prova de modo an alogo.
Lema 5.22 Considere x
k
= argmin
xV
k
f(x). Entao,
f(x
k
) f(x
)
1
2
(x
0
x
)
T
A
_
p(A)
_
2
(x
0
x
),
para todo polinomio p T
k
.
Demonstracao. Considere p T
k
arbitr ario. Pelo Lema 5.21, o ponto
x = x
+ p(A)(x
0
x
) (5.28)
pertence ` a variedade V
k
. Como x
k
e minimizador em V
k
, temos f(x
k
) f(x), donde
segue que
f(x
k
) f(x
) f(x) f(x
). (5.29)
Pela denic ao de f em (5.23) e por (5.24), podemos escrever
f(x) f(x
) =
1
2
(x x
)
T
A(x x
).
Portanto, substituindo (5.28) nesta ultima expressao e usando (5.29), obtemos
f(x
k
) f(x
)
1
2
(x
0
x
)
T
_
p(A)
_
T
Ap(A)(x
0
x
).
Como A e simetrica,
_
p(A)
_
T
A = Ap(A). Assim,
f(x
k
) f(x
)
1
2
(x
0
x
)
T
A
_
p(A)
_
2
(x
0
x
),
Uma consequencia do Teorema 5.20 e que a sequencia denida no Lema 5.22
coincide com a sequencia gerada pelo Algoritmo 5.3. De fato, o Teorema 5.16 pode ser
aplicado nas sequencias (x
k
) e (d
k
), geradas pelo algoritmo de gradientes conjugados.
Polin omios de Chebyshev
Estudaremos agora os polin omios de Chebyshev, que desempenham um papel
importante em diversos campos da ciencia e, particularmente, no estudo da complexidade
algortmica do algoritmo de gradientes conjugados.
Denicao 5.23 O polinomio de Chebyshev de grau k, T
k
: [1, 1] IR, e denido por
T
k
(t) = cos
_
k arccos(t)
_
.
Naturalmente, a primeira coisa que devemos fazer e vericar que T
k
e, de fato,
um polinomio. Isto sera consequencia imediata do proximo lema.
Lema 5.24 Temos T
0
(t) = 1 e T
1
(t) = t, para todo t [1, 1]. Alem disso,
T
k+1
(t) = 2tT
k
(t) T
k1
(t),
para todo k 1.
Demonstracao. A primeira parte segue direto da denic ao. Para provar a relacao de
recorrencia, considere : [1, 1] [0, ], dada por (t) = arccos(t). Assim,
T
k+1
(t) = cos
_
(k + 1)(t)
_
= cos
_
k(t)
_
cos
_
(t)
_
sen
_
k(t)
_
sen
_
(t)
_
e
T
k1
(t) = cos
_
(k 1)(t)
_
= cos
_
k(t)
_
cos
_
(t)
_
+ sen
_
k(t)
_
sen
_
(t)
_
.
Mas cos
_
k(t)
_
= T
k
(t) e cos
_
(t)
_
= t. Portanto,
T
k+1
(t) + T
k1
(t) = 2tT
k
(t),
Exemplo 5.25 Determine os polinomios de Chebyshev T
k
, com k = 0, 1, . . . , 6 e faca o
graco para k = 1, . . . , 4.
Temos T
0
(t) = 1 e T
1
(t) = t, para todo t [1, 1]. Alem disso, pelo Lema 5.24,
T
2
(t) = 2t
2
1 , T
3
(t) = 4t
3
3t , T
4
(t) = 8t
4
8t
2
+ 1
T
5
(t) = 16t
5
20t
3
+ 5t e T
6
(t) = 32t
6
48t
4
+ 18t
2
1.
A Figura 5.6 ilustra alguns polin omios de Chebyshev.
O que vimos no Exemplo 5.25 tambem sugere algumas propriedades que ser ao
fundamentais aqui. Uma delas e sobre a norma de T
k
, denida por
|T
k
| = sup [T
k
(t)[ [ t [1, 1] .
Lema 5.26 Temos |T
k
| = 1, para todo k 0.
Demonstracao. Dados k 0 e t [1, 1], temos [T
k
(t)[ = [ cos
_
k arccos(t)
_
[ 1. Alem
disso,
T
k
(1) = cos
_
k arccos(1)
_
= cos(0) = 1,
1 0.5 0 0.5 1
1
0.5
0
0.5
1

T1
T2
T3
T4
Figura 5.6: Graco de alguns polin omios de Chebyshev.
A outra propriedade diz que o polin omio de Chebyshev de grau k tem a mesma
paridade do natural k.
Lema 5.27 Se T
k
(t) = a
k
t
k
+ + a
2
t
2
+ a
1
t + a
0
, entao a
k
= 2
k1
. Alem disso,
(i) Se k e par, entao a
0
= (1)
k
2
e a
2j1
= 0, para todo j = 1, . . . ,
k
2
;
(ii) Se k e mpar, entao a
1
= (1)
k1
2
k e a
2j
= 0, para todo j = 0, 1, . . . ,
k1
2
.
Demonstracao. Vamos provar por induc ao. O lema e trivialmente verdadeiro para k = 0
e k = 1. Suponha agora que seja v alido para todos os naturais menores ou iguais a k.
Vamos provar que o lema vale para k + 1. J a utilizando a hip otese de indu cao, considere
T
k
(t) = 2
k1
t
k
+ + a
1
t + a
0
e T
k1
(t) = 2
k2
t
k1
+ + b
1
t + b
0
.
Pelo Lema 5.24, temos
T
k+1
(t) = 2t(2
k1
t
k
+ + a
1
t + a
0
) (2
k2
t
k1
+ + b
1
t + b
0
), (5.30)
donde segue a primeira armacao. Para provar o que falta, considere primeiro k + 1 par.
Ent ao k e mpar e k 1 e par. Assim, pela hipotese de induc ao, T
k
s o tem potencias
mpares de t e T
k1
s o potencias pares. Deste modo, por (5.30), T
k+1
ter a apenas potencias
pares de t. Alem disso, seu termo independente ser a
b
0
= (1)
k1
2
= (1)
k+1
2
.
Por outro lado, se k +1 e mpar, ent ao k e par e k 1 e mpar. Novamente pela hipotese
de induc ao, T
k
s o tem potencias pares de t e T
k1
s o potencias mpares. Assim, por (5.30),
T
k+1
ter a apenas potencias mpares de t. Alem disso, seu termo linear sera
2ta
0
b
1
t = 2t(1)
k
2
(1)
k2
2
(k 1)t = (1)
k
2
(k + 1)t,
o que completa a demonstrac ao.
Uma das consequencias do lema anterior e que T
k
e uma func ao par (mpar)
quando k e par (mpar). Agora veremos uma rela cao entre polinomios de Chebyshev de
grau mpar e polinomios do conjunto T
k
, denido em (5.27).
Lema 5.28 Sejam L > 0 e k IN. Entao existe p T
k
tal que
T
2k+1
_
t
L
_
= (1)
k
(2k + 1)
L
p(t),
para todo t [0, L].
Demonstracao. Pelo Lema 5.27, temos, para todo t [1, 1],
T
2k+1
(t) = t
_
2
2k
t
2k
+ + (1)
k
(2k + 1)
_
,
onde o polin omio que est a no parenteses tem apenas potencias pares de t. Portanto,
T
2k+1
_
t
L
_
=
L
_
2
2k
_
t
L
_
k
+ + (1)
k
(2k + 1)
_
,
para todo t [0, L]. Denindo
p(t) =
1
(1)
k
(2k + 1)
_
2
2k
_
t
L
_
k
+ + (1)
k
(2k + 1)
_
,
completamos a demonstracao.
Complexidade algortmica do Algoritmo 5.3
Temos agora todas as ferramentas para obter o principal resultado desta secao. O
pr oximo teorema, provado em [45], garante que a complexidade algortmica do metodo de
gradientes conjugados para minimizac ao de uma func ao quadratica convexa e da ordem
O
_
1
k
2
_
. Ressaltamos que o metodo do gradiente tem complexidade da ordem O
_
1
k
_
.
Teorema 5.29 Considere a sequencia (x
k
), gerada pelo Algoritmo 5.3 para minimizar a
quadratica denida em (5.23). Entao,
f(x
k
) f(x
)
L|x
0
x
|
2
2(2k + 1)
2
,
onde x
e o minimizador de f e L o maior autovalor de A.

Demonstracao. Sendo d
0
, d
1
, . . . , d
k1
as direc oes conjugadas geradas pelo Algoritmo 5.3,
podemos aplicar o Teorema 5.16 para concluir que x
k
e o minimizador de f na variedade
am
x
0
+ [d
0
, d
1
, . . . , d
k1
].
Por outro lado, pelo Teorema 5.20, temos
x
0
+ [d
0
, d
1
, . . . , d
k1
] = V
k
,
onde V
k
e a variedade am denida em (5.26). Portanto, pelo Lema 5.22 e pelas proprie-
dades de norma, temos que
f(x
k
) f(x
)
1
2
(x
0
x
)
T
A
_
p(A)
_
2
(x
0
x
)
1
2
|x
0
x
|
2
_
_
_A
_
p(A)
_
2
_
_
_ , (5.31)
para todo polinomio p T
k
, onde T
k
e denido em (5.27). Alem disso, pelos Teoremas
1.49 e 1.50, temos
_
_
_A
_
p(A)
_
2
_
_
_ = max
_
_
p()
_
2
[ e autovalor de A
_
.
Considerando o polin omio p, denido no Lema 5.28, e usando o fato de que os autovalores
de A est ao todos no intervalo (0, L], obtemos
_
_
_A
_
p(A)
_
2
_
_
_ max
t[0,L]
_
t
_
p(t)
_
2
_
=
L
(2k + 1)
2
max
t[0,L]
_
T
2
2k+1
_
t
L
__
. (5.32)
Pelo Lema 5.26,
max
t[0,L]
_
T
2
2k+1
_
t
L
__
1,
que junto com (5.31) e (5.32) nos fornece
f(x
k
) f(x
)
L|x
0
x
|
2
2(2k + 1)
2
,
5.4 Metodos quase-Newton
Veremos agora outra classe de metodos que tambem estao entre Cauchy e Newton
no sentido de melhorar a performance em relac ao a Cauchy e ser computacionalmente
mais baratos quando comparados com Newton. A ideia e construir aproximac oes para a
Hessiana da fun cao objetivo ao longo das iteracoes.
Assim como no caso de direc oes conjugadas, os metodos quase-Newton tambem
minimizam uma quadratica em um n umero nito de passos.
5.4.1 O algoritmo basico
O procedimento iterativo que estudaremos para minimizar uma func ao f consi-
dera as dire coes de busca dadas por
d
k
= H
k
f(x
k
), (5.33)
onde H
k
IR
nn
e denida positiva. Tal expressao surge de modo natural quando pensa-
mos, como no caso de Newton, em aproximar f por um modelo quadratico em torno de
x
k
. Entretanto, aqui consideramos
m
k
(d) = f(x
k
) +f(x
k
)
T
d +
1
2
d
T
B
k
d,
onde B
k
IR
nn
e uma matriz simetrica qualquer ao inves de
2
f(x
k
). Se B
k
for denida
positiva, o minimizador do modelo quadratico e dado por
B
1
k
f(x
k
).
Deste modo, obtemos (5.33) escolhendo B
k
= H
1
k
. Mais formalmente, vamos trabalhar
em cima do seguinte algoritmo basico.
Algoritmo 5.5 Quase-Newton
Dados x
0
IR
n
, H
0
IR
nn
denida positiva
k = 0
repita enquanto f(x
k
) ,= 0
Dena d
k
= H
k
f(x
k
)
Obtenha t
k
> 0 que minimiza f(x
k
+ td
k
) em [0, )
Faca x
k+1
= x
k
+ t
k
d
k
Determine H
k+1
denida positiva
k = k + 1
Note que se H
k
= I, a direc ao de busca e a de Cauchy. Por outro lado, se
H
k
=
_
2
f(x
k
)
_
1
, temos a direc ao de Newton.
Veremos adiante duas maneiras classicas de atualizar a matriz H
k
de modo que ao
longo das iterac oes as matrizes obtidas se aproximem da inversa de
2
f(x
). O objetivo
e utilizar informac oes de primeira ordem para obter a Hessiana de f.
Para entender uma condic ao que ser a imposta sobre as matrizes e instrutivo
analisar o que ocorre no caso quadr atico. Considere entao
f(x) =
1
2
x
T
Ax + b
T
x + c, (5.34)
com A IR
nn
n
e c IR. Dados x
k
, x
k+1
IR
n
e denindo
p
k
= x
k+1
x
k
, temos
f(x
k+1
) = f(x
k
) + Ap
k
, (5.35)
que pode ser escrito como
q
k
= Ap
k
, (5.36)
onde q
k
= f(x
k+1
) f(x
k
).
Assim, se obtemos x
0
, x
1
, . . . , x
n
, de modo que os passos p
0
, p
1
, . . . , p
n1
sejam
linearmente independentes e conhecemos os gradientes f(x
0
), f(x
1
), . . . , f(x
n
), entao
a matriz A ca unicamente determinada, isto e, se uma matriz H satisfaz
Hq
j
= p
j
, (5.37)
para todo j = 0, 1, . . . , n 1, ent ao H = A
1
. De fato, escrevendo P = (p
0
p
1
. . . p
n1
)
e Q = (q
0
q
1
. . . q
n1
), temos por (5.36) e (5.37),
HAP = HQ = P,
donde segue que HA = I.
Em vista da rela cao (5.37) vamos impor que a matriz H
k+1
, a ser determinada
no Algoritmo 5.5, satisfaca a condic ao
H
k+1
q
j
= p
j
, (5.38)
para todo j = 0, 1, . . . , k.
5.4.2 O metodo DFP
Uma das formas mais conhecidas para a obtenc ao da matriz H
k+1
foi proposta
por Davidon, Fletcher e Powell. O metodo, referenciado como DFP, considera correc oes
de posto 2 e tem v arias propriedades desej aveis, dentre as quais a positividade, o cumpri-
mento da relacao (5.38) e o fato de gerar direc oes conjugadas, como provaremos adiante.
A formula para a nova matriz e dada por
H
k+1
= H
k
+
p
k
(p
k
)
T
(p
k
)
T
q
k

H
k
q
k
(q
k
)
T
H
k
(q
k
)
T
H
k
q
k
. (5.39)
Note que H
k+1
e obtida a partir de H
k
pela soma de duas matrizes de posto 1. O Exerccio
5.18 ajuda a entender como obter esta expressao.
Vamos agora apresentar as principais propriedades desta matriz. Naturalmente,
a primeira coisa que devemos vericar e que a f ormula esta bem denida, ou seja, que os
denominadores nao se anulam.
Lema 5.30 Suponha que no Algoritmo 5.5 o tamanho do passo t
k
e obtido por uma
minimizacao local de f(x
k
+ td
k
) e que H
k
e denida positiva. Entao,
(p
k
)
T
q
k
> 0 e (q
k
)
T
H
k
q
k
> 0.
Alem disso, H
k+1
calculada por (5.39) e denida positiva.
Demonstracao. Como t
k
> 0 e minimizador local de (t) = f(x
k
+ td
k
), temos
f(x
k+1
)
T
p
k
= t
k
f(x
k+1
)
T
d
k
= t
k
(t
k
) = 0.
Portanto,
(p
k
)
T
q
k
= (p
k
)
T
_
f(x
k+1
) f(x
k
)
_
= t
k
f(x
k
)
T
H
k
f(x
k
) > 0, (5.40)
pois H
k
e denida positiva e f(x
k
) ,= 0. Em particular, temos q
k
,= 0, donde segue que
(q
k
)
T
H
k
q
k
> 0. Para provar que H
k+1
e denida positiva note que, dado y IR
n
0,
y
T
H
k+1
y = y
T
H
k
y +
(y
T
p
k
)
2
(p
k
)
T
q
k

(y
T
H
k
q
k
)
2
(q
k
)
T
H
k
q
k
.
Pelo Lema 1.48, existe Q IR
nn
tal que H
k
= QQ
T
. Fazendo u = Q
T
y e v = Q
T
q
k
,
temos que
u
T
u = y
T
H
k
y , v
T
v = (q
k
)
T
H
k
q
k
e u
T
v = y
T
H
k
q
k
.
Desta forma, usando a desigualdade de Cauchy-Schwarz e (5.40), podemos concluir que
y
T
H
k+1
y =
(u
T
u)(v
T
v) (u
T
v)
2
v
T
v
+
(y
T
p
k
)
2
(p
k
)
T
q
k
0.
Resta vericar que esta soma nao se anula. De fato, se a primeira parcela e nula, ent ao
existe ,= 0 tal que u = v, o que equivale a y = q
k
. Assim,
y
T
p
k
= (p
k
)
T
q
k
,= 0,
O Lema 5.30 e valido para funcoes gerais, nao necessariamente quadraticas. No
entanto, no caso quadr atico podemos provar tambem que a atualizac ao pelo metodo DFP
tem outras propriedades interessantes.
Teorema 5.31 Suponha que o Algoritmo 5.5 e aplicado para minimizar a funcao qua-
dratica dada em (5.34), com t
k
obtido por uma minimizacao local de f(x
k
+ td
k
) e H
k+1
calculada por (5.39). Entao, para todo j = 0, 1, . . . , k,
(i) H
k+1
q
j
= p
j
;
(ii) f(x
k+1
)
T
d
j
= 0;
(iii) (d
k+1
)
T
Ad
j
= 0;
(iv) (p
k+1
)
T
q
j
= (q
k+1
)
T
p
j
= 0.
Demonstracao. Vamos provar por induc ao em k. Para k = 0, temos
H
1
q
0
= H
0
q
0
+
p
0
(p
0
)
T
(p
0
)
T
q
0
q
0
H
0
q
0
(q
0
)
T
H
0
(q
0
)
T
H
0
q
0
q
0
= p
0
.
Como t
0
> 0 e minimizador local de (t) = f(x
0
+ td
0
), temos f(x
1
)
T
d
0
=
(t
0
) = 0.
Usando (5.36) e o que acabamos de provar, obtemos
t
0
(d
1
)
T
Ad
0
= (d
1
)
T
Ap
0
= f(x
1
)
T
H
1
q
0
= t
0
f(x
1
)
T
d
0
= 0.
A ultima armac ao tambem segue de (5.36). De fato,
(p
1
)
T
q
0
= (q
1
)
T
p
0
= (p
1
)
T
Ap
0
= t
1
t
0
(d
1
)
T
Ad
0
= 0.
Supondo agora que o teorema e valido para k 1, vamos provar que vale para k. Para
j = k, a vericacao das armac oes e feita exatamente como zemos no caso k = 0,
substituindo 0 e 1 por k e k + 1, respectivamente. Considere ent ao j k 1. Pela
hip otese de induc ao,
H
k
q
j
= p
j
, (p
k
)
T
q
j
= 0 e (q
k
)
T
H
k
q
j
= (q
k
)
T
p
j
= 0.
Portanto,
H
k+1
q
j
= H
k
q
j
+
p
k
(p
k
)
T
(p
k
)
T
q
k
q
j
H
k
q
k
(q
k
)
T
H
k
(q
k
)
T
H
k
q
k
q
j
= p
j
,
provando (i). Usando a relac ao (5.35) e a hip otese de induc ao, obtemos
f(x
k+1
)
T
d
j
=
_
f(x
k
) + Ap
k
_
T
d
j
= f(x
k
)
T
d
j
+ t
k
(d
k
)
T
Ad
j
= 0,
o que prova (ii). Para provar (iii) basta usar (5.36) e o que acabamos de provar, obtendo
t
j
(d
k+1
)
T
Ad
j
= (d
k+1
)
T
Ap
j
= f(x
k+1
)
T
H
k+1
q
j
= t
j
f(x
k+1
)
T
d
j
= 0.
Novamente por (5.36), temos
(p
k+1
)
T
q
j
= (q
k+1
)
T
p
j
= (p
k+1
)
T
Ap
j
= t
k+1
t
j
(d
k+1
)
T
Ad
j
= 0,
provando (iv) e completando a demonstrac ao.
Podemos concluir do Teorema 5.31 que o metodo DFP termina em no maximo
n passos, caso em que as dire coes d
0
, d
1
, . . . , d
n1
s ao A-conjugadas, o mesmo valendo
para p
0
, p
1
, . . . , p
n1
. Alem disso, como H
n
satisfaz (5.37), temos que H
n
= A
1
. Outras
propriedades do metodo DFP est ao propostas nos Exerccios 5.19 a 5.21.
5.4.3 O metodo BFGS
Outro modo classico para atualizar as matrizes no Algoritmo 5.5 e devido a
Broyden, Fletcher, Goldfarb e Shanno (BFGS) e tambem tem boas propriedades teoricas
como o metodo DFP. Alem disso o desempenho computacional do metodo BFGS e superior
ao DFP, raz ao pela qual ele e amplamente utilizado em implementa coes de algoritmos para
problemas de grande porte.
A ideia tem uma certa simetria com a do metodo DFP. Consiste em olhar para
a relac ao (5.38), mas pensando em uma aproximac ao para a Hessiana, ao inves da sua
inversa. Desta forma, motivados por (5.36), procuramos uma matriz B
k+1
tal que
B
k+1
p
j
= q
j
, (5.41)
para todo j = 0, 1, . . . , k.
Para simplicar a notac ao e entender melhor como obter a nova matriz, vamos
suprimir os ndices dos elementos envolvidos. Desta forma, considere B IR
nn
denida
positiva e p, q IR
n
tais que p
T
q > 0. Queremos obter B
+
IR
nn
por uma correc ao
simetrica de posto 2 na matriz B, de modo que B
+
p = q. Para isto, devem existir escalares
a, b IR e vetores u, v IR
n
tais que
q = B
+
p = (B + auu
T
+ bvv
t
)p = Bp + a(u
T
p)u + b(v
t
p)v.
Uma possvel escolha para satisfazer esta condic ao e
a(u
T
p)u = q e b(v
t
p)v = Bp.
Multiplicando por p
T
, obtemos a(u
T
p)
2
= p
T
q e b(v
t
p)
2
= p
T
Bp. Assim, considerando
a = 1 e b = 1, temos que
u =
q
u
T
p
=
q
_
p
T
q
e v =
Bp
v
T
p
=
Bp
_
p
T
Bp
.
Portanto,
B
+
= B + auu
T
+ bvv
t
= B +
qq
T
p
T
q

Bpp
T
B
p
T
Bp
. (5.42)
Note a relac ao desta f ormula com a obtida por DFP. Uma segue da outra trocando os
papeis de B e H, bem como de p e q.
O metodo BFGS consiste em escolher a nova H como a inversa de B
+
. Isto pode
ser feito com auxlio da f ormula de Sherman-Morrison (veja o Exerccio 1.22), a saber
(Q + uv
T
)
1
= Q
1
Q
1
uv
T
Q
1
1 + v
T
Q
1
u
.
Aplicando esta f ormula em (5.42), cujos detalhes sao deixados para o Exerccio 5.22, e
voltando com os ndices, obtemos
H
BFGS
k+1
= H
k
+
_
1 +
(q
k
)
T
H
k
q
k
(p
k
)
T
q
k
_
p
k
(p
k
)
T
(p
k
)
T
q
k

p
k
(q
k
)
T
H
k
+ H
k
q
k
(p
k
)
T
(p
k
)
T
q
k
, (5.43)
onde H
k
= B
1
k
.
Apresentamos a seguir algumas propriedades do metodo BFGS, dentre as quais
a positividade. Alem disso, no caso quadratico temos termina cao nita como ocorre com
o metodo DFP.
Lema 5.32 Suponha que no Algoritmo 5.5 o tamanho do passo t
k
e obtido por uma
minimizacao local de f(x
k
+ td
k
) e que H
k
e denida positiva. Entao (p
k
)
T
q
k
> 0 e
H
BFGS
k+1
e denida positiva.
Demonstracao. A prova de que (p
k
)
T
q
k
> 0 e exatamente a mesma feita no Lema 5.30.
Para vericar a positividade, note que H
BFGS
k+1
= B
1
k+1
, onde
B
k+1
= B
k
+
q
k
(q
k
)
T
(p
k
)
T
q
k

B
k
p
k
(p
k
)
T
B
k
(p
k
)
T
B
k
p
k
e B
k
= H
1
k
. Assim, trocando H por B e p por q na prova do Lema 5.30, podemos
concluir que H
BFGS
k+1
e denida positiva, completando a demonstra cao.
Teorema 5.33 Suponha que o Algoritmo 5.5 e aplicado para minimizar a funcao quadra-
tica dada em (5.34), com t
k
obtido pela busca exata e H
BFGS
k+1
calculada por (5.43). Entao,
para todo j = 0, 1, . . . , k,
(i) H
BFGS
k+1
q
j
= p
j
;
(ii) f(x
k+1
)
T
d
j
= 0;
(iii) (d
k+1
)
T
Ad
j
= 0;
(iv) (p
k+1
)
T
q
j
= (q
k+1
)
T
p
j
= 0.
Demonstracao. A prova segue exatamente as mesmas ideias usadas no Teorema 5.31,
levando em conta que H
BFGS
k+1
= B
1
k+1
, onde
B
k+1
= B
k
+
q
k
(q
k
)
T
(p
k
)
T
q
k

B
k
p
k
(p
k
)
T
B
k
(p
k
)
T
B
k
p
k
e B
k
= H
1
k
.
5.5 Metodo de regiao de conanca
O metodo de regi ao de conanca dene um modelo da func ao objetivo e uma
regi ao em torno do ponto corrente na qual conamos no modelo. Calculamos ent ao, um
minimizador aproximado do modelo na regi ao de conanca. Caso este ponto forneca uma
reduc ao razo avel no valor da func ao objetivo ele e aceito e repete-se o processo. Caso
contr ario, pode ser que o modelo n ao represente adequadamente a func ao. Neste caso, o
ponto e recusado e o tamanho da regi ao e reduzido para encontrar um novo minimizador.
Em geral, a dire cao do passo pode mudar quando o tamanho da regi ao e alterado. Isto
signica que a losoa deste metodo e diferente da que aparece nos metodos discutidos
anteriormente. A ideia ate entao era xar uma direc ao e, em seguida, determinar quanto
caminhar nesta direcao para reduzir a funcao objetivo. Agora, dizemos primeiro quanto
podemos caminhar e depois calculamos a direc ao.
Vamos considerar uma func ao f : IR
n
IR de classe (
2
e, dado um ponto
x
k
IR
n
, o modelo quadr atico de f em torno de x
k
denido por
q
k
(x) = f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
),
onde B
k
IR
nn
pode ser a Hessiana
2
f(x
k
) ou qualquer outra matriz simetrica que
satisfaca |B
k
| , para alguma constante > 0, independente de k IN.
O modelo denido acima aproxima bem a func ao f numa vizinhanca de x
k
.
Vamos portanto considerar
k
> 0 e a regi ao
_
x IR
n
[ |x x
k
|
k
_
,
em que conamos no modelo. Para simplicar a notac ao, considere
d = x x
k
e m
k
(d) = q
k
(x
k
+ d).
Na primeira etapa do metodo, resolvemos (possivelmente de forma aproximada) o sub-
problema
minimizar m
k
(d) = f(x
k
) +f(x
k
)
T
d +
1
2
d
T
B
k
d
sujeito a |d|
k
,
(5.44)
obtendo um passo d
k
. A outra etapa consiste em avaliar o passo. Esperamos que o ponto
x
k
+ d
k
proporcione uma reduc ao na func ao objetivo que seja no mnimo uma fracao da
reduc ao do modelo. Para formalizar este conceito denimos a reduc ao real na func ao
objetivo e a reduc ao predita pelo modelo como
ared = f(x
k
) f(x
k
+ d
k
) e pred = m
k
(0) m
k
(d
k
).
Se o ponto x
k
n ao for estacionario, ent ao m
k
(0) ,= 0 e portanto a reduc ao predita sera
positiva. Desta forma, podemos considerar a seguinte raz ao, que sera usada na avaliac ao
do passo.
k
=
ared
pred
. (5.45)
O passo d
k
ser a aceito quando a raz ao
k
for maior que uma constante 0 dada.
Neste caso, denimos x
k+1
= x
k
+ d
k
e repetimos o processo. Caso contr ario, recusamos
o passo d
k
, reduzimos o raio
k
e resolvemos o subproblema (5.44) com o novo raio. A
Figura 5.7 ilustra um passo do metodo de regiao de conan ca. Note que no gr aco da
direita o minimizador irrestrito do modelo est a na regi ao de conanca. Neste caso, se
B
k
=
2
f(x
k
), ent ao o passo de regi ao de conanca e exatamente o passo de Newton.
x
k
x
k+1
x
k
x
k+1
Figura 5.7: Uma itera cao do metodo de regi ao de conan ca.
5.5.1 Algoritmo
Vamos agora formalizar a discussao anterior no seguinte algoritmo, que se baseia
no proposto em [39]. Tambem consideramos importante citar [6], uma referencia moderna
sobre metodos de regiao de conanca.
Algoritmo 5.6 Regiao de conanca
Dados: x
0
IR
n
,

> 0,
0
(0,

) e [0,
1
4
)
k = 0
repita enquanto f(x
k
) ,= 0
Obtenha d
k
, solucao aproximada de (5.44)
Calcule
k
usando (5.45)
se
k
>
x
k+1
= x
k
+ d
k
sen
ao
x
k+1
= x
k
se
k
<
1
4
k+1
=

k
2
sen
ao
se
k
>
3
4
e |d
k
| =
k
k+1
= min
_
2
k
,

_
sen
ao
k+1
=
k
k = k + 1
Note que aumentamos o raio da regi ao de conanca quando a reduc ao da fun cao
objetivo e grande e o passo d
k
est a na fronteira da regi ao de conanca. Se o passo
ca estritamente dentro da regiao, podemos inferir que o raio atual
k
n ao interfere no
progresso do algoritmo e podemos deixar inalterado o seu valor para a pr oxima iterac ao.
5.5.2 O passo de Cauchy
Vamos discutir agora como obter uma soluc ao aproximada do subproblema (5.44)
que seja suciente para garantir a convergencia global do Algoritmo 5.6. Isto e importante
pois muitas vezes n ao conseguimos resolver o subproblema de forma exata. O passo de
Cauchy, que deniremos abaixo, fornece uma reduc ao no modelo que nos permite provar
a convergencia do algoritmo.
Para facilitar o desenvolvimento, vamos denotar g
k
= f(x
k
). Denimos o passo
de Cauchy como sendo o minimizador de m
k
ao longo da dire cao oposta ao gradiente,
sujeito à regi ao de conanca, isto e,
d
k
c
= t
k
g
k
, (5.46)
onde t
k
> 0 e soluc ao do problema
minimizar m
k
(tg
k
) = f(x
k
) t|g
k
|
2
+
1
2
t
2
g
T
k
B
k
g
k
sujeito a |tg
k
|
k
.
(5.47)
A Figura 5.8 mostra o ponto de Cauchy em uma iterac ao k. Nesta gura, as elipses
representam as curvas de nvel do modelo m
k
. A area hachurada corresponde ao conjunto
de pontos que satisfazem a rela cao
pred m
k
(0) m
k
(d
k
c
). (5.48)
Esta condicao ser a a base de uma das hip oteses na an alise de convergencia, isto e, vamos
supor que a soluc ao aproximada do subproblema (5.44) forneca uma reducao de pelo
menos uma fra cao da reducao obtida pelo passo de Cauchy.
x
k
x
k
c
Figura 5.8: O ponto de Cauchy e pontos melhores.
Vamos agora fazer uma estimativa da redu cao do modelo no passo de Cauchy.
Lema 5.34 O passo de Cauchy, denido em (5.46), satisfaz
m
k
(0) m
k
(d
k
c
)
1
2
|g
k
| min
_
k
,
|g
k
|
|B
k
|
_
.
Demonstracao. Primeiramente, vamos obter t
k
, solucao do problema (5.47), isto e, o
minimizador da funcao quadr atica
(t) = f(x
k
) t|g
k
|
2
+
1
2
t
2
g
T
k
B
k
g
k
no intervalo 0 t

k
|g
k
|
. Para isto considere dois casos: g
T
k
B
k
g
k
> 0 e g
T
k
B
k
g
k
0.
(i) Se g
T
k
B
k
g
k
> 0, ent ao a fun cao e convexa (veja a Figura 5.9) e tem minimi-
zador irrestrito
t
=
|g
k
|
2
g
T
k
B
k
g
k
. (5.49)
Dois subcasos podem ocorrer. O primeiro e quando t

k
|g
k
|
. Neste caso temos t
k
= t
e portanto
m
k
(0) m
k
(d
k
c
) =
1
2
|g
k
|
4
g
T
k
B
k
g
k
.
Usando a desigualdade de Cauchy-Schwarz, obtemos
m
k
(0) m
k
(d
k
c
)
1
2
|g
k
|
2
|B
k
|
. (5.50)
No segundo subcaso temos t
>

k
|g
k
|
, o que implica que o minimizador de est a na
fronteira. Assim, usando (5.49), obtemos
t
k
=

k
|g
k
|
<
|g
k
|
2
g
T
k
B
k
g
k
, (5.51)
implicando em
t
2
k
g
T
k
B
k
g
k
< t
k
|g
k
|
2
= |g
k
|
k
.
Portanto,
m
k
(d
k
c
) < f(x
k
) |g
k
|
k
+
1
2
|g
k
|
k
= f(x
k
)
1
2
|g
k
|
k
,
donde segue que
m
k
(0) m
k
(d
k
c
) >
1
2
|g
k
|
k
. (5.52)
(ii) Agora o caso em que g
T
k
B
k
g
k
0, fornecendo
m
k
(d
k
c
) = f(x
k
) t
k
|g
k
|
2
+
1
2
t
2
k
g
T
k
B
k
g
k
f(x
k
) t
k
|g
k
|
2
. (5.53)
Neste caso, a fun cao e decrescente para t 0 (veja a Figura 5.9) e assim o ponto de
Cauchy tambem esta na fronteira da regi ao de conanca, ou seja, t
k
=

k
|g
k
|
. Portanto,
por (5.53),
m
k
(0) m
k
(d
k
c
) |g
k
|
k

1
2
|g
k
|
k
. (5.54)
De (5.50), (5.52) e (5.54) segue que
m
k
(0) m
k
(d
k
c
)
1
2
|g
k
| min
_
k
,
|g
k
|
|B
k
|
_
,
o que demonstra o resultado.
t t*
g
t t*
g
t
g
Figura 5.9: A func ao .
5.5.3 Convergencia
Para estabelecer a convergencia do metodo de regiao de conanca vamos supor
que o Algoritmo 5.6 gera uma sequencia innita (x
k
) em IR
n
e que s ao satisfeitas as
seguintes hip oteses.
H1 A funcao objetivo f e de classe (
1
, com f Lipschitz.
H2 A solucao aproximada d
k
de (5.44) satisfaz
pred = m
k
(0) m
k
(d
k
) c
1
|f(x
k
)| min
_
k
,
|f(x
k
)|
|B
k
|
_
,
onde c
1
(0, 1) e uma constante.
H3 O passo d
k
satisfaz |d
k
|
k
, para alguma constante 1.
H4 A funcao f e limitada inferiormente no conjunto de nvel
N =
_
x IR
n
[ f(x) f(x
0
)
_
.
H5 As Hessianas B
k
sao uniformemente limitadas, isto e, que existe uma constante
> 0 tal que |B
k
| para todo k IN.
As Hipoteses H1, H4 e H5 s ao comuns em analise de convergencia. Em vista
do Lema 5.34, a Hip otese H2 signica obter um passo cuja reduc ao no modelo seja uma
frac ao da reduc ao proporcionada pelo passo de Cauchy. A condi cao assumida em H3
signica que o passo pode exceder a regi ao de conanca, contanto que permane ca dentro
de algum m ultiplo xo do raio.
O primeiro resultado nos da uma estimativa da razao
k
, denida em (5.45).
Lema 5.35 Suponha que sejam satisfeitas as Hipoteses H1-H5. Entao existe uma cons-
tante c > 0 tal que
[
k
1[
c
2
k
|f(x
k
)| min
_
k
,
|f(x
k
)|
_.
Demonstracao. Pelo teorema do valor medio, existe
k
(0, 1) tal que
f(x
k
+ d
k
) = f(x
k
) +f(x
k
+
k
d
k
)
T
d
k
.
Portanto,
ared pred =
1
2
(d
k
)
T
B
k
d
k
_
f(x
k
+
k
d
k
) f(x
k
)
_
T
d
k
,
Usando o fato de que f e Lipschitz e a desigualdade de Cauchy-Schwarz, podemos
concluir que existe c
0
> 0 tal que
[ared pred[ c
0
2
k
.
Assim,
[
k
1[ =
ared pred
pred
c
0
2
k
c
1
|f(x
k
)| min
_
k
,
|f(x
k
)|
_,
provando o lema para c =
c
0
c
1
.
Uma consequencia importante do Lema 5.35 e que o Algoritmo 5.6 est a bem
denido. De fato, ap os uma quantidade nita de insucessos, teremos
k
min
_
|f(x
k
)|
,
|f(x
k
)|
2c
_
.
Portanto, pelo Lema 5.35,
[
k
1[
c
k
|f(x
k
)|

1
2
.
Assim,
k

1
2
>
1
4
e, pelo Algoritmo 5.6, o passo ser a aceito.
O pr oximo teorema j a nos permite concluir algo sobre convergencia, a saber, que
se a sequencia (x
k
) for limitada, ent ao ela possui um ponto de acumulac ao estacionario.
Teorema 5.36 Suponha que sejam satisfeitas as Hipoteses H1-H5. Entao
liminf
k
|f(x
k
)| = 0.
Demonstracao. Suponha por absurdo que isto seja falso. Entao existe > 0 tal que
|f(x
k
)| , para todo k IN. Considere

= min
_
,

2c
_
, onde e a constante
dada em H5 e c e denida no Lema 5.35. Se
k

, ent ao

|f(x
k
)|
e
k

2c
.
Portanto, pelo Lema 5.35,
[
k
1[
c
k

1
2
.
Assim,
k

1
2
>
1
4
e pelo Algoritmo 5.6 temos
k+1

k
. Isto signica que o raio e
reduzido somente se
k
>

, caso em que
k+1
=

k
2
>
2
. Podemos ent ao concluir que
k
min
_
0
,
2
_
, (5.55)
para todo k IN. Considere agora o conjunto
/ =
_
k IN [
k

1
4
_
.
Dado k /, pelo mecanismo do Algoritmo 5.6 e pela Hip otese H2 temos
f(x
k
) f(x
k+1
) = f(x
k
) f(x
k
+ d
k
)
1
4
_
m
k
(0) m
k
(d
k
)
_
1
4
c
1
min
_
k
,

_
.
Em vista de (5.55), temos que existe uma constante

> 0 tal que
f(x
k
) f(x
k+1
)

, (5.56)
para todo k /. Por outro lado, a sequencia (f(x
k
)) e n ao crescente e, por H4, limitada
inferiormente, donde segue que f(x
k
) f(x
k+1
) 0. Portanto, de (5.56), podemos
concluir que o conjunto / e nito. Assim,
k
<
1
4
, para todo k IN sucientemente
grande e entao
k
ser a reduzido ` a metade em cada iterac ao. Isto implica
k
0, o que
contradiz (5.55). Deste modo, a armac ao no teorema e verdadeira.
O resultado de convergencia estabelecido no Teorema 5.36 pode tambem ser ob-
tido com uma hip otese mais fraca que H1. Nos Exerccios 5.23 e 5.24 trocamos a condic ao
de Lipschitz de f pela continuidade uniforme.
Finalmente, podemos provar a convergencia global do metodo de regi ao de con-
anca. Salientamos que no Algoritmo 5.6, podemos considerar = 0 e entao qualquer
decrescimo na func ao objetivo e aceito. Com isso pudemos provar o Teorema 5.36, que e
uma versao fraca de convergencia global. Para o pr oximo teorema, vamos exigir > 0 e
provar um resultado mais forte.
Teorema 5.37 Suponha que sejam satisfeitas as Hipoteses H1-H5 e que > 0 no Algo-
ritmo 5.6. Entao
f(x
k
) 0.
Demonstracao. Suponha por absurdo que para algum > 0 o conjunto
/ =
_
k IN [ |f(x
k
)|
_
seja innito. Dado k /, considere o primeiro ndice l
k
> k tal que |f(x
l
k
)|

2
. A
existencia de l
k
e assegurada pelo Teorema 5.36. Como f e Lipschitz, temos
2
|f(x
k
) f(x
l
k
)| L|x
k
x
l
k
|,
para alguma constante L > 0. Portanto, usando a Hip otese H3,
2L
|x
k
x
l
k
|
jS
k
|x
j
x
j+1
|
jS
k
j
, (5.57)
onde o
k
= j IN [ k j < l
k
e x
j+1
,= x
j
. Pelo mecanismo do Algoritmo 5.6, Hip oteses
H2 e H5, mais a denic ao de l
k
, temos
f(x
k
) f(x
l
k
) =
jS
k
_
f(x
j
) f(x
j+1
)
_
>
jS
k
_
m
j
(0) m
j
(d
j
)
_
jS
k
c
1
2
min
_
j
,

2
_
.
Denindo

= min
_
c
1
2
4L
,
c
1
2
4
_
e usando (5.57), obtemos
f(x
k
) f(x
l
k
)

> 0, (5.58)
para todo k /. Por outro lado, a sequencia (f(x
k
)) e n ao crescente e, por H4, limitada
k
) f(x
l
k
) 0, contradizendo (5.58). Deste modo, a
armac ao no teorema e verdadeira.
Uma consequencia imediata do Teorema 5.37 e que todo ponto de acumulac ao
de uma sequencia gerada pelo Algoritmo 5.6 e estacion ario. De fato, se x
k
IN
x, entao a
continuidade de f garante que f(x
k
)
IN
f( x). Por outro lado, pelo Teorema 5.37,

temos f(x
k
) 0. Assim, f( x) = 0.
5.5.4 O metodo dogleg
Como vimos, o passo de Cauchy j a e suciente para provar a convergencia global
do Algoritmo 5.6. No entanto, podemos acelerar o metodo obtendo uma solucao aproxi-
mada do subproblema (5.44) que seja melhor que a de Cauchy. Uma forma e dada pelo
metodo dogleg, que cumpre tal objetivo, obtendo inclusive o ponto de Newton, caso ele
esteja dentro da bola.
Este metodo se aplica quando a Hessiana do modelo e denida positiva. Consiste
em minimizar o modelo, sujeito à regi ao de conanca, na poligonal que liga os pontos x
k
,
x
k
u
e x
k
N
, sendo x
k
o ponto corrente, x
k
u
o minimizador do modelo na direc ao oposta ao
gradiente e x
k
N
o minimizador irrestrito do modelo, isto e, o ponto de Newton. Na Figura
5.10 ilustramos duas situac oes. Uma em que x
k
u
est a na bola e outra quando x
k
u
est a fora.
O ponto obtido pelo metodo dogleg e indicado por x
k
d
. Tambem est a representado o ponto
x
k
, minimizador global do modelo na bola.

A Figura 5.11 mostra a trajet oria do ponto dogleg, x
k
d
, bem como dos pontos
x
k
= x
k
+ d
k
, onde d
k
e a soluc ao exata do subproblema (5.44), ambas como func ao do
raio da regi ao de conan ca.
O metodo dogleg pode ser formalizado no seguinte algoritmo, no qual utilizamos
a notac ao g
k
= f(x
k
).
x
k
x
k
N
x
k
u
x
k
d
x
k
x
k
x
k
N
x
k
u
x
k
d x
k
Figura 5.10: O metodo dogleg.

Figura 5.11: Trajet orias do ponto dogleg e minimizador exato do modelo na bola.
Algoritmo 5.7 Dogleg
Dados: x
k
IR
n
,
k
> 0
Calcule d
k
u
=
g
T
k
g
k
g
T
k
B
k
g
k
g
k
se |d
k
u
| >
k
d
k
=

k
|g
k
|
g
k
sen
ao
Determine d
k
N
tal que B
k
d
k
N
= g
k
se |d
k
N
|
k
d
k
= d
k
N
sen
ao
Determine
k
[0, 1] tal que |d
k
u
+
k
(d
k
N
d
k
u
)| =
k
d
k
= d
k
u
+
k
(d
k
N
d
k
u
)
Com as nota coes da Figura 5.10 e do Algoritmo 5.7, temos
x
k
u
= x
k
+ d
k
u
, x
k
N
= x
k
+ d
k
N
e x
k
d
= x
k
+ d
k
.
Para vericar que este metodo est a bem denido, vamos mostrar agora que o
modelo decresce ao longo da poligonal e que a distancia ao ponto corrente cresce quando
caminhamos na poligonal, saindo de x
k
indo para x
k
N
. Isto signica que esta poligonal
cruza a fronteira da bola no maximo uma vez, justamente no ponto dogleg. Se o raio
for sucientemente grande, a poligonal estar a inteiramente contida na bola, e neste caso,
teremos x
k
d
= x
k
N
. Como as armacoes se referem a uma iterac ao xada, vamos simplicar
a notac ao, suprimindo o ndice k.
Lema 5.38 Sejam B IR
nn
uma matriz denida positiva e g IR
n
. Considere a
quadratica
m(d) = g
T
d +
1
2
d
T
Bd
e os minimizadores de m,
a =
g
T
g
g
T
Bg
g e b = B
1
g,
ao longo de g e irrestrito, respectivamente. Entao,
(i) O modelo e nao crescente ao longo da poligonal [0, a] [a, b];
(ii) A funcao d [0, a] [a, b] |d|
2
e crescente.
Demonstracao. (i) Para o trecho [0, a] a arma cao segue diretamente da deni cao de a.
Vejamos entao que (t) = m
_
a + t(b a)
_
e n ao crescente. Temos
(t) = m
_
a + t(b a)
_
T
(b a) =
_
B
_
a + t(b a)
_
+ g
T
(b a).
Usando o fato de que b = B
1
g, obtemos
(t) = (1 t)(Ba + g)
T
(b a). (5.59)
Substituindo as expressoes de a e b, segue que
(Ba)
T
(b a) =
g
T
g
g
T
Bg
g
T
Bb +
g
T
g
g
T
Bg
g
T
Ba =
(g
T
g)
2
g
T
Bg

g
T
g
g
T
Bg
g
T
B
_
g
T
g
g
T
Bg
g
_
= 0
e
g
T
(b a) = g
T
B
1
g +
(g
T
g)
2
g
T
Bg
=
(g
T
g)
2
(g
T
Bg)(g
T
B
1
g)
g
T
Bg
.
Portanto, de (5.59) e do Lema 1.48, podemos concluir que
(t) 0, para t 1. Isto

implica, em particular, que m e n ao crescente no trecho [a, b].
(ii) No trecho [0, a] a armac ao e imediata. Vamos ent ao provar que (t) = |a+t(ba)|
2
2
e crescente. Note primeiro que
(t) = 2
_
a
T
(b a) + t|b a|
2
2
_
.
Pelo Lema 1.48, temos que
a
T
(b a) =
_
g
T
g
g
T
Bg
_
(g
T
Bg)(g
T
B
1
g) (g
T
g)
2
g
T
Bg
0,
o que implica que
(t) 0, para todo t 0. Portanto, e n ao decrescente. Finalmente,

usando Lema 3.4, podemos concluir que e estritamente crescente.
5.5.5 O metodo GC-Steihaug
O metodo dogleg e vantajoso para dimens oes nao muito grandes e quando a
Hessiana do modelo e denida positiva. Para situac oes em que estas hip oteses n ao s ao
satisfeitas, podemos aplicar um metodo baseado em gradientes conjugados proposto por
Steihaug [47], que tambem nos fornece uma soluc ao aproximada do subproblema (5.44).
Apresentamos a seguir o algoritmo GC-Steihaug, que se baseia no proposto em [6],
e encontra um ponto pelo menos tao bom quanto o de Cauchy. Aqui tambem simplicamos
a notac ao, suprimindo o ndice k. Desta forma, vamos resolver o problema quadratico
minimizar m(d) = g
T
d +
1
2
d
T
Bd
sujeito a |d| ,
(5.60)
obtendo um passo d
k
para ser avaliado no Algoritmo 5.6.
Algoritmo 5.8 GC-Steihaug
Dados: d
0
s
= 0, r
0
= g, p
0
= r
0
j = 0
repita enquanto o passo d
k
n ao for obtido
se (p
j
)
T
Bp
j
0
Calcule t IR tal que d = d
j
s
+ tp
j
minimiza m e |d| =
Faca d
k
= d
sen
ao
Calcule t
j
=
(r
j
)
T
r
j
(p
j
)
T
Bp
j
Dena d
j+1
s
= d
j
s
+ t
j
p
j
se |d
j+1
s
|
Calcule t IR tal que d = d
j
s
+ tp
j
satisfaz |d| =
Faca d
k
= d
sen
ao
r
j+1
= r
j
+ t
j
Bp
j
se r
j+1
= 0
Faca d
k
= d
j+1
s
sen
ao
j
=
(r
j+1
)
T
r
j+1
(r
j
)
T
r
j
p
j+1
= r
j+1
+
j
p
j
j = j + 1
Alguns dos exerccios propostos abaixo foram tirados ou reformulados a partir
daqueles apresentados em [13, Captulo 6]. Indicaremos, quando for o caso, o exerccio
correspondente desta referencia.
5.1. [13, Exerc. 6.1] Seja f : IR
n
R, diferenci avel em x e sejam d
1
, ..., d
n
IR
n
vetores
linearmente independentes. Suponha que o mnimo de f( x + td
j
) com t IR ocorra em
t = 0 para cada j = 1, ..., n. Prove que f( x) = 0. Isso implica que f tem um mnimo
local em x?
5.2. [13, Exerc. 6.3] Seja f : IR
n
R, f (
1
. Dena x
k+1
= x
k
t
k
f(x
k
), onde
t
k

t > 0 para todo k IN. Suponha que x
k
x. Prove que f( x) = 0.
5.3. Mostre que o metodo do gradiente com busca de Armijo pode nao convergir se o
tamanho do passo for obtido apenas satisfazendo a rela cao (4.4), ao inves da utilizac ao
do Algoritmo 4.3.
5.4. [13, Exerc. 6.6] Desenhe as curvas de nvel da func ao f(x) = x
2
1
+ 4x
2
2
4x
1
8x
2
.
Encontre o ponto x
que minimiza f. Prove que o metodo do gradiente, aplicado a partir

de x
0
= 0 nao pode convergir para x
em um n umero nito de passos, se usarmos busca

linear exata. Ha algum ponto x
0
para o qual o metodo converge em um n umero nito de
passos?
5.5. [13, Exerc. 6.8] Seja f : IR
n
IR dada por f(x) =
1
2
x
T
Ax+b
T
x+c, onde A IR
nn
n
e c IR. Prove que se ao aplicarmos o metodo
do gradiente a partir de um certo x
0
, com f(x
0
) ,= 0, encontramos a solucao em uma
iterac ao, entao v = x
1
x
0
e um autovetor da Hessiana. Reveja o Exerccio 4.4.
5.6. Considere h : IR
n
IR dada por h(x) =
1
2
x
T
Ax + b
T
x + c, onde A IR
nn
e uma
matriz denida positiva, b IR
n
e c IR. Sejam x
o minimizador de h,
f(x) = h(x + x
) h(x
) =
1
2
x
T
Ax
e (x
k
) a sequencia gerada pelo metodo do gradiente com busca exata aplicado em f.
Dena y
k
= x
k
+ x
. Mostre que o metodo do gradiente com busca exata aplicado em h,

a partir de y
0
, gera justamente a sequencia (y
k
).
5.7. Suponha que o metodo do gradiente com busca exata e aplicado para minimizar a
func ao f(x) = 5x
2
1
+ 5x
2
2
x
1
x
2
11x
1
+ 11x
2
+ 11.
(a) Qual a taxa de convergencia em |x
k
x
|?
(b) E em [f(x
k
) f(x
)[?
(c) Se x
0
= 0, quantas iterac oes sao necess arias para se obter uma precisao de 10
6
no
valor otimo de f?
5.8. Considere f(x) =
1
2
x
2
1
+
1
4
x
4
2
1
2
x
2
2
.
(a) Determine e classique os pontos estacion arios de f;
(b) A partir de x
0
=
_
1
0
_
faca uma iterac ao do metodo do gradiente;
(c) Discuta a possvel convergencia da sequencia (x
k
), gerada pelo metodo do gradiente
a partir do ponto x
0
dado no item anterior.
5.9. Considere um n umero real a > 0. Mostre que o metodo de Newton para resolver a
equac ao x
2
a = 0 e dado por
x
k+1
=
1
2
_
x
k
+
a
x
k
_
.
Faca tres iterac oes deste metodo para calcular uma aproximac ao para
5, iniciando com
x
0
= 2.
5.10. A Figura 5.12 ilustra uma situac ao na qual o metodo de Newton (para equac oes)
pode falhar. A fun cao e dada por f(x) = x
4
x
2
. Determine quais devem ser os pontos
iniciais para que isto aconteca.
Figura 5.12: O metodo de Newton pode falhar.
5.11. [13, Exerc. 6.9] Seja f(x) =
1
2
(x
2
1
x
2
)
2
+
1
2
(1 x
1
)
2
. Qual e o minimizador de f?
Faca uma iterac ao do metodo de Newton para minimizar f a partir de x
0
=
_
2
2
_
.

E um
bom passo? Antes de decidir, calcule f(x
0
) e f(x
1
).
5.12. Sejam A IR
nn
uma matriz simetrica e u, v IR
n
autovetores de A, associados
a autovalores distintos. Mostre que u e v s ao A-conjugados.
n
IR dada por f(x) =
1
2
x
T
Ax + b
T
x + c, onde A IR
nn
e
uma matriz denida positiva, b IR
n
e c IR. Seja S IR
nr
uma matriz cujas colunas
s ao linearmente independentes. Dado x IR
n
, mostre que o minimizador da funcao
quadr atica f na variedade am V = x + S [ IR
r
e dado por
x
+
= x S(S
T
AS)
1
S
T
f( x).
Alem disso, S
T
f(x
+
) = 0.
5.14. Considere S IR
nr
, a variedade am V = x + S [ IR
r
e x V . Mostre
que x + S [ IR
r
= V .
5.15. Considere a funcao f denida no Exerccio 5.13, d
0
, d
1
, . . . , d
n1
uma base de
IR
n
e S
k
IR
n(k+1)
a matriz cujas colunas sao os vetores d
0
, d
1
, . . . , d
k
. Dado x
0
IR
n
,
sabemos, pelo Exerccio 5.13, que o ponto
x
k+1
= x
0
S
k
(S
T
k
AS
k
)
1
S
T
k
f(x
0
)
e o minimizador de f na variedade am x
0
+ [d
0
, d
1
, . . . , d
k
] (em particular, x
n
minimiza
f em IR
n
). Mostre que
x
k+1
= x
k
S
k
(S
T
k
AS
k
)
1
S
T
k
f(x
k
)
e S
T
k
f(x
k
) =
_
0
(d
k
)
T
f(x
k
)
_
.
5.16. Considere a sequencia denida no Exerccio 5.15. Se os vetores d
0
, d
1
, . . . , d
n1
s ao
A-conjugados, ent ao
x
k+1
= x
k
+ t
k
d
k
,
onde t
k
=
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
. Conclua que x
k+1
pode ser obtido por uma busca exata a partir
de x
k
, na dire cao d
k
.
5.17. Considere o conjunto T
k
, dos polin omios p : IR IR de grau menor ou igual a k
tais que p(0) = 1, denido em (5.27). Fixado L > 0, dena a func ao : T
k
IR por
(p) = max
_
t
_
p(t)
_
2
[ 0 t L
_
.
Resolva o problema
minimizar (p)
sujeito a p T
k
.
5.18. O objetivo deste exerccio e obter a express ao do metodo DFP, dada em (5.39).
Considere H IR
nn
denida positiva e p, q IR
n
tais que p
T
q > 0. Suponha que
H
+
IR
nn
e obtida por uma correc ao simetrica de posto 2 (isto e, H
+
= H+auu
T
+bvv
t
)
e H
+
q = p. Encontre a, b, u e v que fornecem
H
+
= H +
pp
T
p
T
q

Hqq
T
H
q
T
Hq
.
5.19. Suponha que o Algoritmo 5.5 e aplicado para minimizar a func ao quadratica dada
em (5.34), com H
0
= I, t
k
obtido pela busca exata e H
k+1
calculada por (5.39). Ent ao,
H
k
q
k
[f(x
0
), f(x
1
), . . . , f(x
k+1
)].
5.20. Nas mesmas condic oes do Exerccio 5.19, mostre que
[d
0
, d
1
, . . . , d
k
] = [f(x
0
), f(x
1
), . . . , f(x
k
)].
5.21. Mostre que a sequencia gerada pelo metodo DFP, no contexto do Exerccio 5.19,
coincide com aquela gerada pelo algoritmo de gradientes conjugados (Algoritmo 5.3).
5.22. Considere B IR
nn
denida positiva, H = B
1
e p, q IR
n
tais que p
T
q > 0.
Mostre que a inversa da matriz
B
+
= B +
qq
T
p
T
q

Bpp
T
B
p
T
Bp
e dada por
H
+
= H +
_
1 +
q
T
Hq
p
T
q
_
pp
T
p
T
q

pq
T
H + Hqp
T
p
T
q
.
5.23. Seja (x
k
) uma sequencia gerada pelo Algoritmo 5.6. Suponha que f seja de classe
(
1
e que sejam satisfeitas as Hip oteses H2-H5. Mostre que
[
k
1[
k
_
k
+ sup
t[0,1]
_
|f(x
k
+ td
k
) f(x
k
)|
_
_
c
1
|f(x
k
)| min
_
k
,
|f(x
k
)|
_ ,
onde c
1
, e s ao as constantes das Hip oteses H2, H3 e H5, respectivamente.
5.24. Seja (x
k
) uma sequencia gerada pelo Algoritmo 5.6. Suponha que f seja de classe
(
1
, com f uniformemente contnua e que sejam satisfeitas as Hip oteses H2-H5. Mostre
que
liminf
k
|f(x
k
)| = 0.
Captulo 6
Implementacao Computacional
No Captulo 5 estudamos, do ponto de vista te orico, diversos metodos para re-
solver problemas de otimizac ao irrestrita. Vamos agora vericar como eles se comportam
na pr atica. Para isso vamos elaborar programas em alguma linguagem computacional e
resolver uma famlia de problemas teste. O objetivo e avaliar e comparar o desempenho
dos metodos. Estamos interessados em analisar algumas informacoes, como o n umero de
iterac oes, tempo computacional e quantidade de avaliac oes de fun cao, gastos para resolver
um problema ou um conjunto de problemas.
Tambem e instrutivo gerar gracos mostrando a variacao da func ao objetivo ou
da norma do gradiente ao longo das iterac oes. Alem disso, para problemas em IR
2
, gr acos
com as curvas de nvel da func ao objetivo e a trajetoria da sequencia gerada pelos algo-
ritmos sao muito uteis para ilustrar conceitos e propriedades dos metodos.
Neste captulo vamos apresentar inicialmente um banco de func oes para serem
testadas pelos metodos implementados. Em seguida propomos um roteiro do que e in-
teressante discutir na resoluc ao de problemas por um determinado metodo. Alem disso,
discutimos uma metodologia usada para comparar o desempenho de diferentes metodos
para resolver um conjunto de problemas.
6.1 Banco de funcoes
O objetivo desta sec ao e organizar um banco de fun coes a serem testadas pelos
diferentes algoritmos. Com o prop osito de uniformizar o tratamento, vamos considerar a
seguinte rotina que pode ser implementada para avaliar uma func ao e suas derivadas.
Considere f : IR
n
IR uma func ao de classe (
2
. Dados um ponto x IR
n
e um
par ametro ordem 0, 1, 2, queremos como sada o valor da func ao, do gradiente ou da
Hessiana de f, conforme o par ametro ordem seja 0, 1 ou 2, respectivamente.
108
Implementa cao Computacional 109
Rotina 6.1 Avaliacao de funcao e derivadas
Dados de entrada: x IR
n
, ordem 0, 1, 2
se ordem = 0
y = f(x)
sen
ao
se ordem = 1
y = f(x)
se ordem = 2
y =
2
f(x)
No pr oximo exemplo consideramos a Rotina 6.1 para uma func ao particular de-
nida em IR
2
.
2
IR denida por f(x) = x
2
1
+6x
1
x
2
+4x
2
2
. Implemente
a Rotina 6.1 para esta funcao e use o programa implementado para avaliar a funcao, o
gradiente e a Hessiana no ponto x =
_
3
2
_
.
A rotina para a func ao deste exemplo e apresentada abaixo.
2
, ordem 0, 1, 2
se ordem = 0
y = x
2
1
+ 6x
1
x
2
+ 4x
2
2
sen
ao se ordem = 1
y =
_
2x
1
+ 6x
2
6x
1
+ 8x
2
_
sen
ao se ordem = 2
y =
_
2 6
6 8
_
sen
ao
Mensagem: Reveja a vari avel ordem
Alem disso, no ponto dado, o algoritmo fornece como sada
y = 11 , y =
_
6
2
_
ou y =
_
2 6
6 8
_
,
conforme o par ametro de entrada ordem seja 0, 1 ou 2, respectivamente.
Algumas func oes podem ser implementadas de forma mais geral, sem fazer men-
c ao explcita a cada componente do ponto x.

E o caso da func ao do exemplo anterior
conforme discutiremos a seguir.
Exemplo 6.2 (Funcao Quadratica) Observe que a funcao do exemplo anterior e uma
quadratica da forma
f(x) =
1
2
x
T
Ax (6.1)
com A =
_
2 6
6 8
_
. Implemente a Rotina 6.1 para a funcao dada por (6.1). Dada a
matriz A acima como variavel global, teste a rotina implementada com o ponto do exemplo
anterior. Compare os resultados.
A rotina para a func ao quadr atica (6.1) e apresentada abaixo.
Variavel global: A IR
nn
simetrica
n
, ordem 0, 1, 2
se ordem = 0
y =
1
2
x
T
Ax
sen
ao se ordem = 1
y = Ax
sen
ao se ordem = 2
y = A
sen
ao
Mensagem: Reveja a vari avel ordem
Alem da implementa cao car mais simples, ela e bastante geral. Dada qualquer
matriz simetrica A IR
nn
, a funcao quadr atica (6.1) pode ser calculada por esta rotina.
O proximo exemplo discute como gerar uma matriz denida positiva arbitr aria.
Exemplo 6.3 Dada a dimensao n do espaco e dois reais positivos 0 < < L, implemente
uma rotina que forneca:
(a) um vetor d IR
n
com componentes uniformemente distribudas entre e L.
(b) uma matriz simetrica A IR
nn
cujos autovalores sejam as componentes de d.
Use a rotina implementada para gerar uma matriz simetrica 4 4 com autovalores entre
= 1 e L = 1000.
A rotina abaixo calcula d e A como sugerido.
Dados: n IN, 0 < < L
v = rand(n, 1) Vetor randômico com componentes entre 0 e 1
d = +
L
max(v) min(v)
(v min(v) e)
Obtenha uma matriz Q IR
nn
ortogonal
A = Q
T
diag(d)Q
Note que a obtenc ao de uma matriz ortogonal Q IR
nn
pode ser feita pela
decomposic ao QR de uma matriz arbitr aria em IR
nn
. Se tiver d uvida a respeito consulte
um livro de

Algebra Linear, por exemplo [29].
Teste a rotina implementada e verique que ela fornece uma matriz, de fato,
simetrica com autovalores entre e L.
J a temos assim um banco de func oes quadraticas. A cada vez que executamos
a rotina acima, gera-se randomicamente uma matriz A e consequentemente teremos uma
func ao quadratica diferente.
Existem na literatura diversos bancos de func oes para serem testadas pelos algo-
ritmos, como por exemplo [17, 20, 36]. O banco de func oes proposto por More, Garbow e
Hillstrom [36] consiste de uma famlia de 35 func oes dadas como somatorio de quadrados.
Isto signica que cada func ao e da forma
f(x) =
m
i=1
_
f
i
(x)
_
2
, (6.2)
onde f
i
: IR
n
IR, i = 1, . . . , m, sao funcoes dadas. Para algumas func oes a dimensao
e xada e em outras pode ser escolhida pelo usu ario. O codigo em Matlab e em Fortran
deste banco de func oes esta disponvel em
http://www.mat.univie.ac.at/neum/glopt/test.html#test unconstr
Baixe os c odigos e o artigo [36] que iremos trabalhar com eles.
Cada fun cao tem quatro dados de entrada: a dimens ao n do espa co; o n umero
m de func oes usadas para denir a func ao; o ponto x IR
n
onde se deseja calcula-la e
um par ametro opt 1, 2, 3 que discutiremos a seguir. A vers ao implementada de cada
func ao fornece o vetor fvec IR
m
cuja i-esima componente e o valor f
i
(x), caso opt seja
1. Se opt = 2, a sada e a matriz jacobiana de (f
1
, f
2
, . . . , f
m
), isto e, uma matriz J, cuja
i-esima linha e f
i
(x)
T
. Se opt = 3, sao fornecidos o vetor fvec e a matriz J. A matriz
Hessiana n ao e fornecida. Note que nesta notac ao a func ao f dada em (6.2) pode ser
escrita como
f(x) = fvec
T
fvec
e o gradiente de f pode ser calculado como
f(x) = 2
m
i=1
f
i
(x)f
i
(x) = 2J
T
fvec.
Exemplo 6.4 Para as seguintes funcoes, calcule o vetor fvec, a matriz J, o valor de f
e seu gradiente no ponto x
0
fornecido em [36].
(a) Rosenbrock function, numerada como (1) em [36].
(b) Jennrich and Sampson, numerada como (6) em [36], com m = 10.
(c) Extended Rosenbrock function, numerada como (21) em [36], com n = 4 e m = n.
Indicamos abaixo o ponto x
0
e fornecemos as respostas do valor da f e do seu gradiente
neste ponto.
(a) x
0
=
_
1.2
1
_
, f(x
0
) = 24.2 e f(x
0
) =
_
215.6
88.0
_
.
(b) x
0
=
_
0.3
0.4
_
, f(x
0
) = 4171.3 e f(x
0
) =
_
33796.6
87402.1
_
.
(c) x
0
=
_
_
_
_
_
_
1.2
1
1.2
1
_
_
_
_
_
_
, f(x
0
) = 48.4 e f(x
0
) =
_
_
_
_
_
_
215.6
88.0
215.6
88.0
_
_
_
_
_
_
.
O pr oximo exemplo generaliza o exemplo anterior criando uma interface para
avaliar qualquer uma das funcoes de [36] no formato da Rotina 6.1.
Exemplo 6.5 (Interface com More, Garbow e Hillstrom) Dena variaveis globais
FUNC e MM que devem receber o nome da funcao que se quer avaliar e o valor de m
correspondente. Dado x IR
n
e ordem, implemente uma rotina que forneca o valor da
funcao e do gradiente de FUNC no ponto x, dependendo se ordem e 0 ou 1. Teste a rotina
implementada calcular o valor da funcao e do seu gradiente no ponto x
0
fornecido, para
as funcoes do exemplo anterior.
Variaveis globais: FUNC e MM
Dados de entrada: x, ordem 0, 1
Dena n como a dimens ao de x
se ordem = 0
Calcule fvec avaliando FUNC em x com opt = 1
y = |fvec|
2
se ordem = 1
Calcule fvec e J avaliando FUNC em x com opt = 3
y = 2J
T
fvec
6.2 Implementacao dos algoritmos
O objetivo desta sec ao e a programac ao dos metodos estudados para resolver
um problema ou um conjunto de problemas. Come camos resolvendo um problema por
um determinado algoritmo. Em seguida, resolvemos este problema por varios algoritmos.
Finalmente, vamos propor a resolu cao de um banco de problemas por varios algoritmos.
Vamos avaliar e comparar o desempenho dos metodos no que diz respeito ao
n umero de itera coes, tempo computacional e quantidade de avalia coes de func ao. Tambem
vamos gerar gr acos mostrando a variacao da fun cao objetivo ou da norma do gradiente
ao longo das iterac oes e, para problemas em IR
2
, gracos com as curvas de nvel da
func ao objetivo e a trajetoria da sequencia gerada pelos algoritmos, ilustrando conceitos
e propriedades dos metodos. Por exemplo, a Figura 6.1 mostra 4 iteracoes do algoritmo
de Cauchy com a busca exata aplicado para minimizar uma func ao quadr atica convexa.
Esta gura ilustra duas propriedades do algoritmo. Uma delas, formalizada no Lema 5.1,
e o fato de duas direc oes consecutivas serem ortogonais. A outra propriedade se refere à
convergencia e foi provada no Teorema 5.4.
Figura 6.1: Passos do algoritmo de Cauchy.
6.3 Comparacao de diferentes algoritmos
Para facilitar a comparacao entre v arios metodos e indicada a an alise de desem-
penho introduzida por Dolan e More [7], que fornece um meio de avaliar e comparar o
desempenho de um conjunto o de n
s
algoritmos aplicados a um conjunto T de n
p
proble-
mas teste. Por exemplo, considere t
p,s
o tempo de processamento necessario para resolver
o problema p T pelo algoritmo s o. Se o algoritmo s n ao resolveu o problema p, faca
t
p,s
= . Denimos o ndice de desempenho r
p,s
por
r
p,s
=
t
p,s
min t
p,j
[ j o
.
Este ndice vale 1 para o algoritmo mais eciente e quanto maior for seu valor, pior ser a o
desempenho do algoritmo. Alem disso, para cada algoritmo s consideramos a funcao de
desempenho
s
: [1, ) [0, 1] denida por
s
() =
1
n
p
card p T [ r
p,s
.
Assim,
s
(1) e a proporc ao de problemas que o algoritmo s resolve no menor tempo. De
forma geral, considerando uma medida de desempenho arbitr aria,
s
() e a porcentagem
de problemas que o algoritmo s resolve em vezes o valor da medida de desempenho do
algoritmo mais eciente.
Para facilitar a visualizacao, construimos o gr aco da funcao
s
, chamado de
gr aco de perl de desempenho. Como exemplo, suponha que resolvemos uma bateria
de 30 problemas por 4 algoritmos diferentes e armazenamos uma matriz T IR
304
cuja
p-esima linha corresponde ao tempo gasto por cada um dos algoritmos para resolver o
problema p. Se o algoritmo s n ao resolveu o problema p, dena T(p, s) como sendo um
valor arbitrariamente grande.
Vamos implementar um programa que, dada a matriz T, forneca o gr aco de
perl de desempenho.
Algoritmo 6.1 Perl de desempenho
Dados: T IR
304
,
repita para p = 1, . . . , 30
T
min
(p) = min T(p, s) [ s = 1, . . . , 4
repita para s = 1, . . . , 4
r(p, s) =
T(p, s)
T
min
(p)
repita para s = 1, . . . , 4
repita para 1
s
() =
1
30
card p T [ r
p,s

Plote o gr aco
s
()
Na Figura 6.2 mostramos os gr acos das funcoes de desempenho dos 4 algoritmos.

1
0.46
0.33
0.23
0.13
1.57
0.8
3.1 6.6 4.4
0.93
4.4
0.9
4.4
0.63
Algoritmo 1
Algoritmo 2
Algoritmo 3
Algoritmo 4
Figura 6.2: Perl de desempenho.
6.4 Outras discuss oes
Quando implementamos uma fun cao com base na Rotina 6.1 devemos calcular e
fornecer o gradiente e a Hessiana da func ao. Para func oes mais complexas, isto pode oca-
sionar erros de digitac ao e desta forma comprometer a resolucao do problema que envolve
tal func ao. Para tentar diminuir o risco deste tipo de erro, sugerimos a implementa cao de
um algoritmo que procura vericar se as expressoes fornecidas para o gradiente e Hessiana
da func ao foram digitadas corretamente.
De acordo com o que vimos na Sec ao 1.4, xando um ponto x IR
n
e denindo
r
1
(d) = f( x + d) f( x) f( x)
T
d
e
r
2
(d) = f( x + d) f( x) f( x)
T
d
1
2
d
T
2
f( x)d,
temos
lim
d0
r
1
(d)
|d|
= 0 e lim
d0
r
2
(d)
|d|
2
= 0. (6.3)
Isto signica que a diferen ca entre o valor da func ao e sua aproximac ao de Taylor deve
ser muito pequena. Alem disso, para qualquer outro vetor diferente do gradiente e outra
matriz que n ao seja a Hessiana, os limites em (6.3) nao sao validos. O algoritmo que
segue se baseia em um programa escrito pelo Professor Cl ovis Caesar Gonzaga, da UFSC,
e encontra possveis erros no gradiente ou na Hessiana da funcao. Consideramos uma
amostra aleatoria de vetores com norma tendendo para zero. Se os valores encontrados
para
r
1
(d)
|d|
ou
r
2
(d)
|d|
2
n ao forem pequenos, isto pode signicar alguma diferen ca no gradiente ou na Hessiana.
Sugerimos a sua implementa cao na linguagem que for conveniente.
Usaremos a notac ao feval(func,x,ordem) para indicar o valor da func ao func,
do seu gradiente ou da sua Hessiana, calculados em x pela Rotina 6.1, conforme o
par ametro ordem seja 0, 1 ou 2, respectivamente.
Algoritmo 6.2 Testa modelo
Dados de entrada: func, x IR
n
, ordem 1, 2
Par ametros: K IN, > 0
Dena n como a dimens ao de x
f = feval(func, x, 0)
g = feval(func, x, 1)
se ordem = 2
B = feval(func, x, 2)
k = 0
repita enquanto k < K
v = rand(n, 1)
d =
1
2
k
v
|v|
f
+
= feval(func, x + d, 0)
r
1
=
f
+
f g
T
d
|d|
se r
1

Mensagem: Modelo linear OK!
Pare
se ordem = 2
r
2
=
f
+
f g
T
d
1
2
d
T
Bd
|d|
2
se r
2

Mensagem: Modelo quadratico OK!
Pare
k = k + 1
se k K, Mensagem: Reveja a implementac ao da func ao testada
No algoritmo acima sugerimos os seguintes valores para os par ametros: K = 30
e = 10
5.
No Exerccio 6.6 pedimos a implementac ao do Algoritmo 6.2 para analisar o que
ocorre com algumas func oes denidas em IR
2
.
6.1. Implemente em alguma linguagem computacional a Rotina 6.1 e use o programa
implementado para avaliar a funcao, o gradiente e a Hessiana no ponto x =
_
3
5
_
, para
cada func ao f : IR
2
IR dada a seguir:
(a) f(x) = (x
1
x
2
2
)(x
1
1
2
x
2
2
);
(b) f(x) = 2x
3
1
3x
2
1
6x
1
x
2
(x
1
x
2
1);
(c) f(x) =
1
2
sin x
1
sin x
2
+
1
2
e
x
2
1
+x
2
2
;
(d) f(x) = 100(x
2
x
2
1
)
2
+ (1 x
1
)
2
.
6.2. Dados n IN,
1
IR e
2
IR, implemente uma rotina que forneca VETORb IR
n
cujas componentes estejam uniformemente distribudas entre os valores
1
IR e
2
IR.
6.3. Dados n IN, p 1, 2, 3, 4, 5, 6, = 0.1, implemente uma rotina que forneca:
(a) um vetor D cujas componentes estejam distribudas nos intervalos [10
j
, 10
j
+]
com j = 0, . . . , p.
(b) MATRIZA simetrica cujos autovalores sejam as componentes de D.
6.4. Para as seguintes funcoes descritas em [36], use a implementac ao proposta no
Exemplo 6.5 para avaliar a func ao e seu gradiente no ponto x
0
fornecido.
(a) Beale function (5).
(b) Brown and Dennis function (16), com m = 10.
(c) Watson function (20), com n = 8.
6.5. Faca o mesmo que foi pedido no Exerccio 6.4, mas agora para as fun coes do Exemplo
6.4. Compare com as respostas obtidas neste exemplo.
6.6. Implemente o Algoritmo 6.2 para cada fun cao do Exerccio 6.1.
Captulo 7
Otimizacao com Restricoes
Nosso objetivo neste captulo e discutir as condi coes de otimalidade para o pro-
blema geral de otimizac ao que consiste em
minimizar f(x)
sujeito a c
E
(x) = 0
c
I
(x) 0,
(7.1)
onde f : IR
n
IR, c
i
: IR
n
IR, i c 1, sao func oes de classe (
2
. O conjunto
= x IR
n
[ c
E
(x) = 0, c
I
(x) 0 (7.2)
e chamado conjunto vi avel.
A abordagem que apresentamos para a obtenc ao das condic oes de Karush-Kuhn-
Tucker e baseada na teoria de cones, cujo apelo geometrico e a principal caracterstica.
Algumas referencias para este assunto s ao [1, 2, 8, 19, 22].
Exemplo 7.1 Verique que o ponto x
=
_
1
1
_
e a solucao global do problema
minimizar f(x) = (x
1
2)
2
+ (x
2
1)
2
sujeito a c
1
(x) = x
1
+ x
2
2 0
c
2
(x) = x
2
1
x
2
0.
Dado x , temos x
2
1
x
2
2 x
1
, o que implica que x
2
1
+ x
1
2 0, ou seja,
2 x
1
1. Portanto,
f(x) = (x
1
2)
2
+ (x
2
1)
2
(x
1
2)
2
1 = f(x
),
Na Figura 7.1 ilustramos este problema. Note que f(x
) e uma combinac ao positiva de

c
1
(x
) e c
2
(x
). Isto informalmente signica que para diminuir o valor de f teramos

que sair do conjunto vi avel. O que faremos neste captulo e formalizar esta armac ao.
118
Otimizac ao com Restri coes 119
2 1 0 1 2 3 4
0
1
2
3
4
x
*
c
1
c
2
f
7.1 Cones
Vamos discutir nesta sec ao alguns aspectos gerais da teoria de cones que ser ao
fundamentais para estabelecer as condic oes de KKT. Dentre outras coisas destacamos o
cl assico Lema de Farkas, que ser a tratado tanto na sua forma cl assica, quanto em uma
vers ao geometrica.
Denicao 7.2 Um subconjunto nao vazio C IR
n
e um cone quando, para todo t 0 e
d C tem-se td C.
Informalmente, um cone e um conjunto de dire coes. Note que o vetor nulo pertence a
qualquer cone. Alem disso, um cone e um conjunto ilimitado. Na Figura 7.2 temos dois
exemplos de cones, um convexo e outro n ao.
0
d
td C
0
d
td C
Figura 7.2: Exemplos de cone.
Exemplo 7.3 Considere os vetores v
1
=
_
1
1
_
, v
2
=
_
2
1
_
e v
3
=
_
1
1
_
. Mostre que o
conjunto
C =
_
y
1
v
1
+ y
2
v
2
+ y
3
v
3
[ y
j
0, j = 1, 2, 3
_
e um cone convexo. Generalizando, dada B IR
nm
, mostre que
C = By [ y IR
m
, y 0
e um cone convexo.
Dados t 0 e d = By C temos td = tBy = B(ty) C. Alem disso, dados d
1
= By
1
e
d
2
= By
2
em C e t [0, 1], temos (1 t)d
1
+ td
2
= B
_
(1 t)y
1
+ ty
2
_
C.
Um exemplo de cone que ser a util mais adiante e o de cone polar, que em IR
2
ou
IR
3
pode ser caracterizado pelos vetores que formam um angulo maior ou igual a 90
o
com
os elementos de um conjunto dado.
Denicao 7.4 Dado um conjunto S IR
n
, denimos o polar de S por
P(S) =
_
p IR
n
[ p
T
x 0, x S
_
.
A Figura 7.3 ilustra o polar de alguns conjuntos.
0
S
P(S)
0
S
P(S)
Figura 7.3: Exemplos de cone polar.
Lema 7.5 Dado S IR
n
, P(S) e cone, convexo e fechado.
Demonstracao. Dados t 0 e d P(S) temos (td)
T
x = t(d
T
x) 0, para todo x S.
Assim, td P(S), o que signica que P(S) e um cone. Para vericar a convexidade,
considere u, v P(S) e t [0, 1]. Para qualquer x S, temos que
_
(1 t)u + tv
_
T
x = (1 t)u
T
x + tv
T
x 0.
Assim (1 t)u + tv P(S), provando que P(S) e convexo. Para mostrar que P(S)
e fechado, considere uma sequencia (d
k
) P(S) com d
k
d. Dado x S, temos
(d
k
)
T
x 0, logo d
T
x 0. Portanto, d P(S), completando a demonstra cao.
Exemplo 7.6 Dados A, B IR
n
, tais que A B, temos P(B) P(A).
De fato, se p P(B), entao p
T
x 0, para todo x B. Logo, p
T
x 0, para todo x A,
donde segue que p P(A).
Exemplo 7.7 Considere A =
_
1 3
2 1
_
, B =
_
2 0
_
, S
1
=
_
d IR
2
[ Ad 0
_
e
S
2
=
_
d IR
2
[ Ad 0
_
_
d IR
2
[ Bd 0
_
. Mostre que S
1
e S
2
sao cones e represente-
os geometricamente. Diga se podem ser obtidos como o polar de algum conjunto.
Dados t 0 e d S
1
temos A(td) = tAd 0. Portanto, td S
1
, o que signica que
S
1
e cone. Analogamente, vemos que S
2
tambem e cone. Alem disso, podemos escrever
S
1
=
_
d IR
2
[ u
T
d 0 e v
T
d 0
_
, onde u =
_
1
3
_
e v =
_
2
1
_
. Desta forma,
S
1
= P(u, v). Por outro lado, como S
2
n ao e convexo, n ao pode ser o polar de nenhum
conjunto, em virtude do Lema 7.5. A Figura 7.4 ilustra este exemplo.
u
v
S
1
u
v
w
S
2
Como a pr opria Figura 7.3 sugere, aplicar o polar duas vezes nem sempre fornece
o conjunto original. No entanto, temos o seguinte resultado.
Lema 7.8 Dado S IR
n
, temos S P
_
P(S)
_
.
Demonstracao. Considere x S e C = P(S). Dado d C, temos x
T
d 0. Logo
x P(C) = P
_
P(S)
_
, completando a demonstra cao (veja ilustrac ao na Figura 7.5).
0
S
P(S)
P(P(S))
Figura 7.5: Ilustracao do Lema 7.8.
Basicamente, temos tres motivos que impedem a igualdade entre o duplo polar e
o conjunto: o fato de n ao ser cone, n ao ser convexo ou n ao ser fechado. Estas situa coes
aparecem na Figura 7.6. O cl assico Lema de Farkas, apresentado em seguida, garante a
igualdade.
0
S
P(S)
0
S
P(S)
0
S
P(S)
Figura 7.6: Situac oes onde n ao vale S = P
_
P(S)
_
.
Lema 7.9 (Farkas geometrico) Considere C IR
n
um cone convexo fechado nao va-
zio. Entao P
_
P(C)
_
= C.
Demonstracao. Em virtude do Lema 7.8 basta mostrar que P
_
P(C)
_
C. Considere
ent ao z P
_
P(C)
_
. Seja z = proj
C
(z) C. Vamos provar que z = z. Pelo Teorema 3.7,
(z z)
T
(x z) 0, (7.3)
para todo x C. Como C e um cone, x = 0 e x = 2 z s ao elementos de C. Assim,
z
T
(z z) 0 e z
T
(z z) 0,
donde segue que
z
T
(z z) = 0. (7.4)
Substituindo isto em (7.3), podemos concluir que (z z)
T
x 0, para todo x C.
Portanto, (z z) P(C). Como z P
_
P(C)
_
, temos que (z z)
T
z 0. Usando (7.4),
obtemos
|z z|
2
= (z z)
T
z (z z)
T
z = (z z)
T
z 0,
o que implica que z = z C, completando a demonstrac ao.
Outra propriedade muito importante se refere ao cone gerado por um conjunto
nito de vetores, dada no lema abaixo. A demonstrac ao apresentada aqui e direta, mas
existem outras formas de provar este resultado. Uma delas segue dos Exerccios 7.7 e 7.8,
no nal do captulo.
Lema 7.10 Dados os vetores v
1
, v
2
, . . . , v
m
IR
n
0, o conjunto
C =
_
m
i=1
y
i
v
i
[ y
i
0, i = 1, ..., m
_
e um cone convexo e fechado (veja ilustracao na Figura 7.7).
0
v
1
v
2
v
m
C
Demonstracao. Considerando a matriz B = (v
1
v
2
v
m
) IR
nm
, temos
C = By [ y IR
m
, y 0 .
Para mostrar que C e cone, tome d = By C e t 0. Assim, td = B(ty) C, pois
ty 0. A convexidade segue da relac ao (1 t)By + tBw = B
_
(1 t)y + tw
_
. Agora a
parte difcil: provar que C e fechado. Faremos por induc ao em m.
(i) m = 1. Seja (d
k
) C, tal que d
k
d. Temos d
k
= y
k
v
1
, com y
k
0. Assim,
|v
1
|
2
y
k
= (v
1
)
T
d
k
(v
1
)
T
d,
implicando em y
k
y, onde y =
(v
1
)
T
d
|v
1
|
2
0, pois y
k
0. Portanto, d
k
= y
k
v
1
yv
1
e
assim, d = yv
1
C.
(ii) Suponha que o lema seja v alido para m1. Vamos provar que vale para m.
Considere primeiro o caso em que posto(B) = m. Seja (d
k
) C, tal que d
k
d. Entao,
d
k
= By
k
, com y
k
0. Deste modo,
B
T
By
k
= B
T
d
k
B
T
d,
donde segue que y
k
y, com y = (B
T
B)
1
B
T
d. Como y
k
0, temos y 0. Portanto,
d
k
= By
k
By e assim, d = By C.
Suponha agora que posto(B) < m. Assim, as colunas de B s ao linearmente dependentes.
Isto implica que existe IR
m
tal que
B = 0 (7.5)
e
i
> 0 para algum i = 1, ..., m. Considere, para cada j = 1, ..., m, a matriz
B
j
= (v
1
v
j1
v
j+1
v
m
) IR
n(m1)
,
obtida suprimindo a j-esima coluna de B. Usando a hip otese de induc ao, temos que o
conjunto
C
j
=
_
B
j
z [ z IR
m1
, z 0
_
e fechado para todo j = 1, ..., m. Portanto, a uniao
m
_
j
C
j
e um conjunto fechado. Para
concluir a demonstra cao, vamos mostrar que C =
m
_
j
C
j
. Para isso, tome inicialmente
d C. Ent ao d = By, para algum y 0. Considere
t = max
_
y
i
i
[
i
> 0
_
,
onde e dado por (7.5). Assim, para todo i tal que
i
> 0, temos y
i
+
t
i
0. Alem disso,
como

t 0, tambem vale y
i
+

t
i
0 para cada i tal que
i
0. Seja j tal que

t =
y
j
j
.
Denindo y = y +

t, temos que y 0 e y
j
= 0. Portanto, usando (7.5), obtemos
d = By = B(y +

t) = B y C
j
.
Como a inclus ao
m
_
j
C
j
C e imediata, completamos a prova.
O Lema 7.10 pode ser usado para estabelecer uma relacao entre a versao geome-
trica do Lema de Farkas (Lema 7.9) e sua forma algebrica, muito encontrada na literatura.
Lema 7.11 (Farkas algebrico) Considere A IR
mn
e c IR
n
. Entao exatamente um
dos dois sistemas abaixo tem solucao.
Ax 0 e c
T
x > 0 (7.6)
A
T
y = c e y 0. (7.7)
Demonstracao. Se o sistema (7.7) tem soluc ao, ent ao c = A
T
y com y 0. Assim, dado
x IR
n
tal que Ax 0, temos c
T
x = y
T
Ax 0, o que implica que (7.6) n ao tem soluc ao.
Suponha agora que o sistema (7.7) nao tem soluc ao. Portanto,
c , C =
_
A
T
y [ y 0
_
.
Pelos Lemas 7.9 e 7.10 temos C = P
_
P(C)
_
. Logo, c , P
_
P(C)
_
, o que signica que
existe x P(C) tal que c
T
x > 0. Alem disso,
(Ax)
T
y = x
T
A
T
y 0,
para todo y 0. Em particular, tomando y = e
j
, j = 1, . . . , m, obtemos Ax 0. Assim,
o sistema (7.6) tem solu cao.
Mesmo sendo uma vers ao algebrica, o Lema 7.11 pode ser interpretado geometri-
camente, conforme vemos na Figura 7.8. Os vetores v
1
, v
2
, . . . , v
m
IR
n
s ao as linhas de
A. Na ilustra cao do lado esquerdo temos o caso em que o sistema (7.6) tem solu cao. No
lado direito, (7.7) tem solu cao.
v
1
v
2
v
m
C
P(C)
c
x
v
1
v
2
v
m
C
P(C)
c
Note que provamos a versao algebrica do Lema de Farkas utilizando a vers ao
geometrica. No entanto, tambem e possvel mostrar que a versao algebrica implica na
vers ao geometrica para um certo conjunto C. Veja o Exerccio 7.6 no nal do captulo.
Temos agora as ferramentas necess arias para provar as condi coes necessarias de
otimalidade para problemas com restric oes de igualdade e desigualdade.
7.2 Condicoes de Karush-Kuhn-Tucker
Para estabelecer o Teorema de KKT, vamos estudar os cones relacionados com o
problema geral de otimizac ao denido em (7.1). Alguns desses cones podem ser interpre-
tados como aproximac oes lineares do conjunto viavel (7.2).
Denicao 7.12 Seja x . Uma restricao de desigualdade c
i
, i 1, e dita ativa em x,
se c
i
( x) = 0. Caso c
i
( x) < 0, dizemos que c
i
e inativa em x.
Vamos denotar por I( x) o conjunto de ndices das restric oes de desigualdade ativas em
um ponto vi avel x, isto e,
I( x) = i 1 [ c
i
( x) = 0 .
7.2.1 O cone viavel linearizado
A primeira forma de aproximar o conjunto viavel e dada na seguinte denic ao.
Denicao 7.13 Dado x , denimos o cone viavel linearizado de em torno de x por
D( x) =
_
d IR
n
[ c
i
( x)
T
d = 0, se i c e c
i
( x)
T
d 0, se i I( x)
_
.
Note que o conjunto D( x) pode ser visto como um conjunto viavel, onde linea-
rizamos as restric oes de igualdade e as de desigualdade ativas. Isto se deve ao fato de
que
c
i
( x)
T
d = c
i
( x) +c
i
( x)
T
d c
i
( x + d)
para i c I( x).
Na Figura 7.9 temos algumas das situa coes que surgem quando consideramos o
cone D( x). Na primeira, temos desigualdades e os gradientes ativos s ao linearmente inde-
pendentes. Isto confere uma certa regularidade ao conjunto , que e bem aproximado
por D( x) em uma vizinhanca de x. Na segunda, temos uma igualdade e tambem podemos
dizer que D( x) e uma boa aproximacao para . No entanto, a ultima situac ao mostra
um caso onde o cone e uma reta, mas o conjunto vi avel e uma regi ao do plano. Note que,
neste caso, os gradientes ativos sao linearmente dependentes.
c
1
c
2
D(x)
x
c
D(x)
x
c
1
c
2
D(x) x
Figura 7.9: Exemplos ilustrando o cone viavel linearizado.
Lema 7.14 O conjunto D( x) e um cone convexo fechado nao vazio.
Demonstracao. De fato, basta notar que D( x) = P(S), onde
S = c
i
( x), c
i
( x), i c c
i
( x) [ i I( x)
e aplicar o Lema 7.5.
Exemplo 7.15 Considere c
1
, c
2
: IR
2
IR denidas por c
1
(x) = x
2
1
2x
1
x
2
e
c
2
(x) = x
2
1
2x
1
+ x
2
. Representamos na Figura 7.10 o conjunto viavel
=
_
x IR
2
[ c(x) 0
_
e o cone D( x), em x = 0.
c
1
c
2
D(x)
x
Figura 7.10: O cone D( x) do Exemplo 7.15.
7.2.2 O cone gerado pelos gradientes das restric oes
Outro cone relacionado com o problema de otimizac ao e cone gerado pelos gra-
dientes das restricoes. Mais precisamente, dado x , considere o conjunto
G( x) =
_
_
_
iE
i
c
i
( x) +
iI( x)
i
c
i
( x) [
i
0, i I( x)
_
_
_
. (7.8)
Este conjunto tem duas propriedades muito importantes, que provaremos a seguir.
Uma delas e que seu polar e justamente o cone D( x). A outra propriedade diz que G( x)
e um cone convexo fechado. Veja a Figura 7.11.
c
1
c
2
D(x)
x
G(x)
Figura 7.11: O cone G( x).
Lema 7.16 Dado x , temos que D( x) = P
_
G( x)
_
.
Demonstracao. Dados d D( x) e s G( x), temos
d
T
s =
iE
i
d
T
c
i
( x) +
iI( x)
i
d
T
c
i
( x).
Como d D( x), temos d
T
c
i
( x) = 0 para todo i c e d
T
c
i
( x) 0 para todo i I( x).
Assim, d
T
s 0, pois
i
0. Portanto, d P
_
G( x)
_
. Para provar a inclus ao contraria,
tome d P
_
G( x)
_
. Entao, d
T
s 0, para todo s G( x). Em particular, para i c,
temos que c
i
( x) e c
i
( x) sao elementos de G( x). Portanto,
d
T
c
i
( x) 0 e d
T
_
c
i
( x)
_
0,
donde segue que d
T
c
i
( x) = 0. Alem disso, para i I( x), temos c
i
( x) G( x) e assim,
d
T
c
i
( x) 0. Desta forma, d D( x), o que completa a demonstracao.
Lema 7.17 O conjunto G( x) denido em (7.8) e um cone convexo fechado.
Demonstracao. Note que um elemento qualquer de G( x) pode ser escrito como
i
0
i
c
i
( x) +
i
<0
(
i
)
_
c
i
( x)
_
+
iI( x)
i
c
i
( x)
com
i
0 para todo i I( x). Desta forma, temos
G( x) = By [ y 0 ,
onde B e a matriz cujas colunas s ao c
i
( x), c
i
( x) e c
j
( x), com i c e j I( x).
Pelo Lema 7.10, temos o resultado desejado.
Tendo em vista os Lemas 7.9 e 7.17, podemos reescrever o Lema 7.16 como
P
_
D( x)
_
= G( x). (7.9)
Esta relac ao e a chave da demonstrac ao das condi coes de KKT.
7.2.3 O cone tangente
Veremos nesta secao um outro cone que tambem aproxima o conjunto viavel ,
mas diferentemente do cone D( x), que se baseia nas derivadas das restri coes, este novo
cone considera os vetores que tangenciam ou penetram em .
Denicao 7.18 Uma direcao d IR
n
e dita tangente a IR
n
a partir de x quando
e nula ou existe uma sequencia de pontos viaveis (x
k
) tal que x
k
x e
x
k
x
|x
k
x|

d
|d|
.
Na Figura 7.12 ilustramos este conceito. Na esquerda o conjunto vi avel e uma curva
denida por uma restri cao de igualdade, na qual representamos uma direcao tangente
d e a convergencia indicada na denic ao. Na outra ilustra cao o conjunto viavel e uma
regi ao determinada por duas restri coes de desigualdade. Nesta gura aparecem algumas
direc oes tangentes. Note que uma direc ao que penetra no conjunto vi avel tambem
satisfaz a Deni cao 7.18.
x
x
1
x
2
x
3
x
4
x
5
d
x
Figura 7.12: Direc oes tangentes.
Segue diretamente da denic ao que se d e tangente, o mesmo vale para td, qual-
quer que seja t 0. Assim, o conjunto formado pelos vetores tangentes a em x e um
cone, chamado de cone tangente a no ponto x e denotado por T( x).
Exemplo 7.19 Considere as funcoes c
1
, c
2
: IR
2
IR dadas por c
1
(x) = x
2
1
2x
1
x
2
e c
2
(x) = x
2
1
2x
1
+ x
2
. Determine o cone tangente T( x), associado ao conjunto viavel
=
_
x IR
2
[ c(x) 0
_
em torno do ponto x = 0.
Sejam x
k
=
_
s
k
t
k
_
uma sequencia de pontos de e d =
_
d
1
d
2
_
IR
2
tais que
x
k
x e
x
k
x
|x
k
x|

d
|d|
. (7.10)
Vamos provar que 2d
1
d
2
2d
1
. Como x
k
, temos s
2
k
2s
k
t
k
2s
k
s
2
k
.
Portanto,
s
2
k
2s
k
_
s
2
k
+ t
2
k
t
k
_
s
2
k
+ t
2
k
2s
k
s
2
k
_
s
2
k
+ t
2
k
. (7.11)
De (7.10), podemos concluir que
s
k
0 ,
s
k
_
s
2
k
+ t
2
k
d
1
|d|
e
t
k
_
s
2
k
+ t
2
k
d
2
|d|
.
Assim, passando o limite na relac ao (7.11), obtemos
2d
1
|d|

d
2
|d|

2d
1
|d|
, donde segue
que
T( x)
_
d IR
2
[ 2d
1
d
2
2d
1
_
.
Para provar a inclus ao contr aria, tome primeiro d =
_
1
2
_
. Considere
s
k
=
1
k
, t
k
= 2s
k
s
2
k
e x
k
=
_
s
k
t
k
_
.
Assim, x
k
x ,
s
k
_
s
2
k
+ t
2
k
=
1
_
1 + (2 s
k
)
2
5
e
t
k
_
s
2
k
+ t
2
k
5
. Portanto,
x
k
x
|x
k
x|

d
|d|
. Considere agora d =
_
1
_
, com [0, 2). Para todo k IN,
sucientemente grande, temos < 2
1
k
, implicando em y
k
=
1
k
_
1
_
. Alem disso,
y
k
x e
y
k
x
|y
k
x|

d
|d|
.
Como T( x) e um cone, podemos concluir que todo vetor d IR
2
tal que 0 d
2
2d
1
e
tangente. O caso 2d
1
d
2
0 e analogo. Com isto, obtemos
T( x) =
_
d IR
2
[ 2d
1
d
2
2d
1
_
.
Na Figura 7.13 representamos o cone T( x).
0.5 0 0.5 1 1.5 2 2.5
1.5
1
0.5
0
0.5
1
1.5
T(x)
x
Figura 7.13: O cone tangente do Exemplo 7.19.
No Exemplo 7.19 temos a igualdade entre os cones T( x) e D( x), mas isto n ao e
regra geral. Ali as, o cone tangente pode n ao ser convexo. No entanto, pode-se mostrar
que e fechado (veja o Exerccio 7.9).
Exemplo 7.20 Considere c : IR
2
IR
3
denida por c
1
(x) = x
1
x
2
, c
2
(x) = x
1
e
c
3
(x) = x
2
. Determine os cones D( x), G( x) e T( x), associados ao conjunto viavel
=
_
x IR
2
[ c
1
(x) = 0, c
2
, c
3
(x) 0
_
em torno do ponto x = 0.
Temos c
1
( x) =
_
0
0
_
, c
2
( x) =
_
1
0
_
e c
3
( x) =
_
0
1
_
. Assim,
D( x) = (d
1
, d
2
) [ d
1
0, d
2
0 , G( x) = (d
1
, d
2
) [ d
1
0, d
2
0
e
T( x) = (d
1
, d
2
) [ d
1
0, d
2
0, d
1
d
2
= 0.
Na Figura 7.14 estao representados estes cones. Note que T( x) ,= D( x) e T( x) n ao e
convexo.
c
2
c
3
D(x)
=T(x)
x
G(x)
Figura 7.14: Exemplo onde T( x) ,= D( x).
O proximo resultado estabelece uma relac ao entre os cones T( x) e D( x).
Lema 7.21 Dado x , temos T( x) D( x).
Demonstracao. Considere d T( x), d ,= 0. Entao existe uma sequencia (x
k
) tal que
x
k
x e
x
k
x
|x
k
x|

d
|d|
. Pela diferenciabilidade de c segue que
c(x
k
) = c( x) +c( x)
T
(x
k
x) + o(|x
k
x|).
Considere i c e j I( x). Como x
k
, x , temos
c
i
( x)
T
(x
k
x)
|x
k
x|
+
o(|x
k
x|)
|x
k
x|
= 0 e c
j
( x)
T
(x
k
x)
|x
k
x|
+
o(|x
k
x|)
|x
k
x|
0.
Passando o limite, obtemos c
i
( x)
T
d
|d|
= 0 e c
j
( x)
T
d
|d|
0. Assim, d D( x),
7.2.4 O teorema de Karush-Kuhn-Tucker
Temos agora todas as ferramentas para provar as condicoes de KKT. Vamos
comecar com um resultado que tambem pode ser visto como uma condic ao necess aria de
otimalidade.
Lema 7.22 Se x
e um minimizador local do problema (7.1), entao f(x
)
T
d 0,
para todo d T(x
).
Demonstracao. Seja d T(x
), d ,= 0. Ent ao existe uma sequencia (x

k
) tal que
x
k
x
e
x
k
x
|x
k
x
|

d
|d|
. Por outro lado, temos
0 f(x
k
) f(x
) = f(x
)
T
(x
k
x
) + o(|x
k
x
|),
para todo k sucientemente grande. Dividindo por |x
k
x
| e passando o limite obtemos

f(x
)
T
d 0, completando a prova.
Na Figura 7.15 ilustramos uma situac ao que satisfaz as condic oes do Lema 7.22
e outra onde isto nao se verica.
x
*
f
x
f
Figura 7.15: Relac oes entre direc oes tangentes e o gradiente da funcao objetivo.
O Lema 7.22 tem um interesse te orico, pois ser a usado para provar o Teorema de
KKT. No entanto, este lema e pouco pratico, no sentido de que n ao podemos usa-lo para
calcular os possveis minimizadores. O teorema seguinte nos da esta possibilidade.
Teorema 7.23 (KKT) Seja x
um minimizador local do problema (7.1) e suponha

que P
_
T(x
)
_
= P
_
D(x
)
_
. Entao existem vetores
tais que
f(x
) =
iE
i
c
i
(x
) +
iI
i
c
i
(x
),
i
0, i 1,
i
c
i
(x
) = 0, i 1.
Demonstracao. Pelo Lema 7.22, temos f(x
)
T
d 0, para todo d T(x
). Assim,
usando a hip otese e a relac ao (7.9), obtemos
f(x
) P
_
T(x
)
_
= P
_
D(x
)
_
= G(x
).
Isto signica que existem vetores e , tais que 0 e
f(x
) =
iE
i
c
i
(x
) +
iI(x
i
c
i
(x
).
Denindo
i
=
_

i
, para i I(x
)
0, para i 1 I(x
)
e
= , completamos a prova.
Denicao 7.24 Um ponto viavel x e dito estacionario quando cumpre as condicoes
necessarias do Teorema 7.23.
A hip otese sobre os cones T(x
) e D(x
) feita no Teorema 7.23 e chamada de

condic ao de qualicacao. Ela foi introduzida por Monique Guignard [18] para dimensao
innita e reformulada para o caso nito por Gould and Tolle [16]. Esta condic ao e a
mais fraca possvel para se provar as condic oes de KKT. Entretanto, como j a vimos em
exemplos anteriores, pode ser muito difcil obter os cones T(x
) e D(x
) e vericar se a
condic ao P
_
T(x
)
_
= P
_
D(x
)
_
e satisfeita. Veremos na Sec ao 7.3 outras condic oes de
qualicac ao, tais como Slater, Mangasarian-Fromovitz, independencia linear dos gradien-
tes, que implicam na que usamos acima e s ao mais facilmente vericadas.
Exemplo 7.25 Vamos refazer o Exemplo 7.1 usando KKT. O problema e dado por
minimizar f(x) = (x
1
2)
2
+ (x
2
1)
2
sujeito a c
1
(x) = x
1
+ x
2
2 0
c
2
(x) = x
2
1
x
2
0.
Note primeiro que o conjunto viavel e compacto. De fato, como
x
2
1
x
2
2 x
1
,
temos x
2
1
+ x
1
2 0. Portanto, 2 x
1
1 e 0 x
2
4. Alem disso, temos
T(x) = D(x), para todo ponto viavel x. Portanto, o minimizador deve satisfazer
2
_
x
1
2
x
2
1
_
=
1
_
1
1
_
+
2
_
2x
1
1
_
(7.12)
alem de
i
0 e
i
c
i
(x) = 0, i = 1, 2. Como nenhum ponto de cumpre x
1
= 2, pelo
menos um dos multiplicadores deve ser n ao nulo. Veremos agora que os dois sao n ao
nulos. De fato, se fosse
1
= 0 e
2
> 0, teramos x
2
1
x
2
= 0 (restric ao ativa) e x
2
> 1
(relac ao (7.12)). Assim, x
1
1, o que contradiz (7.12). Por outro lado, se
1
> 0 e
2
= 0, ent ao x
1
+ x
2
= 2 (restric ao ativa) e x
1
2 = x
2
1 (rela cao (7.12)). Assim,
x
1
=
3
2
, o que tambem e uma contradi cao. Agora ca facil resolver o sistema KKT, pois
x
1
+ x
2
= 2 e x
2
1
= x
2
, fornecem x
=
_
1
1
_
e x =
_
2
4
_
. Como x n ao satisfaz (7.12)
para
i
0, a soluc ao e x
com multiplicador
=
_
2/3
2/3
_
. Reveja a Figura 7.1, que
ilustra este problema.
7.2.5 A direcao do gradiente projetado
Vamos apresentar nesta secao uma caracteriza cao alternativa de estacionaridade
para o problema (7.1), que n ao depende de nenhuma condic ao de qualicac ao. Para isso,
considere um ponto x IR
n
e a aproximacao linear do conjunto viavel dada por
L( x) = x + d IR
n
[ c
E
( x) + A
E
( x)d = 0 , c
I
( x) + A
I
( x)d 0 , (7.13)
onde A
E
e A
I
denotam as jacobianas de c
E
e c
I
, respectivamente. Denimos a direc ao do
gradiente projetado por
d
c
( x) = proj
L( x)
_
x f( x)
_
x. (7.14)
A relac ao desta direc ao com a estacionaridade de x e dada no seguinte teorema.
Teorema 7.26 Um ponto viavel x cumpre as condicoes de KKT se, e somente se,
d
c
( x) = 0. Alem disso, se x nao e estacionario, entao f( x)
T
d
c
( x) < 0.
Demonstracao. Considere o cone G( x), denido em (7.8). Se x satisfaz KKT, ent ao
f( x) G( x). Assim, pela rela cao (7.9), temos que f( x) P
_
D( x)
_
, o que signica
que
f( x)
T
d 0, (7.15)
para todo d D( x). Dado x = x +

d L( x), como x e vi avel, temos
A
E
( x)
d = 0 e c
I
( x) + A
I
( x)
d 0,
donde segue que

d D( x). Portanto, por (7.15), obtemos
_
x f( x) x
_
T
(x x) = f( x)
T

d 0.
Pelo Lema 3.8, segue que proj
L( x)
_
x f( x)
_
= x, ou seja, d
c
( x) = 0. Para provar a
recproca, note que dado d P
_
G( x)
_
= D( x), temos
A
E
( x)(td) = 0 e A
I( x)
( x)(td) 0,
para todo t > 0. Alem disso, para i 1 I( x), podemos tomar t > 0 sucientemente
pequeno, tal que
c
i
( x) +c
i
( x)
T
(td) 0.
Assim, considerando

d = td, temos x +

d L( x) e, como proj
L( x)
_
x f( x)
_
= x, o
Teorema 3.7 nos fornece
f( x)
T

d =
_
x f( x) x
_
T
( x +

d x) 0.
Portanto, f( x)
T
d 0, o que implica que f( x) P
_
D( x)
_
= G( x) e assim podemos
concluir que x cumpre as condi coes de KKT. Finalmente, vamos provar que d
c
( x) e uma
direc ao de descida quando x n ao for KKT. Denindo
z = proj
L( x)
_
x f( x)
_
,
temos d
c
( x) = z x e, novamente pelo Teorema 3.7,
_
d
c
( x) +f( x)
_
T
d
c
( x) =
_
x f( x) z
_
T
( x z) 0.
Portanto, como x n ao e KKT, podemos usar o que foi provado anteriormente para concluir
que
f( x)
T
d
c
( x) |d
c
( x)|
2
< 0,
Salientamos que a igualdade d
c
( x) = 0 nao pode ser vista como uma condic ao
necess aria de otimalidade, como ocorre no Teorema 3.9. De fato, aqui podemos ter um
minimizador no qual d
c
n ao se anula, conforme vemos no seguinte exemplo.
Exemplo 7.27 Considere c : IR
2
IR
2
denida por c
1
(x) = x
1
x
2
, c
2
(x) = x
1
x
2
e o
problema de minimizar f(x) = x
1
+ 2x
2
no conjunto
=
_
x IR
2
[ c
1
(x) = 0 , c
2
(x) 0
_
.
Verique que o ponto x = 0 e uma solucao global, mas d
c
( x) ,= 0.
Note que qualquer ponto viavel, que n ao seja x, tem uma componente nula e a outra
positiva. Portanto, x = 0 e o minimizador global de f em . Alem disso, temos
c
1
( x) =
_
0
0
_
, c
2
( x) =
_
1
1
_
e f( x) =
_
1
2
_
.
Assim, L( x) =
_
d IR
2
[ d
1
+ d
2
0
_
e
z = proj
L( x)
_
x f( x)
_
=
1
2
_
1
1
_
,= x.
A Figura 7.16 ilustra este exemplo.
c
2
f
L(x)
z
x
Figura 7.16: Um minimizador no qual d
c
,= 0.
7.3 Condicoes de qualicacao
Vimos neste captulo que pode ser muito difcil vericar se a hip otese sobre os
cones T( x) e D( x) feita no Teorema 7.23 e satisfeita. Veremos agora outras condicoes de
qualicac ao, mais simples de serem vericadas, que tambem garantem que um minimiza-
dor satisfaz as rela coes de KKT. Salientamos que se n ao for vericada nenhuma hip otese
sobre as restricoes, podemos ter minimizadores que n ao cumprem KKT, dicultando assim
a caracterizac ao de tais pontos. Tal fato pode ser visto no seguinte exemplo.
Exemplo 7.28 Considere o problema
minimizar f(x) = x
1
sujeito a c
1
(x) = x
3
1
+ x
2
0
c
2
(x) = x
2
0.
O ponto x
= 0 e o minimizador deste problema, mas nao cumpre as condicoes de KKT.

De fato, de 0 x
2
x
3
1
, segue que f(x) = x
1
0 = f(x
), para todo ponto vi avel x.

Alem disso,
f(x
) =
_
1
0
_
, c
1
(x
) =
_
0
1
_
e c
2
(x
) =
_
0
1
_
,
o que signica que nao vale KKT. Veja uma ilustrac ao deste exemplo na Figura 7.17.
Para continuar nossa discuss ao, vamos apresentar uma denic ao precisa de con-
dic ao de qualicac ao. Considere c
i
: IR
n
IR, i c 1, fun coes continuamente dife-
renci aveis em IR
n
e o conjunto vi avel
= x IR
n
[ c
E
(x) = 0, c
I
(x) 0 . (7.16)
Denicao 7.29 Dizemos que as restricoes c
E
(x) = 0 e c
I
(x) 0 cumprem uma condicao
de qualicacao em x
quando, dada qualquer funcao diferenciavel f, que tenha

c
1
c
2
f x
*
mnimo em x
, relativamente a , sejam satisfeitas as condicoes de otimalidade de KKT.

Trataremos primeiramente de uma situac ao particular, mas de muita import ancia,
em que as restric oes s ao lineares.
7.3.1 Problemas com restric oes lineares
Considere o problema
minimizar f(x)
sujeito a Ax = b
Mx r,
(7.17)
onde A IR
mn
, M IR
pn
, b IR
m
e r IR
p
. Como veremos no proximo teorema, as
condic oes de otimalidade de KKT se vericam em um minimizador.
Teorema 7.30 Se x
e um minimizador local do problema (7.17), entao x
satisfaz as
condicoes de KKT.
Demonstracao. Usando o Lema 7.21 e o Teorema 7.23, basta provar que D(x
) T(x
).
Dado d D(x
), temos Ad = 0 e Md 0. Se d = 0, temos trivialmente d T(x
). Caso
d ,= 0, dena x
k
= x
+
1
k
d. Assim,
Ax
k
= b , Mx
k
r , x
k
x
e
x
k
x
|x
k
x
|
=
d
|d|
.
Portanto, d T(x
), completando a prova.
A pr oxima condic ao de qualicac ao exige a existencia de um ponto no interior
relativo do conjunto viavel.
7.3.2 Condicao de qualicacao de Slater
Considere o conjunto , denido em 7.16. Dizemos que a condic ao de qualicac ao
de Slater e satisfeita quando c
E
e linear, cada componente c
i
, i 1, e convexa e existe
x tal que
c
E
( x) = 0 e c
I
( x) < 0. (7.18)
Vejamos que Slater e, de fato, uma condic ao de qualica cao.
Teorema 7.31 Se vale a condicao de Slater, entao T( x) = D( x), para todo x .
Demonstracao. Em virtude do Lema 7.21, basta provar que D( x) T( x). Considere uma
direc ao arbitr aria d D( x) e dena

d = x x, onde x e o ponto que satisfaz (7.18).
Pela convexidade de c
i
, temos
0 > c
i
( x) c
i
( x) +c
i
( x)
T

d.
Assim, para i I( x), temos c
i
( x)
T

d < 0. Dado t (0, 1), dena
d = (1 t)d + t
d.
Vamos provar que

d T( x), para todo t (0, 1) (veja a Figura 7.18). Dado i I( x),
temos c
i
( x)
T
d 0 e c
i
( x)
T

d < 0. Consequentemente, c
i
( x)
T

d < 0. Denindo
x
k
= x +
1
k
d e aplicando o Teorema 4.2, podemos concluir que

c
i
(x
k
) < c
i
( x) = 0,
para todo k sucientemente grande. Por outro lado, se i / I( x), vale c
i
( x) < 0. Assim,
pela continuidade de c
i
, tambem temos c
i
(x
k
) < 0, para todo k sucientemente grande.
Alem disso, como c
E
e linear, digamos, c
E
(x) = Ax b, temos Ad = c
E
( x)
T
d = 0, pois
d D( x). Tambem temos que A
d = A( x x) = c
E
( x) c
E
( x) = 0. Consequentemente,
A
d = 0. Portanto,
c
E
(x
k
) = Ax
k
b = A x b +
1
k
A
d = 0.
Conclumos entao que a sequencia (x
k
) e vi avel. Alem disso, como
x
k
x
|x
k
x|
=
d
|
d|
,
temos que

d T( x). Mas T( x) e fechado (veja o Exerccio 7.9). Logo d T( x), comple-
tando a prova.
x
d
x
~
d
d
^
Figura 7.18: Ilustrac ao auxiliar para o Teorema 7.31.
7.3.3 Condicao de qualicacao de independencia linear
Apresentamos agora uma das condic oes de qualica cao mais conhecidas e comuns
na literatura.
Denicao 7.32 Dizemos que a condicao de qualicacao de independencia linear (LICQ)
e satisfeita em x quando o conjunto formado pelos gradientes das restricoes de igualdade
e das restricoes de desigualdade ativas e linearmente independente, isto e,
c
i
( x) [ i c I( x) e LI.
Esta condic ao e bem mais facil de vericar do que aquela que colocamos na
hip otese do Teorema 7.23, envolvendo cones. Para exemplicar, vamos retomar as res-
tric oes do Exemplo 7.19, onde apenas a determinac ao do cone tangente T( x) j a foi con-
sideravelmente trabalhosa.
Exemplo 7.33 Considere duas restricoes de desigualdades denidas por c
1
, c
2
: IR
2
IR,
onde c
1
(x) = x
2
1
2x
1
x
2
e c
2
(x) = x
2
1
2x
1
+ x
2
. Verique que o ponto x = 0 cumpre
LICQ.
As duas restric oes s ao ativas em x e os vetores c
1
( x) =
_
2
1
_
e c
2
( x) =
_
2
1
_
s ao
linearmente independentes.
Apesar desta simplicidade, LICQ tem a desvantagem de ser uma hip otese muito
forte para garantir KKT. Existem muitos problemas em que temos KKT sem que LICQ
seja satisfeita.
minimizar f(x) = x
1
sujeito a c
1
(x) = x
2
1
2x
1
x
2
0
c
2
(x) = x
2
1
2x
1
+ x
2
0
c
3
(x) = x
1
0.
O ponto x
= 0 e o minimizador deste problema, cumpre as condicoes de KKT mas nao

satisfaz LICQ.
De fato, as tres restric oes sao ativas em x
e os vetores
c
1
(x
) =
_
2
1
_
, c
2
(x
) =
_
2
1
_
e c
3
(x
) =
_
1
0
_
s ao linearmente dependentes. Alem disso, f(x
) =
_
1
0
_
= c
3
(x
), ou seja, vale
KKT.
Este exemplo motiva o estudo de hipoteses mais fracas mas que ainda sejam fa-
cilmente vericadas. Uma delas, atribuda a Mangasarian e Fromovitz, e apresentada na
pr oxima sec ao, onde tambem provamos que LICQ e realmente uma condic ao de quali-
cac ao.
7.3.4 Condicao de qualicacao de Mangasarian-Fromovitz
Enquanto que na condic ao de Slater exigimos um ponto no interior relativo do
conjunto vi avel, aqui pedimos que o conjunto vi avel linearizado, D( x), tenha interior
relativo n ao vazio.
Denicao 7.35 A condicao de qualicacao de Mangasarian-Fromovitz (MFCQ) e satis-
feita em x quando os gradientes das restricoes de igualdade sao linearmente independentes
e existir um vetor d IR
n
tal que
c
i
( x)
T
d = 0 e c
j
( x)
T
d < 0,
para todos i c e j I( x).
As restri coes do Exemplo 7.34 cumprem MFCQ no ponto x = 0, pois o vetor
d =
_
1
0
_
satisfaz c
i
( x)
T
d < 0, i = 1, 2, 3.
Vamos agora provar que MFCQ e LICQ s ao, de fato, condic oes de qualicac ao.
Isto ser a feito em duas etapas. Primeiro, veremos que LICQ implica MFCQ. Em seguida,
provaremos que MFCQ implica T( x) = D( x).
Teorema 7.36 Se x satisfaz LICQ, entao x satisfaz MFCQ.
Demonstracao. Podemos supor, sem perda de generalidade, que c = 1, . . . , m e
I( x) = m + 1, . . . , m + q. Considere a matriz
M =
_
c
1
( x) c
m
( x) c
m+1
( x) c
m+q
( x)
_
e b IR
m+q
dado por b
i
= 0, para i = 1, . . . , m e b
i
= 1, para i = m + 1, . . . , m + q.
Como as colunas de M s ao linearmente independentes, o sistema M
T
d = b e possvel, j a
que a matriz de coecientes tem posto linha completo e portanto igual ao posto da matriz
ampliada. Sendo d uma soluc ao do sistema, temos
c
i
( x)
T
d = 0 e c
j
( x)
T
d = 1 < 0,
para todos i c e j I( x). Assim, MFCQ e satisfeita, completando a prova.
Para provar a outra armac ao precisaremos de dois resultados auxiliares, apre-
sentados nos seguintes lemas.
Lema 7.37 Sejam x, d IR
n
tais que c
E
( x) = 0 e c
i
( x)
T
d = 0, para todo i c.
Suponha que os gradientes c
i
( x), i c, sao linearmente independentes. Entao, existe
uma curva diferenciavel : (, ) IR
n
tal que c
E
_
(t)
_
= 0, para todo t (, ),
(0) = x e
(0) = d.
Demonstracao. Como anteriormente, vamos considerar c = 1, . . . , m. Assim, a matriz
M =
_
c
1
( x) c
m
( x)
_
IR
nm
tem posto m. Portanto, existe uma matriz Z
IR
n(nm)
, cujas colunas formam uma base de ^(M
T
). Como Im(M) ^(M
T
) = IR
n
, a
matriz (M Z) IR
nn
e inversvel. Dena : IR
n+1
IR
n
por
_
x
t
_
=
_
c
E
(x)
Z
T
(x x td)
_
.
Como
x
= (M Z) e inversvel e
_
x
0
_
= 0, o Teorema 1.57 (teorema da funcao
implcita) garante a existencia de uma curva diferenci avel : (, ) IR
n
tal que
_
(t)
t
_
= 0, para todo t (, ). Assim,
c
E
_
(t)
_
= 0 e Z
T
((t) x td) = 0. (7.19)
Pela unicidade de , temos que (0) = x. Derivando a primeira equac ao de (7.19) em
t = 0, obtemos
M
T
(0) = 0. (7.20)
Dividindo a segunda equacao de (7.19) por t ,= 0 e tomando o limite quando t 0, sai
Z
T
_
(0) d
_
= 0. (7.21)
Como M
T
d = 0, usando (7.20) e (7.21), obtemos
_
M
T
Z
T
_
(0) =
_
M
T
Z
T
_
d,
donde segue que
(0) = d, completando a prova.

Lema 7.38 Seja : (, ) IR
n
uma curva diferenciavel tal que c
E
_
(t)
_
= 0, para
todo t (, ). Se (0) = x e
(0) = d ,= 0, entao existe uma sequencia (x

k
) tal que
c
E
(x
k
) = 0, x
k
x e
x
k
x
|x
k
x|

d
|d|
.
Demonstracao. Temos
lim
t0
(t) x
t
= lim
t0
(t) (0)
t
=
(0) = d ,= 0,
o que implica que (t) ,= x, para todo t ,= 0 sucientemente pequeno. Tomando uma
sequencia (t
k
), com t
k
> 0 e t
k
0, dena x
k
= (t
k
). Assim,
x
k
x
|x
k
x|
=
x
k
x
t
k
t
k
|x
k
x|

d
|d|
,
Teorema 7.39 Se x satisfaz MFCQ, entao T( x) = D( x).
Demonstracao. Considere uma dire cao arbitr aria d D( x) e

d um vetor que cumpre
MFCQ. Dado t (0, 1), dena
d = (1 t)d + t
d.
Vamos provar que

d T( x). Como d,

d D( x), temos c
i
( x)
T

d = 0, para todo i c.
Pelo Lema 7.37, existe uma curva diferenciavel : (, ) IR
n
tal que c
E
_
(t)
_
= 0,
para todo t (, ), (0) = x e
(0) =

d. Aplicando o Lema 7.38, conclumos que
existe uma sequencia (x
k
) tal que c
E
(x
k
) = 0, x
k
x e
x
k
x
|x
k
x|

d
|
d|
.
Para concluir que

d T( x) basta mostrar que c
I
(x
k
) 0, para todo k sucientemente
grande. Se i 1 I( x), ent ao c
i
( x) < 0 e, pela continuidade de c
i
, temos c
i
(x
k
) 0,
para todo k sucientemente grande. Por outro lado, se i I( x), temos c
i
( x)
T
d 0 e
c
i
( x)
T

d < 0. Portanto, c
i
( x)
T

d < 0. Pela diferenciabilidade de c
i
, segue que
c
i
(x
k
) = c
i
( x) +c
i
( x)
T
(x
k
x) + o(|x
k
x|).
Assim,
c
i
(x
k
)
|x
k
x|
= c
i
( x)
T
x
k
x
|x
k
x|
+
o(|x
k
x|)
|x
k
x|
c
i
( x)
T
d
|
d|
< 0,
o que implica c
i
(x
k
) < 0, para todo k sucientemente grande. Conclumos entao que
d T( x). Como T( x) e fechado, temos que d T( x), completando a prova.

Os Teoremas 7.36 e 7.39 nos permitem concluir que tanto LICQ quanto MFCQ
s ao condi coes de qualicac ao. A condicao de MFCQ, apesar de ser uma hip otese mais
fraca, nao e necess aria para termos KKT. Veja o exemplo seguinte.
minimizar f(x) = x
1
sujeito a c
1
(x) = x
3
1
+ x
2
0
c
2
(x) = x
3
1
x
2
0
c
3
(x) = x
1
0.
O ponto x
= 0 e o minimizador e satisfaz KKT, mas nao e um ponto MFCQ.

De fato, as tres restric oes sao ativas em x
e
c
1
(x
) =
_
0
1
_
, c
2
(x
) =
_
0
1
_
e c
3
(x
) =
_
1
0
_
.
Note que nao existe um vetor d IR
2
tal que c
i
( x)
T
d < 0 para i = 1, 2, 3. Alem disso,
temos KKT, pois f(x
) =
_
1
0
_
= c
3
(x
). A Figura 7.19 ilustra este exemplo.

c
1
c
2
f=c
3 x
*
Salientamos que algoritmos de otimizac ao que tem convergencia estabelecida uti-
lizando hip oteses mais fracas sao mais abrangentes, ou seja, resolvem mais problemas.
Assim, um algoritmo que usa a hipotese MFCQ para provar sua convergencia e mais
poderoso que um algoritmo baseado em LICQ. Neste sentido, se um certo algoritmo se
baseia apenas na condic ao P
_
T( x)
_
= P
_
D( x)
_
, entao ele e mais poderoso ainda e pode
resolver uma classe muito maior de problemas.
7.4 Condicoes de otimalidade de segunda ordem
Vimos na Secao 7.2.4 as condi coes de otimalidade de primeira ordem que caracte-
rizam minimizadores de problemas com restric oes. Veremos agora as condic oes que levam
em conta as informac oes sobre a curvatura das func oes envolvidas no problema. Para
simplicar a discussao, vamos considerar inicialmente problemas que envolvem apenas
restric oes de igualdade. Em seguida, trataremos dos problemas gerais de otimizacao, com
igualdades e desigualdades.
7.4.1 Problemas com restric oes de igualdade
Considere o problema
minimizar f(x)
sujeito a c(x) = 0,
(7.22)
onde f : IR
n
IR e c : IR
n
IR
m
s ao fun coes de classe (
2
.
O Lagrangiano associado ao problema (7.22) e dado por
(x, ) IR
n
IR
m
(x, ) = f(x) +
T
c(x),
onde o vetor e chamado multiplicador de Lagrange. Denotamos a matriz jacobiana de
c no ponto x por A(x), o gradiente parcial do Lagrangiano por
x
(x, ) = f(x) +
m
i=1
i
c
i
(x) = f(x) + A(x)
T
e a Hessiana parcial do Lagrangiano,
2
xx
(x, ) =
2
f(x) +
m
i=1
2
c
i
(x).
Nos dois resultados que seguem vamos estabelecer as condic oes necess arias e
sucientes de 2
a
ordem para o problema (7.22).
Teorema 7.41 (Condicoes necessarias de 2
a
ordem) Suponha que x
e um minimi-
zador local do problema (7.22) e que a condicao de qualicacao de independencia linear e
satisfeita em x
. Entao, existe
IR
m
tal que
d
T
2
xx
(x
)d 0,
para todo d ^
_
A(x
)
_
.
Demonstracao. Considere d ^
_
A(x
)
_
arbitr ario. Pelo Lema 7.37 e pelo fato de c (
2
,
podemos concluir que existe uma curva duas vezes diferenci avel : (, ) IR
n
tal que
c
_
(t)
_
= 0, para todo t (, ), (0) = x
(0) = d. Fazendo
(0) = w e utilizando
o Exerccio 1.25 obtemos, para cada i = 1, . . . , m,
d
T
2
c
i
(x
)d +c
i
(x
)
T
w = 0. (7.23)
Pelo Teorema 7.23, existe
IR
m
tal que
x
(x
) = f(x
) + A(x
)
T
= 0 (7.24)
Multiplicando cada equac ao de (7.23) pelo correspondente
i
e fazendo o somat orio,
obtemos
d
T
m
i=1
2
c
i
(x
)d +
_
A(x
)
T
_
T
w = 0. (7.25)
Alem disso, t = 0 e um minimizador local da func ao (t) = f
_
(t)
_
. Portanto, novamente
pelo Exerccio 1.25,
d
T
2
f(x
)d +f(x
)
T
w =
(0) 0.
Somando com (7.25) e levando em conta (7.24), segue que
d
T
2
xx
(x
)d 0,
Cabe salientar aqui que o multiplicador
IR
m
, satisfazendo (7.24) e unico. De
fato, se
f(x
) + A(x
)
T
= f(x
) + A(x
)
T
,
ent ao A(x
)
T
(
) = 0. Como posto
_
A(x
)
_
= m, conclumos que
.
Teorema 7.42 (Condicoes sucientes de 2
a
ordem) Sejam x
IR
n
e
IR
m
tais
que c(x
) = 0 e f(x
) + A(x
)
T
= 0. Suponha tambem que as restricoes do problema

(7.22) cumprem a condicao de qualicacao de independencia linear em x
e que
d
T
2
xx
(x
)d > 0,
para todo d ^
_
A(x
)
_
0. Entao, existem > 0 e uma vizinhanca V de x
tal que
f(x) f(x
) |x x
|
2
,
para todo x V com c(x) = 0. Em particular, segue que x
e um minimizador local
estrito do problema (7.22).
Demonstracao. Suponha, por absurdo, que exista uma sequencia (x
k
) tal que c(x
k
) = 0,
x
k
x
e
f(x
k
) f(x
) <
1
k
|x
k
x
|
2
.
Ent ao, fazendo y
k
= x
k
x
, obtemos
f(x
)
T
y
k
+
1
2
(y
k
)
T
2
f(x
)y
k
+ o(|y
k
|
2
) <
1
k
|y
k
|
2
. (7.26)
Como c(x
k
) = c(x
) = 0, temos, para cada i = 1, . . . , m,

c
i
(x
)
T
y
k
+
1
2
(y
k
)
T
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0,
donde segue que
_
A(x
)
T
_
T
y
k
+
1
2
(y
k
)
T
m
i=1
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0.
Somando com (7.26) e lembrando que f(x
) + A(x
)
T
= 0, obtemos
(y
k
)
T
2
xx
(x
)y
k
+ o(|y
k
|
2
) <
2
k
|y
k
|
2
. (7.27)
Alem disso, existe uma subsequencia convergente
y
k
|y
k
|
IN
d ,= 0. Pelo Lema 7.21, temos

que d D(x
) = ^
_
A(x
)
_
. Por outro lado, dividindo (7.27) por |y
k
|
2
e passando o
limite, obtemos
d
T
2
xx
(x
)d 0,
fornecendo uma contradic ao e completando a demonstracao.
7.4.2 Problemas com restric oes de igualdade e desigualdade
Vamos agora discutir as condic oes de 2
a
ordem para problemas gerais de oti-
mizac ao, da forma (7.1). Neste caso, o Lagrangiano associado e dado por
(x, , ) IR
n
IR
m
IR
q
(x, , ) = f(x) +
T
c
E
(x) +
T
c
I
(x),
Indicando as jacobianas de c
E
e c
I
por A
E
e A
I
, respectivamente, temos
x
(x, , ) = f(x) + A
E
(x)
T
+ A
I
(x)
T
2
xx
(x, , ) =
2
f(x) +
iE
2
c
i
(x) +
iI
2
c
i
(x).
Lembramos que o conjunto dendices das restric oes ativas em um ponto vi avel x e indicado
por
I(x) = i 1 [ c
i
(x) = 0 .
Para os dois teoremas que seguem, vamos considerar um ponto x
IR
n
, viavel
para o problema (7.1), no qual a condic ao de qualicac ao de independencia linear e satis-
feita.
Teorema 7.43 (Condicoes necessarias de 2
a
ordem) Suponha que x
e um minimi-
zador local do problema (7.1). Considere os multiplicadores
, que satisfazem as
condicoes de KKT, dadas no Teorema 7.23. Entao,
d
T
2
xx
(x
)d 0,
para todo d ^
_
A
E
(x
)
_
^
_
A
I(x
)
(x
)
_
.
Demonstracao. A prova segue os mesmos passos da que foi feita no Teorema 7.41, consi-
derando as restri coes de desigualdade ativas como sendo de igualdades.
Assim como no caso para igualdades, aqui tambem temos a unicidade dos multi-
plicadores.
Agora provaremos que um ponto estacion ario e minimizador, contanto que a
Hessiana do Lagrangiano seja denida positiva em um espaco maior do que o utilizado
no Teorema 7.43. Isso se deve ao fato de existirem restric oes ativas degeneradas, isto e,
com o correspondente multiplicador nulo.
Teorema 7.44 (Condicoes sucientes de 2
a
ordem) Suponha que existem
IR
m
e
IR
q
+
tais que (
)
T
c
I
(x
) = 0 e
f(x
) + A
E
(x
)
T
+ A
I
(x
)
T
= 0.
Considere I
+
= i I(x
) [
i
> 0. Se
d
T
2
xx
(x
)d > 0,
para todo d ^
_
A
E
(x
)
_
^
_
A
I
+(x
)
_
, entao existem > 0 e uma vizinhanca V de x
tal que
f(x) f(x
) |x x
|
2
,
para todo ponto viavel x V . Em particular, segue que x
e um minimizador local estrito

do problema (7.1).
Demonstracao. Suponha, por absurdo, que exista uma sequencia vi avel x
k
x
tal que
f(x
k
) f(x
) <
1
k
|x
k
x
|
2
.
Ent ao, fazendo y
k
= x
k
x
, obtemos
f(x
)
T
y
k
+
1
2
(y
k
)
T
2
f(x
)y
k
+ o(|y
k
|
2
) <
1
k
|y
k
|
2
. (7.28)
Como c
E
(x
k
) = c
E
(x
) = 0, temos, para cada i c,

c
i
(x
)
T
y
k
+
1
2
(y
k
)
T
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0,
donde segue que
_
A
E
(x
)
T
_
T
y
k
+
1
2
(y
k
)
T
iE
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0. (7.29)
Alem disso, como c
I
+(x
k
) 0 e c
I
+(x
) = 0, temos
_
A
I
+(x
)
T
I
+
_
T
y
k
+
1
2
(y
k
)
T
iI
+
2
c
i
(x
)y
k
+ o(|y
k
|
2
) 0.
Somando com (7.28) e (7.29) e notando que
f(x
) + A
E
(x
)
T
+ A
I
+(x
)
T
I
+ = 0, (7.30)
obtemos
(y
k
)
T
2
xx
(x
)y
k
+ o(|y
k
|
2
) <
2
k
|y
k
|
2
. (7.31)
Alem disso, existe uma subsequencia convergente
y
k
|y
k
|
IN
d ,= 0. Pelo Lema 7.21, temos

que
d D(x
) =
_
d IR
n
[ c
i
(x
)
T
d = 0, se i c e c
i
(x
)
T
d 0, se i I(x
)
_
.
Dividindo (7.31) por |y
k
|
2
e passando o limite, obtemos
d
T
2
xx
(x
)d 0.
Portanto, pela hip otese de positividade, d / ^
_
A
I
+(x
)
_
, o que signica que existe i I
+
,
tal que c
i
(x
)
T
d < 0. Assim, por (7.30), f(x
)
T
d > 0. No entanto, dividindo (7.28)
por |y
k
| e passando o limite, obtemos f(x
)
T
d 0. Esta contradic ao completa a
demonstrac ao.
Cabe salientar que a hip otese de positividade no Teorema 7.44 nao pode ser en-
fraquecida trocando ^
_
A
I
+(x
)
_
por ^
_
A
I(x
)
(x
)
_
. Por outro lado, a conclusao obtida
no Teorema 7.43 n ao e v alida se considerarmos ^
_
A
I
+(x
)
_
no lugar de ^
_
A
I(x
)
(x
)
_
.
E um bom exerccio identicar na demonstrac ao sugerida para este teorema, bem como
na demonstrac ao do Teorema 7.44, o ponto onde elas iriam falhar com as referidas subs-
tituic oes. Os exemplos a seguir conrmam que, de fato, tais trocas nao podem ser feitas.
minimizar f(x) = x
1
+ x
2
2
+ 3x
2
x
3
+ x
2
3
sujeito a c
1
(x) = x
1
0
c
2
(x) = x
2
0
c
3
(x) = x
3
0.
Verique que o ponto x
= 0 e um minimizador para este problema, o qual cumpre as

hipoteses do Teorema 7.43, mas existe d ^
_
A
I
+(x
)
_
tal que d
T
2
xx
(x
)d < 0.
Temos I(x
) = 1, 2, 3,
f(x
) =
_
_
_
1
0
0
_
_
_
, c
1
(x
) =
_
_
_
1
0
0
_
_
_
, c
2
(x
) =
_
_
_
0
1
0
_
_
_
e c
3
(x
) =
_
_
_
0
0
1
_
_
_
.
Portanto,
1
= 1,
2
=
3
= 0 e
2
xx
(x
) =
_
_
_
0 0 0
0 2 3
0 3 2
_
_
_
.
Alem disso, ^
_
A
I
+(x
)
_
=
_
_
_
_
_
0
1
0
_
_
_
,
_
_
_
0
0
1
_
_
_
_
_
. Tomando d =
_
_
_
0
1
1
_
_
_
^
_
A
I
+(x
)
_
, temos
que d
T
2
xx
(x
)d < 0.
minimizar f(x) = (x
1
2)
2
x
2
2
+ x
2
3
sujeito a c
1
(x) = x
2
1
x
2
2
+ 1 0
c
2
(x) = x
2
0.
Verique que o ponto x =
_
_
_
1
0
0
_
_
_
cumpre as hipoteses do Teorema 7.44, com I( x) no lugar
de I
+
, mas nao e um minimizador local deste problema.
Temos I( x) = 1, 2,
f( x) =
_
_
_
2
0
0
_
_
_
, c
1
( x) =
_
_
_
2
0
0
_
_
_
e c
2
( x) =
_
_
_
0
1
0
_
_
_
.
Portanto,
1
= 1,
2
= 0 e
2
xx
( x, ) =
_
_
_
4 0 0
0 4 0
0 0 2
_
_
_
.
Alem disso, ^
_
A
I( x)
( x)
_
=
_
_
_
_
_
0
0
1
_
_
_
_
_
, donde segue que
d
T
2
xx
( x, )d > 0,
para todo d ^
_
A
I( x)
( x)
_
0. Para ver que x n ao e minimizador local, note que
f
_
_
_
1
t
0
_
_
_
< f( x), para todo t > 0. Observe tambem que d =
_
_
_
0
1
0
_
_
_
^
_
A
I
+( x)
_
e que
d
T
2
xx
( x, )d < 0.
E possvel, no entanto, mostrar que os dois teoremas podem ser melhorados,

trabalhando com um conjunto intermedi ario, entre ^
_
A
I(x
)
(x
)
_
e ^
_
A
I
+(x
)
_
. Para
isto, considere o conjunto I
0
= i I(x
) [
i
= 0 e o cone
D(x
) =
_
d IR
n
[ c
i
(x
)
T
d = 0, i c I
+
, c
i
(x
)
T
d 0, i I
0
_
. (7.32)
Note que
^
_
A
E
(x
)
_
^
_
A
I(x
)
(x
)
_

D(x
) ^
_
A
E
(x
)
_
^
_
A
I
+(x
)
_
.
Nos Exerccios 7.26 e 7.27, discutimos as condicoes necessarias e sucientes, respectiva-
mente, considerando o conjunto

D(x
).
7.1. Seja S =
_
d IR
2
[ d 0 , d
1
d
2
= 0
_
.
(a) Mostre que S e um cone n ao convexo;
(b) Determine P(S) =
_
p IR
2
[ p
T
d 0, d S
_
, o polar de S;
(c) Represente geometricamente os conjuntos S e P(S).
7.2. Para cada um dos conjuntos abaixo, diga se e um cone e represente geometricamente.
(a) S =
_
d IR
2
[ d
2
1
d
2
0
_
;
(b) S =
_
d IR
2
[ d
2
1
d
2
0
_
.
7.3. Suponha que S
1
e S
2
sejam cones do IR
n
. Mostre que S = S
1
S
2
e um cone e que
P(S) = P(S
1
) P(S
2
).
7.4. Sejam u =
_
1
2
_
, v =
_
3
1
_
e x =
_
4
3
_
. Represente geometricamente o cone
S =
1
u +
2
v [
j
0, j = 1, 2 e a sua translac ao x + S = x + d [ d S.
7.5. Se S IR
n
e 0 int(S), entao P(S) = 0.
7.6. Sejam B IR
nm
e C = By [ y IR
m
, y 0. Usando o Lema 7.11, mostre que
P
_
P(C)
_
= C.
7.7. [Caratheodory] Sejam B = (v
1
v
2
v
m
) IR
nm
e C = By [ y IR
m
, y 0.
Considere o conjunto = J 1, . . . , m [ v
j
[ j J e LI. Usando ideias da de-
monstrac ao do Lema 7.10, mostre que C =
_
JJ
C
J
, onde C
J
= B
J
y
J
[ y
J
0.
7.8. Sejam B IR
nm
e C = By [ y IR
m
, y 0. Usando o Exerccio 7.7, mostre
que C e um conjunto fechado.
7.9. Considere IR
n
e x . Ent ao T( x) e um conjunto fechado.
7.10. Considere c : IR
2
IR
2
dada por
c(x) =
_
x
2
1
x
2
x
2
1
+ x
2
_
.
Usando ideias similares ` as do Exemplo 7.19, determine o cone T( x), associado ao conjunto
vi avel =
_
x IR
2
[ c(x) 0
_
em torno do ponto x = 0. Obtenha tambem o cone D( x).
7.11. Escreva as condic oes de KKT para o problema de minimizar f(x) = x
1
x
2
na
circunferencia x
2
1
+ x
2
2
= 1. Encontre os minimizadores e represente geometricamente.
7.12. Dadas f(x) = (x
1
3)
2
+ 2
_
x
2
1
3
_
2
, c
1
(x) =
x
2
1
3
x
2
e c
2
(x) =
x
2
1
2
+ x
2

5
6
,
considere =
_
x IR
2
[ c(x) 0
_
. Encontre, geometricamente, o minimizador de f em
. Escreva as condicoes de KKT.
7.13. Considere o problema
min f(x) = x
1
s. a c
1
(x) = x
2
(1 x
1
)
3
0
c
2
(x) = x
2
0.
Mostre que x
=
_
1
0
_
e um minimizador, mas as condic oes KKT n ao se vericam.
7.14. Fa ca o mesmo para o problema
min f(x) = x
1
s. a c
1
(x) = x
2
+ (x
1
1)
3
0
c
2
(x) = x
2
+ (x
1
1)
3
0.
7.15. Formule e resolva algebricamente, por meio das condic oes de otimalidade de pri-
meira ordem, o problema de encontrar o ponto da curva x
2
= x
1
(3 x
1
) que esta mais
pr oximo do ponto
_
3
3
_
. Qual a garantia de que o ponto obtido e de fato a soluc ao dese-
jada? Explique. Sugestao: explore a visualizac ao geometrica dos elementos do problema
para auxilia-lo na analise algebrica.
7.16. Seja L = x IR
n
[ Ax + b = 0, onde A IR
mn
e tal que posto(A) = m e
b IR
m
. Dado a IR
n
, faca o mesmo que foi pedido no Exerccio 7.15 para o problema
de encontrar proj
L
(a). Conclua que proj
L
(a) = a A
T
(AA
T
)
1
(Aa +b). Depois reveja o
Exerccio 3.8.
7.17. Mostre que o problema abaixo tem um minimizador global e encontre-o usando
KKT.
min x
1
+ x
2
+ + x
n
s. a x
1
x
2
x
n
= 1
x 0.
Conclua que
n
x
1
x
2
x
n

x
1
+ x
2
+ + x
n
n
.
7.18. Princpio de Fermat na otica. Sejam =
_
x IR
2
[ c(x) = 0
_
e a, b IR
2
conforme
a gura abaixo. Mostre que se x
minimiza a soma das dist ancias aos pontos a e b, dentre

os pontos de , ent ao o vetor c(x
) forma angulos iguais com ax
e b x
. (Sugest ao:
mostre primeiro que se u, v IR
2
s ao vetores de mesma norma e w = u+v, entao w forma
angulos iguais com u e v.)
c
a
b
x
*
7.19. Mostre que o problema abaixo tem 4 minimizadores globais e encontre-os usando
KKT.
min x
2
1
+ x
2
2
+ x
2
3
s. a x
1
x
2
x
3
= 1.
7.20. Mostre que o problema abaixo pode ter 1 ou 2 minimizadores globais, dependendo
do valor de > 0. Fa ca uma representa cao geometrica.
min x
2
1
+ (x
2
1)
2
s. a x
2
x
2
1
.
7.21. Seja A IR
nn
uma matriz denida positiva. Considere os problemas
min x
T
x
s. a x
T
Ax = 1
e
min x
T
Ax
s. a x
T
x = 1.
Mostre que minimizadores destes problemas s ao autovetores de A e obtenha o autovalor
como func ao do autovetor correspondente.
7.22. [13, Exerc. 9.6] Considere os problemas primal e dual de programac ao linear
min c
T
x
s. a Ax = b
x 0
e
max b
T
y
s. a A
T
y c.
Suponha que x
seja um minimizador do primal e
o multiplicador associado à restricao

de igualdade b Ax = 0.
(a) Mostre que b
T
y c
T
x, para todos x e y vi aveis;
(b) Prove que c
T
x
= b
T
;
(c) Prove que
e soluc ao do problema dual;

(d) Conclua que o valor otimo primal e dual coincidem.
7.23. Seja f : IR
n
IR dada por f(x) =
1
2
x
T
Ax + b
T
x + c, onde A IR
nn
e uma
matriz indenida, b IR
n
, c IR e > 0. Considere o problema
min f(x)
s. a x
T
x
2
.
Mostre que este problema possui pelo menos um minimizador global e que tal ponto esta
na fronteira do conjunto vi avel.
7.24. Considere a funcao quadratica
f(x) =
1
2
x
T
Ax + b
T
x,
com A IR
nn
simetrica e b IR
n
. No Exerccio 3.17 vimos que se f e limitada infe-
riormente, ent ao f possui um unico minimizador global pertencente a Im(A). Mostre que
este ponto e exatamente a solu cao do problema
min x
T
x
s. a Ax + b = 0.
7.25. Considere o problema quadr atico
min f(x) =
1
2
x
T
Bx + b
T
x
s. a Ax + c = 0,
onde A IR
mn
e B IR
nn
s ao tais que posto(A) = m e B e denida positiva no n ucleo
de A, isto e, d
T
Bd > 0 para todo d ,= 0, d ^(A). Mostre que este problema tem um
unico ponto estacion ario, que e minimizador global.
7.26. [CN2 forte] Suponha que x
e um minimizador local do problema (7.1) e que a

condic ao de qualica cao de independencia linear e satisfeita em x
. Considere os multi-
plicadores
, que satisfazem as condic oes de KKT, dadas no Teorema 7.23. Ent ao,
d
T
2
xx
(x
)d 0,
para todo d

D(x
), o cone denido em (7.32).

7.27. [CS2 forte] Seja x
um ponto vi avel para o problema (7.1), no qual a condic ao

de qualica cao de independencia linear e satisfeita. Suponha que existem
IR
m
e
IR
q
+
tais que (
)
T
c
I
(x
) = 0 e
f(x
) + A
E
(x
)
T
+ A
I
(x
)
T
= 0.
Se
d
T
2
xx
(x
)d > 0,
para todo d

D(x
), entao existem > 0 e uma vizinhanca V de x
tal que
f(x) f(x
) |x x
|
2
,
para todo ponto vi avel x V .
Captulo 8
Metodos para Otimizacao com
Restric oes
No Captulo 7 vimos as condic oes que caracterizam minimizadores de problemas
de otimiza cao com restric oes. Vamos agora discutir alguns metodos cujo objetivo e obter
pontos estacionarios para tais problemas.
Nossa intenc ao nao e abordar os diversos metodos existentes, mas sim apresentar
o cl assico metodo de programac ao quadr atica sequencial e em seguida algumas ideias de
uma classe particular de algoritmos de otimizac ao, conhecidos como algoritmos de ltro.
Algumas referencias para o que trataremos neste captulo s ao [3, 6, 35, 39].
8.1 Programacao quadratica sequencial
O metodo de programac ao quadratica sequencial (PQS) e um dos metodos mais
ecazes para otimizac ao n ao linear com restricoes. O princpio que norteia este metodo
e comum quando se pretende resolver, de forma aproximada, um problema matem atico:
a solu cao de um problema difcil vai sendo aproximada por uma sequencia de pontos
obtidos como solucao de um problema facil, que muda a cada iteracao de acordo com
as informac oes disponveis no ponto corrente. O metodo de Newton para a resoluc ao de
sistemas de equac oes n ao lineares e um exemplo disso. Neste caso os problemas f aceis
s ao obtidos tomando-se a linearizac ao do sistema que queremos resolver, em torno do
ponto corrente. Temos assim um sistema de equa coes lineares, cuja solucao e tomada
como proximo ponto da sequencia.
Nos metodos de programa cao quadr atica sequencial a ideia consiste em substituir,
a cada iterac ao, a func ao objetivo por um modelo quadratico da lagrangiana e as restricoes
por equa coes ou inequa coes lineares, aproxima coes de Taylor de primeira ordem em torno
do ponto corrente.
Para simplicar a exposicao vamos considerar problemas apenas com restricoes
155
Metodos para Otimizac ao com Restric oes 156
de igualdade, ou seja,
minimizar f(x)
sujeito a c(x) = 0,
(8.1)
onde f : IR
n
IR e c : IR
n
IR
m
s ao fun coes de classe (
2
.
Denotamos a matriz jacobiana de c no ponto x por A(x). O lagrangiano associado
ao problema (8.1) e dado por
x IR
n
, IR
m
(x, ) = f(x) +
T
c(x),
onde o vetor e chamado multiplicador de Lagrange. A Hessiana parcial do lagrangiano,
2
xx
(x, ), e denotada por B(x, ).
8.1.1 Algoritmo
Dados x
k
e
k
, o algoritmo b asico de PQS consiste em resolver a cada itera cao o
seguinte problema quadratico
minimizar (x
k
,
k
) +
x
(x
k
,
k
)
T
d +
1
2
d
T
B(x
k
,
k
)d
sujeito a A(x
k
)d + c(x
k
) = 0,
(8.2)
que sob certas hipoteses tem solu cao unica d
k
. Denimos entao x
k+1
= x
k
+ d
k
, calcu-
lamos o multiplicador de Lagrange
k+1
e repetimos o processo com o novo problema
quadr atico. Com este procedimento, esperamos obter uma sequencia que tenha algum
ponto de acumula cao (x
) que satisfaca as condi coes de otimalidade de primeira or-

dem para o problema (8.1), dadas pelo Teorema 7.23. Tais condi coes podem ser escritas
como
(x
) =
_
f(x
) + A(x
)
T
c(x
)
_
=
_
0
0
_
.
Podemos colocar a discuss ao anterior de modo mais preciso no seguinte algoritmo.
Algoritmo 8.1 PQS basico
Dados: k = 0, (x
0
,
0
) IR
n
IR
m
Enquanto (x
k
,
k
) ,= 0
Resolva o problema (8.2), obtendo uma soluc ao primal-dual (d
k
,
k
)
Faca x
k+1
= x
k
+ d
k
Dena
k+1
=
k
+
k
k = k + 1
Quando falamos em obter uma soluc ao primal-dual (d
k
,
k
) do subproblema qua-
dr atico (8.2), queremos dizer que devemos resolver as condic oes de KKT para este sub-
problema. Isto signica resolver o sistema
_
B(x
k
,
k
)d + A(x
k
)
T
=
x
(x
k
,
k
)
A(x
k
)d = c(x
k
).
(8.3)
Veremos agora que este procedimento, quando iniciado em uma vizinhan ca de um
ponto estacionario onde s ao satisfeitas as condic oes sucientes de segunda ordem, est a bem
denido e produz uma sequencia que converge quadraticamente para este ponto.
8.1.2 Convergencia local
Para estabelecer a convergencia do algoritmo vamos considerar uma solucao
primal-dual (x
) do problema (8.1) e assumir que valem as seguintes condi coes.

H1 As funcoes
2
f e
2
c
i
, i = 1, . . . , m, sao lipschitzianas em uma vizinhanca de x
.
H2 A jacobiana das restricoes, A(x
), tem posto linha completo e a Hessiana parcial

B(x
) e denida positiva no espaco nulo de A(x
), isto e, d
T
B(x
)d > 0 para todo

d ,= 0, d ^(A(x
)).
O seguinte lema garante que se (x
k
,
k
) esta proximo de (x
), o passo (d
k
,
k
)
satisfazendo (8.3) esta bem denido e e unico.
Lema 8.1 Seja (x
) uma solucao primal-dual do problema (8.1) e suponha que a

Hipotese H2 seja satisfeita. Entao existe uma vizinhanca V
1
de (x
), tal que se
(x
k
,
k
) V
1
, o sistema (8.3) tem uma unica solucao (d
k
,
k
).
Demonstracao. Usando o Exerccio 1.18, podemos concluir que a matriz
_
B(x
) A(x
)
T
A(x
) 0
_
e nao singular. Por continuidade, segue que existe uma vizinhanca V
1
de (x
) tal que
se (x
k
,
k
) V
1
, ent ao
_
B(x
k
,
k
) A(x
k
)
T
A(x
k
) 0
_
tambem e nao singular. Mas isto signica que o sistema (8.3), que pode ser escrito como
_
B(x
k
,
k
) A(x
k
)
T
A(x
k
) 0
__
d
_
=
_
x
(x
k
,
k
)
c(x
k
)
_
,
tem uma unica soluc ao (d
k
,
k
), completando a demonstracao.
Nas condi coes do Lema 8.1, o vetor d
k
e minimizador global do subproblema
(8.2), de acordo com o Exerccio 7.25.
Vamos agora provar o principal resultado desta sec ao, que estabelece a con-
vergencia local do Algoritmo 8.1 ao mesmo tempo que evidencia a rela cao com o metodo
de Newton.
Teorema 8.2 Seja (x
) uma solucao primal-dual do problema (8.1) e suponha que

as Hipoteses H1 e H2 sejam satisfeitas. Entao existe uma vizinhanca V de (x
), tal
que se (x
0
,
0
) V , o Algoritmo 8.1 esta bem denido e, se o criterio de parada nao
for satisfeito, gera uma sequencia (x
k
,
k
)
kIN
que converge quadraticamente para esta
solucao.
Demonstracao. Basta notar que o passo (d
k
,
k
) denido pelo Algoritmo 8.1 e exatamente
o passo de Newton para o sistema de equa coes
(x, ) =
_
f(x) + A(x)
T
c(x)
_
=
_
0
0
_
. (8.4)
De fato, a jacobiana da func ao (x, ) (x, ) e a matriz
_
B(x, ) A(x)
T
A(x) 0
_
e assim
o passo de Newton para (8.4), (d
k
N
,
k
N
), e dado por
_
B(x
k
,
k
) A(x
k
)
T
A(x
k
) 0
__
d
k
N
k
N
_
=
_
f(x
k
) + A(x
k
)
T
k
c(x
k
)
_
=
_
x
(x
k
,
k
)
c(x
k
)
_
,
ou seja, pelo sistema (8.3). Se (x
k
,
k
) est a na vizinhanca dada no Lema 8.1, bem como
na regi ao de convergencia do metodo de Newton, ent ao o passo PQS coincide com o passo
(d
k
N
,
k
N
) e o Algoritmo 8.1 est a bem denido. Alem disso, a convergencia quadr atica segue
do Teorema 5.11.
Ressaltamos que a convergencia quadratica estabelecida no Teorema 8.2 e da
sequencia (x
k
,
k
)
kIN
e isto nao implica que a convergencia de (x
k
) seja quadratica, con-
forme podemos ver no exemplo seguinte.
Exemplo 8.3. [3, Exerccio 12.8] Dena x
0
=
0
= 1 e, para k 1,
x
k
=
_

2
k
, se k e mpar
x
k1
, se k e par
e
k
=
2
k1
,
onde (0, 1). A sequencia (x
k
,
k
)
kIN
converge quadraticamente para (0, 0), enquanto
que a convergencia de (x
k
) para 0 nao e sequer linear.
Temos x
k
=
k
, se k e par e x
k
= (
k
)
2
<
k
, se k e mpar. Alem disso,
k+1
= (
k
)
2
,
para todo k 1 e portanto,
|(x
k+1
,
k+1
)|
|(x
k
,
k
)|
2
=

k+1
(
k
)
2
= 1.
Por outro lado, temos
x
k+1
x
k
= 1, se k e mpar.
E possvel, entretanto, modicar o Algoritmo 8.1 de modo a transform a-lo em um

algoritmo puramente primal e ter convergencia quadr atica na sequencia (x
k
). Podemos
encontrar tal abordagem em [3, Teorema 12.5].
O algoritmo PQS, discutido aqui, pode ser interpretado de outro modo. Fazendo
= +
k
, a rela cao (8.3) pode ser reescrita como
_
B(x
k
,
k
)d +f(x
k
) + A(x
k
)
T
= 0
A(x
k
)d + c(x
k
) = 0,
que representa as condi coes de otimalidade do problema quadr atico
minimizar f(x
k
) +f(x
k
)
T
d +
1
2
d
T
B(x
k
,
k
)d
sujeito a A(x
k
)d + c(x
k
) = 0.
(8.5)
Podemos assim fazer uma releitura do algoritmo PQS e dizer que minimizamos a cada
iterac ao um modelo quadratico da fun cao objetivo, sujeito a linearizac ao das restric oes.
Entretanto, neste modelo quadr atico incorporamos na Hessiana informacoes sobre a cur-
vatura das restric oes.
E interessante notar que considerando em (8.5) o modelo

f(x
k
) +f(x
k
)
T
d +
1
2
d
T
2
f(x
k
)d, (8.6)
isto e, a aproximac ao de Taylor de segunda ordem de f, o algoritmo n ao funciona, con-
forme nos mostra o exemplo seguinte.
Exemplo 8.4. [3, Exerccio 12.1] Considere o problema
minimizar f(x) =
x
2
1
2
+ 2x
2
sujeito a c(x) = x
2
1
+ x
2
2
1 = 0,
(8.7)
cuja solucao ( unica e global) e o ponto x
=
_
0
1
_
, com multiplicador correspondente
= 1. Suponha que o ponto corrente seja x =

_

1
2
_
, com > 0 sucientemente
pequeno. Mostre que se o passo for calculado utilizando (8.6) como modelo, entao o novo
ponto se distancia da solucao. Calcule tambem o passo obtido por PQS.
O subproblema quadratico associado a (8.7), utilizando o modelo (8.6), ca
minimizar
d
2
1
2
d
1
+ 2d
2
sujeito a d
1
1
2
d
2
= 0,
(8.8)
j a desconsiderando os termos constantes. Resolvendo as condic oes de KKT para (8.8),
obtemos
d
1
=
2
1
2
e d
2
=
2
2
1
2

2
1
2
.
Para sucientemente pequeno o ponto x ca muito pr oximo da solu cao x
. No entanto,
temos
|x + d x
| 2|x x
|.
Ou seja, mesmo estando o ponto corrente arbitrariamente pr oximo da solu cao, o passo
determinado por (8.8) aproximadamente duplica a dist ancia ao minimizador. Vamos
agora calcular o passo verdadeiro de PQS, soluc ao do subproblema
minimizar
1
2
(d
2
1
+ 2d
2
2
) d
1
+ 2d
2
sujeito a d
1
1
2
d
2
= 0,
(8.9)
que e o problema (8.5) com B(x
k
,
k
) =
2
xx
(x,
) =
_
1 0
0 2
_
. A solucao de (8.9) e o
vetor
d
pqs
=
(
1
2
2)
1 +
2
_
1
2
_
.
Neste caso temos
|x + d
pqs
x
|
|x x
|
2

1
2
,
o que esta em conformidade com o Teorema 8.2. A Figura 8.1 ilustra este exemplo, onde
o conjunto vi avel est a representado pela linha circular cheia, as curvas de nvel da func ao
objetivo pelas linhas tracejadas e x
+
= x + d
pqs
.
c(x)=0
x
x+d
x
+
x*
Figura 8.1: O passo de Pseudo PQS para o Exemplo 8.4.
8.2 Metodos de ltro
Do mesmo modo como acontece com o metodo de Newton, n ao temos a con-
vergencia global para PQS, isto e, se o ponto inicial n ao estiver sucientemente pr oximo
de uma soluc ao, n ao se garante que a sequencia gerada pelo algoritmo seja convergente,
nem mesmo que tenha algum ponto de acumulacao estacion ario. Isto se deve ao fato de
que os passos obtidos nao passam por nenhum criterio de aceitac ao.
E necessario, portanto, considerar estrategias que submetem o passo calculado a

um teste, so aceitando se for razoavelmente bom. As formas cl assicas s ao a busca linear
e regi ao de conanca com func ao de merito. Nesta secao, entretanto, discutiremos outra
abordagem, apresentada com mais detalhes em [41, 42], que tambem permite estabelecer
convergencia global.
Vamos considerar problemas gerais de otimizac ao, dados por (7.1). Como o
metodo apresentado aqui e iterativo e aceita pontos invi aveis no decorrer das iterac oes,
vamos denir uma func ao para medir o quanto um iterando est a pr oximo do conjunto
vi avel. Desta forma, denimos a medida de inviabilidade h : IR
n
IR
+
dada por
h(x) =
_
_
c
+
(x)
_
_
, (8.10)
onde | | e uma norma arbitraria e c
+
: IR
n
IR
m
e denida por
c
+
i
(x) =
_
c
i
(x), se i c
max0, c
i
(x), se i 1.
(8.11)
Os metodos de ltro, introduzidos por Fletcher e Leyer em [10], denem uma
regiao proibida armazenando pares (f(x
j
), h(x
j
)) escolhidos convenientemente das itera-
c oes anteriores, formando assim um conjunto de pares que denominamos ltro. Um ponto
tentativo x
+
e aceito se o par (f(x
+
), h(x
+
)) n ao for dominado por nenhum elemento
do ltro, segundo a regra: (f(x
+
), h(x
+
)) e dominado por (f(x), h(x)) se, e somente se,
f(x
+
) f(x) e h(x
+
) h(x). No entanto, para garantir propriedades de convergencia
global dos metodos de ltro, esses mesmos autores sugerem que uma margem seja criada
em torno da regi ao proibida, na qual os pontos tambem ser ao considerados proibidos.
Desta forma, o metodo de ltro proposto em [10] evita pontos nas regioes
1
j
=
_
x IR
n
[ f(x) f(x
j
) h(x
j
) e h(x) (1 )h(x
j
)
_
(8.12)
onde (0, 1) e uma constante dada. Temos tambem uma maneira um pouco diferente
de denir a regra de dominacao, proposta inicialmente por Chin [4], que considera as
regi oes
1
j
=
_
x IR
n
[ f(x) + h(x) f(x
j
) e h(x) (1 )h(x
j
)
_
. (8.13)
O algoritmo de ltro baseado na regra (8.12) e denominado ltro original e aquele baseado
em (8.13) e chamado ltro inclinado.
Na Figura 8.2 ilustramos as regioes em IR
2
formadas pelos pares (f(x), h(x))
associados aos pontos x 1
j
, com 1
j
dado em (8.12) e (8.13), respectivamente. Tais
pontos sao recusados pelo ltro e, por esse motivo, denominamos cada uma dessas regi oes
de regiao proibida no plano fh. Nesta gura, e sempre que for conveniente, simplicamos
a notac ao usando (f
j
, h
j
) para representar o par (f(x
j
), h(x
j
)).
h
f
(
f
j
, h
j
)
h
f
(
f
j
, h
j
)
Figura 8.2: Regiao proibida.
8.2.1 O algoritmo geral de ltro
Apresentamos aqui um algoritmo geral de ltro que permite uma grande liberdade
no calculo do passo e na escolha do criterio de ltro, original ou inclinado.
O algoritmo constr oi uma sequencia de conjuntos F
0
, F
1
, . . . , F
k
, compostos de
pares
_
f
j
, h
j
_
IR
2
, onde F
k
e denominado ltro corrente. Em nossa an alise consideramos
tambem o conjunto T
k
, que e uma regi ao permanentemente proibida em IR
n
e uma regi ao
temporariamente proibida dada por

T
k
= T
k
1
k
.
Na Figura 8.3 temos o ltro permanente, representado pelo conjunto
F
k
=
_
(f
i
, h
i
), (f
j
, h
j
), (f
l
, h
l
)
_
,
e o ltro tempor ario, dado por

F
k
= F
k

_
(f
k
, h
k
)
_
, para ambos os criterios, original e
inclinado. As regioes hachuradas s ao formadas pelos pares (f(x), h(x)) correspondentes
aos pontos x

T
k
.
Algoritmo 8.2 Filtro
Dados: x
0
IR
n
, F
0
= , T
0
= , (0, 1).
k = 0
repita
Dena

F
k
= F
k
(f
k
, h
k
) e
T
k
= T
k
1
k
, com 1
k
dado em (8.12) ou (8.13)
Passo:
se x
k
e estacion ario, pare com sucesso
sen
ao, calcule x
k+1
/

T
k
.
Atualizacao do ltro:
se f(x
k+1
) < f(x
k
),
F
k+1
= F
k
, T
k+1
= T
k
(iterac ao f)
sen
ao,
F
k+1
=

F
k
, T
k+1
=

T
k
(iterac ao h)
k = k + 1.
h
f
(
f
i
, h
i
)
(
f
j
, h
j
)
(
f
l
, h
l
)
(
f
k
, h
k
)
h
f
(
f
i
, h
i
)
(
f
j
, h
j
)
(
f
l
, h
l
)
(
f
k
, h
k
)
Figura 8.3: Regioes proibidas no plano f h.
No incio de cada iterac ao, o par (f
k
, h
k
) e temporariamente introduzido no ltro,
denindo a regi ao proibida 1
k
. Ao nal da iterac ao, o par (f
k
, h
k
) se tornara permanente
no ltro somente se a iterac ao nao produzir uma reducao em f, ou seja, se a iterac ao
for do tipo h. Na iterac ao do tipo f o novo elemento e descartado, ou seja, n ao haver a
atualizac ao do ltro.
Note que se x
k
e vi avel, ent ao qualquer ponto x n ao proibido deve satisfazer
f(x) < f(x
k
). A Figura 8.4 ilustra esta situac ao para ambos os criterios de ltro, original
e inclinado.
h
f
(
f
k
, h
k
)
(
f , h
)
Figura 8.4: Caso em que x
k
e vi avel.
O Lema 8.5, apresentado a seguir, estabelece que o Algoritmo 8.2 e bem denido.
Dada a generalidade do algoritmo, e suciente mostrar que sempre que o ponto corrente
e n ao estacion ario, um novo ponto n ao proibido pode ser escolhido, a menos que o ponto
corrente seja uma solu cao global do problema (7.1).
Lema 8.5 Considere o Algoritmo 8.2. Para todo k IN tal que x
k
e nao estacionario,
as seguintes armacoes sao validas:
(i) Temos h
j
> 0, para todo j IN tal que (f
j
, h
j
) F
k
;
(ii) Existe x
k+1
/

T
k
.
Demonstracao. Vamos provar este lema por induc ao. Para k = 0, temos que F
0
= e
F
0
= (f
0
, h
0
), logo (i) e v alida. Para provar (ii), considere inicialmente que h
0
> 0.
Nesse caso, podemos tomar x
1
como qualquer ponto vi avel. Por outro lado, se h
0
= 0,
existe um ponto viavel x
1
tal que f
1
< f
0
, uma vez que x
0
n ao e um minimizador do
problema (7.1). Em ambos os casos, conclumos que x
1
/

T
0
. Agora, suponha que (i)
e (ii) sao v alidas para k 1. Se a itera cao k 1 e uma iterac ao f, entao F
k
= F
k1
e
consequentemente, pela hipotese de inducao, temos que a armac ao (i) e verdadeira para
k. Caso contr ario, k 1 e uma iterac ao h e F
k
= F
k1

_
(f
k1
, h
k1
)
_
. Nesse caso, e
suciente provar que h
k1
> 0. Suponha por contradic ao que h
k1
= 0. Pela hipotese de
induc ao, existe x
k
/

T
k1
. Isto signica que f
k
< f
k1
, contradizendo o fato de que k e
uma iteracao h. Entao, h
k1
> 0 e, deste modo, (i) e v alida para k. Resta provar (ii).
Se h
k
> 0, podemos tomar x
k+1
como qualquer ponto vi avel. Por outro lado, se h
k
= 0,
como x
k
n ao e um minimizador do problema (7.1), existe um ponto viavel x
k+1
tal que
f
k+1
< f
k
. Em ambos os casos, usando (i), conclumos que x
k+1
/

T
k
.
Desta forma, vamos assumir que o Algoritmo 8.2 gera uma sequencia innita (x
k
)
e, na pr oxima secao, provaremos que este algoritmo e globalmente convergente.
8.2.2 Convergencia global
Assumindo uma hip otese sobre desempenho do passo, vamos provar nesta secao
que qualquer sequencia gerada pelo Algoritmo 8.2 tem pelo menos um ponto de acu-
mulac ao estacionario. No decorrer desta se cao procuramos enfatizar as diferencas entre
as propriedades de convergencia que uma escolha particular da regra de ltro proporciona.
Primeiramente, vamos estabelecer as hip oteses necess arias para a an alise de con-
vergencia do Algoritmo 8.2.
H3 A sequencia (x
k
) permanece em um conjunto convexo e compacto X IR
n
.
H4 As funcoes f, c
i
, i c 1, sao duas vezes continuamente diferenciaveis.
H5 Dado um ponto viavel nao estacionario x X, existem M > 0 e uma vizinhanca V
de x tal que se x
k
V , entao
f(x
k
) f(x
k+1
) Mv
k
,
onde v
k
= min
_
1, min
_
(1 )h
j
[
_
f
j
, h
j
_
F
k
__
e denido como a altura do ltro.
As duas primeiras hipoteses sao classicas e, embora H3 seja uma hip otese sobre a
sequencia gerada pelo algoritmo, esta pode ser garantida incluindo restri coes de caixa ao
problema. Por outro lado, a Hipotese H5, proposta por Ribeiro, Karas e Gonzaga [46],
assume que o passo deve ser eciente no sentido de que, perto de um ponto viavel nao
estacion ario, a reduc ao na fun cao objetivo e relativamente grande.
Considere o conjunto das iterac oes h dado por
/
a
=
_
k IN [
_
f
k
, h
k
_
e adicionado ao ltro
_
. (8.14)
No lema a seguir vamos mostrar o que acontece quando este conjunto e innito.
Lema 8.6 Suponha que as Hipoteses H3 e H4 sejam satisfeitas. Se o conjunto /
a
e
innito, entao
h(x
k
)
K
a
0.
Demonstracao. Assuma por contradic ao que, para algum > 0, o conjunto
/ =
_
k /
a
[ h(x
k
)
_
e innito. A suposi cao de compacidade em H3 e a continuidade de (f, h), assegurada por
H4, garantem que existe uma subsequencia convergente (f
k
, h
k
)
kK
1
, /
1
/. Portanto,
como (0, 1), podemos tomar ndices j, k /
1
, com j < k tais que
_
_
(f
k
, h
k
) (f
j
, h
j
)
_
_
<

2

h(x
j
)
2
.
Este resultado implica em x
k

T
j
= T
j+1
(veja a Figura 8.5), o que e uma contradic ao,
uma vez que, devido ao criterio de atualizac ao do ltro e ` a denicao de

T, temos que
x
k
/

T
k1
T
k
T
j+1
.
Vamos provar agora que a sequencia (x
k
) tem um ponto de acumulac ao vi avel.
Lema 8.7 Suponha que as Hipoteses H3 e H4 sejam satisfeitas e considere a sequencia
(x
k
)
kIN
gerada pelo Algoritmo 8.2. Entao, existe um conjunto innito IN
IN tal que
h(x
k
)
IN
0.
Demonstracao. Se /
a
e innito, este resultado segue diretamente do Lema 8.6 e, nesse
caso, IN
= /
a
. Por outro lado, se /
a
e nito, existe k
0
IN tal que toda iterac ao k k
0
e uma iterac ao f. Deste modo, (f(x
k
))
kk
0
e decrescente e, pelas Hip oteses H3 e H4,
f(x
k
) f(x
k+1
) 0. (8.15)
h
f
j
k
Figura 8.5: Ilustracao auxiliar para o Lema 8.6.
Considere agora o conjunto
/
1
=
_
k IN [ h(x
j
) < f(x
k
) f(x
k+1
)
_
onde j = k se usamos o ltro original e j = k + 1 se o ltro inclinado e usado. Se
/
1
e nito, existe k
1
IN tal que h(x
k+1
) < (1 )h(x
k
) para todo k k
1
, o que
implica em h(x
k
) 0. Caso contr ario, usando (8.15) conclumos que h(x
k
)
IN
0, com
IN
= /
1
ou IN
= k + 1 [ k /
1
, dependendo da regra de ltro, original ou inclinado,
respectivamente. De qualquer modo, (x
k
)
kIN
tem um ponto de acumulac ao viavel.
No lema a seguir apresentamos um resultado de convergencia para pontos vi aveis
mais forte do que o apresentado no lema anterior. Este resultado, cuja prova e dada
em [26], estabelece que se a regra de ltro inclinado e usada, ent ao qualquer ponto de
acumula cao da sequencia gerada pelo algoritmo e viavel. Isto tambem e provado por Chin
e Fletcher [5] e por Fletcher, Leyer e Toint [11], assumindo que um n umero innito de
pares (f
j
, h
j
) s ao adicionados ao ltro. J a Karas, Oening e Ribeiro [26] n ao fazem esta
exigencia.
Lema 8.8 Suponha que as Hipoteses H3 e H4 sejam satisfeitas e considere a sequencia
(x
k
)
kIN
gerada pelo Algoritmo 8.2, com 1
k
e denido por (8.13). Entao h(x
k
) 0 e,
consequentemente, qualquer ponto de acumulacao da sequencia (x
k
) e viavel.
Demonstracao. [26, Teorema 2.3].
O proximo lema mostra que se x e um ponto n ao estacionario, em uma vizinhanca
de x, toda iterac ao k e uma iterac ao do tipo f.
Lema 8.9 Suponha que as Hipoteses H3 e H5 sejam satisfeitas. Se x X e um ponto
nao estacionario, entao nenhuma subsequencia de (x
k
)
kK
a
converge para x.
Demonstracao. Se x e um ponto vi avel, entao pela Hipotese H5 exitem M > 0 e uma
vizinhanca V de x tais que para todo x
k
V ,
f(x
k
) f(x
k+1
) Mv
k
.
Como v
k
> 0, temos que f(x
k+1
) < f(x
k
). Assim, k / /
a
. Agora, assuma que x e invi avel
e suponha por contradic ao que existe um conjunto innito / /
a
tal que x
k
K
x. Como
h e contnua, temos que h(x
k
)
K
h( x). Por outro lado, o Lema 8.6 garante que h(x
k
)
K
0.
Assim, h( x) = 0, o que contradiz a hip otese de que x e invi avel, completando a prova.
Apresentamos a seguir a prova de que o Algoritmo 8.2 e globalmente convergente.
Teorema 8.10 Suponha que as Hipoteses H3 e H5 sejam satisfeitas. Entao a sequencia
(x
k
) tem um ponto de acumulacao estacionario.
Demonstracao. Se /
a
e innito, entao pela Hip otese H3 existem / /
a
e x X tais que
x
k
K
x. Portanto, pelo Lema 8.9, x e estacionario. Caso contrario, existe k
0
IN tal que
toda iterac ao k k
0
e uma iterac ao do tipo f. Deste modo,
_
f(x
k
)
_
kk
0
e decrescente e
por H3 e H4,
f(x
k
) f(x
k+1
) 0. (8.16)
Alem disso, por construc ao do Algoritmo 8.2, temos F
k
= F
k
0
para todo k k
0
. Portanto,
a sequencia (v
k
), denida em H5, satisfaz
v
k
= v
k
0
> 0 (8.17)
para todo k k
0
. Seja x um ponto de acumulac ao vi avel de (x
k
), cuja existencia e
garantida pelo Lema 8.7. Vamos provar que este ponto e estacion ario. Seja / um conjunto
dendices tal que x
k
K
x. Assuma por contradic ao que x e n ao estacion ario. Pela Hip otese
H5, existem M > 0 e uma vizinhanca V de x tal que se x
k
V , ent ao
f(x
k
) f(x
k+1
) Mv
k
.
Como x
k
K
x, ent ao existe k
1
> k
0
tal que para todo k > k
1
, k /, temos x
k
V .
Portanto, para todo k > k
1
, k /, temos f(x
k
) f(x
k+1
) Mv
k
= Mv
k
0
> 0,
contradizendo (8.16).
O Teorema 8.10 estabelece que o Algoritmo 8.2 gera uma sequencia innita (x
k
)
que tem um ponto de acumulacao estacion ario. No entanto, se a regra de ltro inclinado
e usada e se o conjunto /
a
e nito, podemos mostrar que qualquer ponto de acumula cao
da sequencia gerada pelo algoritmo e estacionario. Provamos este resultado no proximo
teorema.
Teorema 8.11 Se /
a
e nito e 1
k
e denido por (8.13), entao qualquer ponto de acu-
mulacao de (x
k
) e estacionario.
Demonstracao. Do Lema 8.8, temos que qualquer ponto de acumulac ao da sequencia (x
k
)
e viavel. Assim, pelos mesmos argumentos usados na prova do Teorema 8.10 quando /
a
e nito, podemos concluir que qualquer ponto de acumulac ao de (x
k
) e estacion ario.
Salientamos que a teoria de convergencia apresentada nesta sec ao s o e valida se
existirem formas de calcular o ponto x
k+1
/

T
k
de modo que a Hipotese H5 seja satisfeita.
De fato, pode-se provar que existem pelo menos duas maneiras de se fazer isso. Uma delas,
baseada em programac ao quadr atica sequencial, pode ser encontrada em [41]. A outra
usa as ideias de restaurac ao inexata [33, 34] e foi estabelecida em [15].
8.1. Mostre que se o par (x
k
,
k
) cumpre as condic oes de KKT para o problema (8.1),
ent ao d = 0 e um ponto estacion ario para o subproblema (8.2). Mostre tambem que se
d = 0 e um ponto estacionario para o subproblema (8.2), ent ao x
k
e um ponto estacion ario
para o problema (8.1).
8.2. No contexto do Teorema 8.2, mostre que a jacobiana da fun cao (x, ) (x, ) e
lipschitziana em uma vizinhanca de (x
).
Apendice: Dicas ou Solucoes dos
Exerccios
Apresentamos aqui dicas ou soluc oes para alguns dos exerccios propostos no
texto. Convem lembrar que tais exerccios tem basicamente tres nalidades. Alguns
servem para xar os conceitos, outros para vericar se o leitor consegue identicar e
aplicar os conhecimentos adquiridos para resolver um determinado problema e outros
ainda servem para complementar a teoria. Em qualquer caso, recomendamos fortemente
que o estudante tente fazer os exerccios antes de ver a solucao de modo a garantir um
aprendizado mais s olido.
Captulo 1
1.6. Temos
x
k+1
x
k
=
2
k+1
(k + 1)!
k!
2
k
=
2
k + 1
0, o que implica na convergencia superlinear.
Alem disso,
x
k+1
(x
k
)
2
=
2
k+1
(k + 1)!
(k!)
2
(2
k
)
2
=
k
k + 1
(k 1)!
2
k1
. Mas podemos vericar por indu cao
que
(k 1)!
2
k1
>
k 1
2
, para todo k 6. Portanto,
x
k+1
(x
k
)
2
.
1.7. Usaremos inducao em (a) e (b).
(a) Temos 1 x
1
2. Supondo agora 1 x
k
2, temos 3 2 + x
k
4. Portanto,
1
2 + x
k
2, ou seja, 1 x
k+1
2.
(b) Temos x
2
=
_
2 +
2 >
2 = x
1
. Alem disso, se x
k+1
> x
k
, ent ao 2 +x
k+1
> 2 +x
k
,
donde segue que x
k+2
=
2 + x
k+1
>
2 + x
k
= x
k+1
.
(c) Pelo que foi provado em (a) e (b), (x
k
) e convergente, digamos x
k
x. Assim,
x
k+1
x e tambem x
k+1
=
2 + x
k
2 + x. Desta forma, temos x =
2 + x, o que
fornece x = 2. Finalmente, para ver que a convergencia e linear, temos
[x
k+1
2[
[x
k
2[
=
2 + x
k
2
x
k
2
=
1
2 + x
k
+ 2
1
4
.
1.8. Note primeiro que Ax = 0 se, e somente se, x = 0. Assim, c = min
y=1
|Ay| > 0, o
169
Dicas ou Solu coes dos Exerccios 170
que signica que |Ax| c|x|, para todo x IR
n
. Portanto,
|y
k+1
y|
|y
k
y|
=
|A(x
k+1
x)|
|A(x
k
x)|

|A||x
k+1
x|
c|x
k
x|
,
provando ent ao que a convergencia superlinear n ao e afetada por transformac oes injetivas.
No entanto, o mesmo n ao se pode armar para a convergencia linear, conforme vemos no
seguinte exemplo. Considere A =
_
1 1
0 1
_
e dena x
2k
=
1
2
k
_
1
1
_
e x
2k+1
=
1
2
k
_
1
2
1
_
.
A sequencia (x
k
) converge linearmente, pois
|x
2k+1
|
|x
2k
|
=
_
5
8
e
|x
2k+2
|
|x
2k+1
|
=
_
2
5
.
No entanto,
|Ax
2k+1
|
|Ax
2k
|
=
5
2
.
1.9. Suponha que X e fechado e considere (x
k
) X tal que x
k
x. Caso x X, temos
x X. Por outro lado, se x / X, ent ao existe uma vizinhanca de x que n ao possui
nenhum ponto do complementar de X. Isto signica que esta vizinhan ca est a contida em
X, provando a necessidade. Reciprocamente, suponha que dada (x
k
) X tal que x
k
x,
temos x X. Vamos provar que X X. Dado x X, temos que existe (x
k
) X tal
que x
k
x. Logo, x X.
1.10. Suponha que X e compacto e considere (x
k
) X. Como X e limitado, a sequencia
(x
k
) tambem e limitada. Pelo Teorema 1.13, existe uma subsequencia convergente, diga-
mos x
k
IN
x. Usando o Exerccio 1.9, temos que x X. Para provar a recproca, note

que a hipotese implica que X e fechado. Alem disso, se X n ao fosse limitado, existiria
uma sequencia (x
k
) X tal que |x
k
| > k, para todo k IN. Tal sequencia n ao poderia
ter uma subsequencia convergente, contradizendo a hip otese.
1.11. Dado > 0, existe k IN tal que |z
k
a| <

2
. Alem disso, como z
k
X,
existem x X e y / X, tais que |x z
k
| <

2
e |y z
k
| <

2
. Portanto, |x a| < e
|y a| < .
1.14. (=) Seja Q =
_
A B
B
T
C
_
, onde A IR
kk
. Se x IR
k
e n ao nulo, ent ao
x
T
Ax =
_
x
T
0
_
_
A B
B
T
C
__
x
0
_
= y
T
Qy > 0.
Portanto, A e denida positiva, o que implica que seus autovalores s ao positivos e assim
det(A) > 0.
(=) Vamos provar por induc ao em n. Para n = 1 n ao ha o que provar. Suponha que
a propriedade e v alida para n 1 e considere Q =
_
A b
b
T
c
_
, onde A IR
(n1)(n1)
,
b IR
n1
e c IR. Assim, os determinantes principais de A s ao positivos. Pela hip otese
de induc ao, A e denida positiva. Dado y IR
n
, caso y
n
= 0, temos
y
T
Qy =
_
x
T
0
_
_
A b
b
T
c
__
x
0
_
= x
T
Ax > 0.
Caso y
n
,= 0, podemos escrever y = y
n
_
x
1
_
. Deste modo temos
y
T
Qy = y
2
n
_
x
T
1
_
_
A b
b
T
c
__
x
1
_
= y
2
n
_
x
T
Ax + 2b
T
x + c
_
.
Para concluir a demonstrac ao basta mostrar que f(x) = x
T
Ax +2b
T
x +c > 0, o que ser a
feito provando que f(x) f(x
) > 0, onde x
= A
1
b. Note que A e de fato inversvel
pois det(A) > 0. Fazendo v = x x
, temos
f(x) = (x
+ v)
T
A(x
+ v) + 2b
T
(x
+ v) + c
= f(x
) + 2v
T
(Ax
+ b) + v
T
Av
= f(x
) + v
T
Av f(x
).
Alem disso,
f(x
) = (x
)
T
Ax
+ 2b
T
x
+ c
= (x
)
T
(b) + 2(x
)
T
b + c
= b
T
x
+ c = c b
T
A
1
b.
Finalmente,
Q =
_
A b
b
T
c
_
=
_
I 0
b
T
A
1
1
__
A b
0 c b
T
A
1
b
_
.
Como (c b
T
A
1
b) det(A) = det(Q) > 0 e det(A) > 0, temos f(x
) = c b
T
A
1
b > 0.
1.15. Temos x
T
Ax = y
T
Dy =
n
i=1
i
y
2
i
, onde y = P
T
x. Como P e inversvel, x ,= 0 se, e
somente se, y ,= 0. Suponha que A e denida positiva. Em particular, para x = Pe
j
,= 0,
temos 0 < x
T
Ax =
j
. Reciprocamente, se todos os autovalores s ao positivos, ent ao
x
T
Ax =
n
i=1
i
y
2
i
> 0, para todo x ,= 0.
1.17. Considere v
1
, . . . , v
n
uma base de autovetores de A e
1
, . . . ,
n
os autovalores
associados. Dado j = 1, . . . , n, armamos que Bv
j
=
j
v
j
. De fato, se nao fosse assim, o
vetor u = Bv
j
j
v
j
seria autovetor de B com um autovalor negativo, pois
Bu = B
2
v
j
j
Bv
j
= A
2
v
j
j
Bv
j
=
2
j
v
j
j
Bv
j
=
j
u.
Portanto, Bv
j
=
j
v
j
= Av
j
, para todo j = 1, . . . , n. Isto signica que A = B.
1.18. Suponha que
_
B A
T
A 0
__
x
y
_
=
_
0
0
_
. Ent ao,
_
Bx + A
T
y = 0
Ax = 0.
Multipli-
cando a primeira equac ao por x
T
e usando a segunda equac ao, obtemos x
T
Bx = 0.
Portanto, a positividade de B no n ucleo de A implica em x = 0. Substituindo na pri-
meira equacao, segue que A
T
y = 0. Finalmente, usando o fato de que as linhas de A s ao
linearmente independentes, obtemos y = 0.
1.19. Para i = 1, . . . , 1 e j = , . . . , n, temos
Av
i
= 0 e v
j
= A
_
1
j
v
j
_
.
Desta forma, [v
1
, . . . , v
1
] ^(A) e [v
, . . . , v
n
] Im(A). Por outro lado, temos
dim(^(A)) + dim(Im(A)) = n, donde segue que
[v
1
, . . . , v
1
] = ^(A) e [v
, . . . , v
n
] = Im(A).
1.20. Temos que Im(A
2
) Im(A) e dim(Im(A
2
)) = dim(Im(A
T
A)) = dim(Im(A)).
Assim, Im(A
2
) = Im(A). Como b Im(A) = Im(A
2
), existe u IR
n
tal que A
2
u = b.
Isto signica que A(Au) + b = 0, ou seja, x
= Au Im(A) e Ax
+ b = 0. Para
provar a unicidade, note que se x
, x Im(A) s ao tais que Ax
+ b = 0 e A x + b = 0,
ent ao x
x Im(A) = Im(A
T
) e A(x
x) = 0. Mas isto signica que x
x = 0. Para
estabelecer a desigualdade, considere v
1
, . . . , v
n
uma base ortonormal de autovetores tal
que v
1
, . . . , v
1
s ao os autovetores associados ao autovalor nulo e v
, . . . , v
n
os autovetores
associados aos autovalores positivos. Denindo P = (v
1
v
n
), D = diag(
1
, . . . ,
n
) e
c = P
T
b, temos que se
z
Im(D) e Dz
+ c = 0, (8.18)
ent ao x
= Pz
Im(A) e Ax
+ b = 0. De fato,
x
= Pz
= PDw
= APw
Im(A)
e
Ax
+ b = P(Dz
+ c) = 0.
Vamos agora encontrar z
satisfazendo (8.18). Dena w
IR
n
por
w
i
=
_
_
_
0, se i = 1, . . . , 1
c
i
2
i
, se i = , . . . , n
e z
= Dw
. Usando o Exerccio 1.19, obtemos b ^(A)
= [v
1
, . . . , v
1
]
. Assim,
c
i
= (v
i
)
T
b = 0, para i = 1, . . . , 1 e, consequentemente, Dz
+ c = 0. Para concluir,
note que
|z
|
2
=
n
i=
_
c
i
i
_
2
i=
c
2
i
=
1
|c|
2
.
Como x
= Pz
, Ax
+ b = 0 e c = P
T
b, temos |x
| = |z
| e |Ax
| = |b| = |c|.
Portanto,
|x
|
2
|b|
2
=
1
|Ax
|
2
.
1.21. Suponha, por absurdo, que para todo k IN, existe x
k
IR
n
com
|Ax
k
| <
1
k
|x
k
|. (8.19)
Ent ao, denindo y
k
=
x
k
|x
k
|
, temos y
k
IN
y, com |y| = 1. Portanto, usando (8.19),

obtemos Ay
k
IN
Ay = 0, contradizendo o fato das colunas de A serem linearmente

independentes.
1.22. Primeiramente, note que dados x, y IR
n
, temos
det(I + xy
T
) = 1 + y
T
x.
De fato, se v y
, ent ao (I +xy
T
)v = v. Alem disso, (I +xy
T
)x = (1+y
T
x)x. Portanto,
a matriz I +xy
T
tem um autovalor = 1, com multiplicidade n1 e o autovalor simples
1 + y
T
x. Para provar a primeira parte do exerccio note que
det(I + Q
1
uv
T
) = 1 + v
T
Q
1
u
e Q + uv
T
e inversvel se, e somente se, a matriz I + Q
1
uv
T
= Q
1
(Q + uv
T
) tambem
e inversvel. Finalmente, para vericar a f ormula para a inversa, basta desenvolver o
produto
(Q + uv
T
)
_
Q
1
Q
1
uv
T
Q
1
1 + v
T
Q
1
u
_
.
1.25. Temos
(t) = f
_
(t)
_
T
(t) =
n
j=1
f
x
i
_
(t)
_
i
(t).
Usando isto, obtemos
(t) =
n
j=1
f
x
i
_
(t)
_
T
(t)
i
(t) +
n
j=1
f
x
i
_
(t)
_
i
(t),
que pode ser escrito como
(t) =
(t)
T
2
f
_
(t)
_
(t) +f
_
(t)
_
T
(t).
Captulo 2
2.3. Temos f(x) = 2
_
2ax
1
(x
2
1
x
2
) + b(x
1
1)
a(x
2
x
2
1
)
_
. Logo, o unico ponto estacion ario
de f e x
=
_
1
1
_
. Alem disso,
2
f(x) = 2
_
6ax
2
1
2ax
2
+ b 2ax
1
2ax
1
a
_
e portanto,
2
f(x
) = 2
_
4a + b 2a
2a a
_
> 0, o que signica que x
e minimizador local de f. A
ultima parte do exerccio decorre de det
_
2
f(x)
_
= 8a
2
(x
2
1
x
2
) + 4ab.
2.4. Suponha por absurdo que x
n ao seja um minimizador global de f. Entao existe

x IR
n
tal que f( x) < f(x
). Considere A = x IR
n
[ f(x) f
. O conexo [x
, x] tem
um ponto de A e um ponto de A
c
. Pelo Teorema da Alf andega, existe y [x
, x] A.
Vejamos que f(y) = f
. De fato, existem sequencias (y

k
) A e (z
k
) A
c
tais que y
k
y
e z
k
y. Portanto, f(y
k
) f(y) e f(z
k
) f(y). Como f(y
k
) f
e f(z
k
) < f
, temos
f(y) = f
. Alem disso, y n ao e minimizador local, pois f(z

k
) < f
= f(y).
Outra solu cao (sem usar o Teor. da Alf andega). Dena g : [0, 1] IR por g(t) = f
_
x(t)
_
,
onde x(t) = (1 t)x
+t x. Seja t
= sup t [0, 1] [ g(t) f
. Temos g(t
) f
. Alem
disso, g(1) < f
, o que implica t
< 1. Entao existe uma sequencia (s

k
) (t
, 1] com
s
k
t
. Portanto g(s
k
) < f
e, por continuidade, g(t
) f
. Conclumos assim que

x
= x(t
) satisfaz f(x
) = f
, mas n ao e minimizador local, pois f

_
x(s
k
)
_
< f
.
2.5. Temos f(x) =
_
cos x
1
sin x
2
+ 2x
1
e
u
sin x
1
cos x
2
+ 2x
2
e
u
_
e
2
f(x) =
_
sin x
1
sin x
2
+ 2e
u
(1 + 2x
2
1
) cos x
1
cos x
2
+ 4x
1
x
2
e
u
cos x
1
cos x
2
+ 4x
1
x
2
e
u
sin x
1
sin x
2
+ 2e
u
(1 + 2x
2
2
)
_
onde u = x
2
1
+ x
2
2
. O ponto x e estacion ario, pois f( x) = 0. Alem disso, temos
2
f( x) =
_
2 1
1 2
_
denida positiva, garantindo que x e minimizador local de f.
2.6. Temos f(x) =
_
2(x
1
+ x
2
) + 3x
2
1
2(x
1
+ x
2
)
_
. Assim, f(x) = 0 se, e somente se, x = 0.
Alem disso, temos f
_
t
t
_
= t
3
, o que signica que x = 0 e um ponto de sela. Note que
2
f(0) =
_
2 2
2 2
_
e semidenida positiva, n ao permitindo concluir que o ponto e sela
usando o Teorema 2.16.
2.7. Temos f(x) =
_
2x
1
x
2
2
2x
2
2x
1
x
2
_
e
2
f(x) =
_
2 2x
2
2x
2
2 2x
1
_
. Portanto,
2
f(x)
e denida positiva se, e somente se, x
1
< 1 x
2
2
. Veja a Figura 8.6.
Figura 8.6: Ilustracao do Exerccio 2.7.
2.8. Temos f(x) =
_
2x
1
x
2
2 + e
u
x
1
+ 4x
2
+
2
3
+ e
u
_
e
2
f(x) =
_
2 + e
u
1 + e
u
1 + e
u
4 + e
u
_
, onde
u = x
1
+ x
2
.
(a) f( x) = 0. Logo, x e um ponto estacionario de f.
(b)
2
f( x) =
_
3 0
0 5
_
> 0. Logo, x e minimizador local de f.
2.11. Temos que L ,= , pois a L. Alem disso, como f e contnua, L e fechado. Resta
ver que e limitado. Como lim
x
f(x) = , existe r > 0 tal que f(x) > f(a), sempre que
|x| > r. Portanto, se x L, entao |x| r, isto e, L B[0, r].
n
IR dada por f(x) = |Ax| e S = x IR
n
[ |x| = 1. Como f
e contnua e S e compacto, existe x
S tal que f(x
) f(x), para todo x S. Como as

colunas de A s ao linearmente independentes, temos f(x
) = |Ax
| > 0. Assim, denindo

c = |Ax
|, temos |Ax| c, para todo x S. Dado x IR

n
0, temos
x
|x|
S.
Portanto, |Ax| c|x|.
Captulo 3
3.1. Provaremos que se B(y, ) C, t (0, 1] e z = (1 t)x + ty, ent ao B(z, t) C.
Veja a Figura 8.7. Tome w B(z, t). Sabemos que existe (x
k
) C tal que x
k
x.
Denindo q
k
=
1
t
w
1t
t
x
k
, temos w = (1 t)x
k
+ tq
k
e q
k
1
t
w
1t
t
x. Alem disso,
|
1
t
w
1t
t
xy| =
1
t
|w(1t)xty| < . Portanto, existe k
0
IN tal que |q
k
0
y| < ,
o que implica que q
k
0
C. Consequentemente, w = (1 t)x
k
0
+ tq
k
0
C.
3.2. Dados a, b int(C) e t [0, 1], considere c = (1 t)a + tb. Vamos mostrar que
c int(C). Seja > 0 tal que B(a, ) C e B(b, ) C. Dado z B(c, ), temos que
x = a +(z c) B(a, ) e y = b +(z c) B(b, ). Veja a Figura 8.8. Pela convexidade
de C, temos que z = (1 t)x + ty C.
z
x
y
q
k
x
k
w
a
b c
z x y
3.3. Dados u = T(x), v = T(y) T(C) e t [0, 1], temos
(1 t)u + tv = T
_
(1 t)x + ty
_
T(C),
pois (1 t)x + ty C.
3.4. Dados x, y S e t [0, 1], temos x = limx
k
e y = limy
k
, com x
k
, y
k
S. Assim,
(1 t)x + ty = lim
_
(1 t)x
k
+ ty
k
_
S,
pois (1 t)x
k
+ ty
k
S.
3.5. Denotando z = proj
S
(z) e aplicando o Teorema 3.7, temos que
(x x)
T
( y x) 0 e (y y)
T
( x y) 0.
Portanto,
| x y|
2
( x y)
T
(x y) = ( x y)
T
( x x + y y) 0.
O resultado segue aplicando a desigualdade de Cauchy-Schwarz.
3.6. Dados x + d, x + v L e t [0, 1], temos
(1 t)( x + d) + t( x + v) = x + (1 t)d + tv L,
pois (1 t)d +tv S, provando que L e convexo. Considere agora x
k
= x +d
k
L, com
x
k
x. Ent ao, d
k
= x
k
x x x S pois S e fechado. Assim, x = x + x x L, o
que prova que L e fechado. Finalmente, seja x +

d = proj
L
(a). Assim,
|
d (a x)| = | x +

d a| | x + d a| = |d (a x)|,
para todo d S, ou seja, proj
S
(a x) =

d = proj
L
(a) x.
3.7. Como 0 e 2 z s ao elementos de S, pelo Teorema 3.7, temos que
(z z)
T
(0 z) 0 e (z z)
T
(2 z z) 0,
o que implica em (z z)
T
z = 0. Seja agora d S arbitr ario. Entao,
(z z)
T
d = (z z)
T
(d z + z) = (z z)
T
(d z) 0.
Trocando d por d, obtemos (z z)
T
d = 0.
3.8. Note primeiro que dado x L, temos L = x + ^(A). De fato, dado x L, temos
x x ^(A). Alem disso, dado d ^(A), temos x+d L. Em particular, como A tem
posto linha completo, x = A
T
(AA
T
)
1
b L. Portanto, usando o Exerccio 3.6, temos
que
proj
L
(a) = x + proj
N(A)
(a x). (8.20)
Para calcular a projec ao no n ucleo, note que se z = proj
N(A)
(z), entao o Exerccio 3.7 nos
garante que
z z ^(A)
= Im(A
T
).
Assim, z z = A
T
, o que resulta em z = z A
T
(AA
T
)
1
Az. Finalmente, por (8.20),
proj
L
(a) = x + a x A
T
(AA
T
)
1
A(a x) = a A
T
(AA
T
)
1
(Aa + b).
3.11. A func ao f : IR IR, dada por f(x) = x
4
e convexa, pois f
(x) = 12x
2
0.
Portanto,
f(t
1
x
1
+ t
2
x
2
+ t
3
x
3
+ t
4
x
4
) t
1
f(x
1
) + t
2
f(x
2
) + t
3
f(x
3
) + t
4
f(x
4
),
para todos t
1
, . . . , t
4
tais que t
j
0 e
4
j=1
t
j
= 1. Em particular, para t
1
=
1
2
, t
2
=
1
3
,
t
3
=
1
12
e t
4
=
1
12
, temos
_
x
1
2
+
x
2
3
+
x
3
12
+
x
4
12
_
4
x
4
1
2
+
x
4
2
3
+
x
4
3
12
+
x
4
4
12
.
3.13. Suponha primeiro f convexa e considere
_
x
y
_
,
_
u
v
_
epi(f) e t [0, 1]. Portanto,
(1 t)
_
x
y
_
+ t
_
u
v
_
=
_
(1 t)x + tu
(1 t)y + tv
_
epi(f),
pois
(1 t)y + tv (1 t)f(x) + tf(u) f
_
(1 t)x + tu
_
.
Reciprocamente, supondo agora que epi(f) e convexo, considere x, u C e t [0, 1].
Como
_
x
f(x)
_
,
_
u
f(u)
_
epi(f), temos que
_
(1 t)x + tu
(1 t)f(x) + tf(u)
_
= (1 t)
_
x
f(x)
_
+ t
_
u
f(u)
_
epi(f).
Isto signica que f
_
(1 t)x + tu
_
(1 t)f(x) + tf(u).
3.15. Temos f(x) =
_
2x
1
x
2
2 + e
u
x
1
+ 4x
2
+
2
3
+ e
u
_
e
2
f(x) =
_
2 + e
u
1 + e
u
1 + e
u
4 + e
u
_
, onde
u = x
1
+ x
2
. Assim,
2
f(x) e denida positiva, para todo x IR
2
, pois 2 + e
u
> 0 e
det
_
2
f(x)
_
= 7 + 8e
u
> 0.
3.16. Note primeiro se e um autovalor de A, com autovetor v, entao
f(tv) =
1
2
t
2
v
T
v + tb
T
v.
Como f e limitada inferiormente, temos 0. Para provar a outra armacao, considere
w ^(A). Assim, f(tw) = tb
T
w e portanto, usando novamente a limita cao de f,
conclumos que b
T
w = 0. Isto signica que b ^(A)
= Im(A
T
) = Im(A), ou seja, existe
y
IR
n
tal que Ay
= b. Denindo x
= y
, temos f(x
) = Ax
+ b = 0. Portanto,
usando o Teorema 3.13, segue que x
e um minimizador global de f.
3.17. Como Im(A
2
) Im(A) e dim(Im(A
2
)) = dim(Im(A
T
A)) = dim(Im(A)), temos que
Im(A
2
) = Im(A). Pelo Exerccio 3.16, b Im(A) = Im(A
2
). Assim, existe u IR
n
tal que
A
2
u = b. Isto signica que A(Au) + b = 0, ou seja, x
= Au Im(A) e Ax
+ b = 0.
Para provar a unicidade, note que se x
, x Im(A) sao tais que Ax
+b = 0 e A x+b = 0,
ent ao x
x Im(A) = Im(A
T
) e A(x
x) = 0. Mas isto signica que x
x = 0.
3.18. Considere primeiro f(x) = x
2
. Como y
2
2xy + x
2
0, temos que
f(y) = y
2
x
2
+ 2x(y x) = f(x) + f
(x)(y x).
Isto garante que f e convexa pelo Teorema 3.13. Alem disso, como f
(x) = 2 > 0, a
convexidade de f tambem segue do Teorema 3.16. Agora vejamos a func ao f(x) = e
x
.
Temos que e
d
1 + d, para todo d IR. Portanto, e
x+d
e
x
(1 + d). Assim,
f(y) = e
x+(yx)
e
x
+ e
x
(y x) = f(x) + f
(x)(y x),
provando que f e convexa pelo Teorema 3.13. Alem disso, como f
(x) = e
x
> 0, o
Teorema 3.16 garante a convexidade de f.
Captulo 4
4.2. Temos f( x)
T
d = d
1
. Caso d
1
< 0, podemos aplicar o Teorema 4.2 para concluir
o que se pede. Para d
1
= 0 temos f( x + td) = f
_
1
td
2
_
= f( x) +
(td
2
)
2
2
. Portanto, a
func ao cresce ao longo de d.
4.3. (a) Note que f(x + v) f(x) =
1
2
v
T
Av + f(x)
T
v. Assim, como f(x)
T
d = 0,
temos
f(x + td) f(x) =
t
2
2
d
T
Ad 0,
para todo t IR. Portanto, a fun cao cresce ao longo de d.
(b) Considere (t) = f(x + td). Ent ao,
(t) = f(x + td)

T
d =
_
A(x + td) + b
_
T
d = f(x)
T
d + td
T
Ad.
Igualando a zero, temos o resultado desejado.
(c) Temos f(x+td) f(x) =
t
2
2
d
T
Ad +tf(x)
T
d. Assim, a condicao de Armijo pode ser
reescrita como
(t
)
2
2
d
T
Ad + t
f(x)
T
d t
f(x)
T
d.
Mas t
=
f(x)
T
d
d
T
Ad
, o que implica (t
)
2
d
T
Ad = t
f(x)
T
d. Portanto,
1
2
t
f(x)
T
d t
f(x)
T
d.
Como t
f(x)
T
d < 0, temos que
1
2
.
4.4. Seja o autovalor associado a v. Note que d = (Ax +b) = Av = v. Assim, o
passo otimo e dado por t
=
f(x)
T
d
d
T
Ad
=
1
e o ponto obtido pela busca e

x + t
d = x
+ v +
1
d = x
.
A interpretac ao deste exerccio e que se zermos uma busca exata, a partir de um vertice de
um elipsoide (curva de nvel de f), na direcao oposta ao gradiente, obtemos o minimizador
da quadratica em uma iteracao.
4.5. Veja a demonstrac ao do Teorema 2.16.
Captulo 5
5.1. Dena, para cada j = 1, ..., n,
j
(t) = f( x + td
j
). Como t = 0 e minimizador de
j
, temos f( x)
T
d
j
=
j
(0) = 0. Mas d
1
, ..., d
n
IR
n
s ao linearmente independentes,
implicando em f( x) = 0. Tal condic ao n ao garante que f tem um mnimo local em x.
De fato, considere f(x) = x
2
1
x
2
2
, x = 0, d
1
=
_
1
0
_
e d
2
=
_
2
1
_
. Sabemos que x e um
ponto de sela, mas
1
(t) = f( x + td
1
) = t
2
e
2
(t) = f( x + td
2
) = 3t
2
tem mnimo em
t = 0. Reveja o Exemplo 2.13.
5.2. Temos x
k+1
x, donde segue que t
k
f(x
k
) = x
k
x
k+1
0. Por outro lado, a
sequencia
_
1
t
k
_
e limitada, pois 0 <
1
t
k
t
. Assim,
f(x
k
) =
1
t
k
t
k
f(x
k
) 0.
Mas f(x
k
) f( x). Logo, f( x) = 0.
5.3. Considere f(x) = x
2
e d = f
(x) = 2x. A condic ao de Armijo com =

1
2
e dada
por
(x + td)
2
< x
2
+
1
2
t(2x)(2x) (8.21)
ou, equivalentemente, 2txd + t
2
d
2
< 2tx
2
. Como d = 2x e t deve ser positivo, segue
que qualquer t <
1
2
satisfaz a relac ao (8.21). Denindo x
0
= 1 e escolhendo t
k
=
1
2
k+2
,
obtemos
x
k+1
= x
k
+
1
2
k+2
(2x
k
) = x
k
_
1
1
2
k+1
_
.
Note que x
k
=
_
1
1
2
__
1
1
2
2
_

_
1
1
2
k
_
e (x
k
) e uma sequencia decrescente de
n umeros positivos. Vamos provar que x = lim
k
x
k
> 0, o que signica que x n ao e esta-
cion ario. Primeiramente note que por ser g(x) = ln(x) uma funcao convexa, tomando
x
_
1
2
, 1
_
, temos x = (1 s)
1
2
+ s, com s [0, 1], 1 s = 2(1 x) e
g(x) (1 s)g
_
1
2
_
+ sg(1) = 2(1 x) ln 2 = (1 x) ln 4.
Assim,
g(x
k
) =
k
j=1
g
_
1
1
2
j
_
<
k
j=1
_
1
2
j
_
ln 4 < ln 4
j=1
1
2
j
= ln 4
e, consequentemente, x
k
=
1
exp
_
g(x
k
)
_ >
1
4
. Deste modo, x = lim
k
x
k
1
4
.
5.4. Temos f(x) =
_
2x
1
4
8x
2
8
_
e
2
f(x) =
_
2 0
0 8
_
. Portanto, o minimizador de f
e o ponto x
=
_
2
1
_
. Como f(0) =
_
4
8
_
e, pelo Lema 5.1, f(x
k+1
)
T
f(x
k
) = 0,
temos que qualquer vetor f(x
k
) ou tem as duas componentes nulas ou as duas n ao
nulas. Vamos ver que a primeira opcao nunca ocorre. Suponha por absurdo que exista
um ndice k IN tal que f(x
k+1
) = 0. Sem perda de generalidade, vamos supor que
este e o primeiro ndice com tal propriedade. Assim, x
k
t
k
f(x
k
) = x
k+1
= x
, ou seja,
_
x
k
1
2
x
k
2
1
_
=
_
2t
k
(x
k
1
2)
8t
k
(x
k
2
1)
_
.
Portanto, x
k
1
2 = 0 ou x
k
2
1 = 0, pois do contr ario teramos 2t
k
= 1 e 8t
k
= 1. Con-
clumos entao que f(x
k
) =
_
2x
k
1
4
8x
k
2
8
_
tem uma coordenada nula e, consequentemente,
f(x
k
) = 0, contradizendo o fato de k ser o primeiro ndice tal que f(x
k+1
) = 0. Isto
prova que n ao temos convergencia com um n umero nito de passos. Entretanto, se o
ponto inicial for da forma
_
a
1
_
ou
_
2
b
_
, ent ao basta um passo para obter a solu cao.
De fato, considerando x =
_
a
1
_
, temos f(x) =
_
2a 4
0
_
e, usando o Exerccio 4.3,
obtemos t =
1
2
. Desta forma, x
+
= x tf(x) =
_
2
1
_
= x
. O outro caso e analogo.

Veja a Figura 8.9.
1 0 1 2 3 4 5
1
0
1
2
3
1 0 1 2 3 4 5
1
0
1
2
3
5.5. Note primeiro que v = x
1
x
0
= tf(x
0
), com t ,= 0. Alem disso, como x
1
e a
soluc ao, temos Ax
1
+ b = 0. Assim,
Av = A(x
1
x
0
) = (Ax
1
+ b) (Ax
0
+ b) = f(x
0
) =
1
t
v.
5.6. Temos f(x) = h(x + x
) e
2
f =
2
h = A. Alem disso,
x
k+1
= x
k
f(x
k
)
T
f(x
k
)
f(x
k
)
T
Af(x
k
)
f(x
k
).
Somando x
e notando que f(x

k
) = h(x
k
+ x
) = h(y
k
), obtemos
y
k+1
= y
k
h(y
k
)
T
h(y
k
)
h(y
k
)
T
Ah(y
k
)
h(y
k
).
5.8. Temos f(x) =
_
x
1
x
3
2
x
2
_
e
2
f(x) =
_
1 0
0 3x
2
2
1
_
.
(a) Os pontos estacionarios de f s ao x =
_
0
0
_
, x
=
_
0
1
_
e x =
_
0
1
_
. Alem disso,
2
f e indenida em x, o que signica que este e um ponto de sela, e denida positiva em
x
e x, donde segue que estes dois s ao minimizadores locais.

(b) No ponto x
0
, a direc ao de Cauchy e d
0
= f(x
0
) =
_
1
0
_
. Desta forma, o novo
ponto e x
1
= x
0
+ t
0
d
0
=
_
1 t
0
0
_
.
(c) Note que se x =
_
a
0
_
, entao d = f(x) =
_
a
0
_
e
f(x + td) =
1
2
(1 t)
2
a
2
.
Portanto, a busca exata fornece t = 1 e x
+
= x+d = x. Ou seja, uma iterac ao do metodo
de Cauchy encontra o ponto estacion ario x.
5.9. Sendo f(x) = x
2
a, o metodo de Newton para resolver f(x) = 0 e dado por
x
k+1
= x
k
1
f
(x
k
)
f(x
k
) = x
k
1
2x
k
_
(x
k
)
2
a
_
=
1
2
_
x
k
+
a
x
k
_
.
Vamos agora calcular
5, partindo de x
0
= 2. Temos x
1
=
1
2
_
2 +
5
2
_
= 2, 25,
x
2
=
1
2
_
2, 25 +
5
2, 25
_
2, 2361 e x
3
=
1
2
_
2, 2361 +
5
2, 2361
_
2, 23606.
5.10. Como f(x) = f(x), f e uma func ao par. Assim, seu gr aco e simetrico em rela cao
ao eixo vertical. Portanto, para que ocorra a situacao ilustrada, o ponto de Newton a
partir de x deve ser x, isto e, x
f(x)
f
(x)
= x. Tal equac ao se reduz a 7x
2
= 3. Ent ao,
se o ponto inicial for
_
3
7
ou
_
3
7
, teremos a divergencia do metodo de Newton ilustrada
na Figura 5.12.
5.11. Temos f(x) =
_
2x
1
(x
2
1
x
2
) + x
1
1
x
2
x
2
1
_
e
2
f(x) =
_
6x
2
1
2x
2
+ 1 2x
1
2x
1
1
_
.
Assim, f(x) = 0 se, e somente se, x
1
= 1 e x
2
= 1. Alem disso,
2
f
_
1
1
_
=
_
5 2
2 1
_
e denida positiva, donde segue que x
=
_
1
1
_
e minimizador local. O passo de Newton
a partir de x
0
e dado por
d =
_
2
f(x
0
)
_
1
f(x
0
) =
_
21 4
4 1
_
1
_
9
2
_
=
1
5
_
1
6
_
e o novo ponto e x
1
= x
0
+ d =
1
5
_
9
16
_
. Note que f(x
0
) =
5
2
e f(x
1
) =
401
1250
, ou seja,
o passo produziu um ponto mais longe da soluc ao mas reduziu a func ao objetivo. Veja a
Figura 8.10.
0.5 0 0.5 1 1.5 2 2.5
1
0
1
2
3
4
x
*
x
0
x
1
Figura 8.10: Ilustrac ao do Exerccio 5.11.
5.13. Dena : IR
r
IR por () = f( x + S). Um minimizador
+
de satisfaz
S
T
f( x + S
+
) = (
+
) = 0. (8.22)
Substituindo a expressao de f, obtemos
S
T
f( x) + S
T
AS
+
= S
T
_
A( x + S
+
) + b
_
= 0.
Note que para qualquer ,= 0, temos S ,= 0, pois as colunas de S s ao linearmente
independentes. Como A e denida positiva, S
T
AS tambem e denida positiva e portanto
inversvel. Assim,
+
= (S
T
AS)
1
S
T
f( x).
Alem disso, a positividade de S
T
AS =
2
implica que e estritamente convexa, donde
segue que
+
e o minimizador de . Portanto,
x
+
= x + S
+
e o minimizador de f na variedade linear V . Isto prova a primeira armac ao. A outra
armac ao segue diretamente de (8.22).
5.15. Como x
k
x
0
+ [d
0
, d
1
, . . . , d
k1
] x
0
+ [d
0
, d
1
, . . . , d
k
], o Exerccio 5.14 garante
que
x
k
+ [d
0
, d
1
, . . . , d
k
] = x
0
+ [d
0
, d
1
, . . . , d
k
]
e portanto podemos tomar x = x
k
no Exerccio 5.13 e escrever
x
k+1
= x
k
S
k
(S
T
k
AS
k
)
1
S
T
k
f(x
k
).
Alem disso, tomando x = x
k1
, obtemos S
T
k1
f(x
k
) = 0, donde segue que
S
T
k
f(x
k
) =
_
0
(d
k
)
T
f(x
k
)
_
.
5.16. Temos
S
T
k
AS
k
=
_
_
_
_
(d
0
)
T
.
.
.
(d
k
)
T
_
_
_
_
A(d
0
d
k
) =
_
_
_
_
(d
0
)
T
Ad
0
0
.
.
.
.
.
.
.
.
.
0 (d
k
)
T
Ad
k
_
_
_
_
.
Portanto, pela ultima parte do Exerccio 5.15, obtemos
(S
T
k
AS
k
)
1
S
T
k
f(x
k
) =
_
_
0
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
_
_
IR
k+1
.
Assim, novamente aplicando o referido exerccio,
x
k+1
= x
k
(d
0
d
k
)
_
_
0
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
_
_
= x
k
_
f(x
k
)
T
d
k
(d
k
)
T
Ad
k
_
d
k
.
Para concluir, denindo : IR IR por (t) = f(x
k
+ td
k
), temos
(t
k
) = f(x
k
+ t
k
d
k
)
T
d
k
=
_
A(x
k
+ t
k
d
k
) + b
_
T
d
k
= f(x
k
)
T
d
k
+ t
k
(d
k
)
T
Ad
k
= 0,
donde segue que x
k+1
e obtido por uma busca exata a partir de x
k
, na dire cao d
k
.
5.18. Temos p = H
+
q = Hq + auu
T
q + bvv
t
q, o que signica que
a(u
T
q)u + b(v
t
q)v = p Hq. (8.23)
Uma possvel escolha e a(u
T
q)u = p e b(v
t
q)v = Hq. Multiplicando por q
T
, obtemos
a(u
T
q)
2
= p
T
q e b(v
t
q)
2
= q
T
Hq.
Assim, considerando a = 1 e b = 1, temos que
u =
p
u
T
q
=
p
_
p
T
q
e v =
Hq
v
T
q
=
Hq
_
q
T
Hq
.
Portanto,
H
+
= H + auu
T
+ bvv
t
= H +
pp
T
p
T
q

Hqq
T
H
q
T
Hq
.
5.19. Vamos provar por induc ao em k. Como H
0
= I, temos
H
0
q
0
= q
0
= f(x
1
) f(x
0
) [f(x
0
), f(x
1
)].
Supondo agora que o resultado e valido ate k 1, vamos provar que vale para k. Note
que
H
k
= I +
k1
j=0
p
j
(p
j
)
T
(p
j
)
T
q
j

k1
j=0
H
j
q
j
(q
j
)
T
H
j
(q
j
)
T
H
j
q
j
.
Assim, utilizando o Teorema 5.31 (iv), obtemos
H
k
q
k
= q
k
k1
j=0
j
H
j
q
j
,
onde
j
=
(q
j
)
T
H
j
q
k
(q
j
)
T
H
j
q
j
. Como q
k
= f(x
k+1
) f(x
k
), segue da hip otese de induc ao que
H
k
q
k
[f(x
0
), f(x
1
), . . . , f(x
k+1
)].
5.20. Vejamos primeiro que
[d
0
, d
1
, . . . , d
k
] [f(x
0
), f(x
1
), . . . , f(x
k
)]. (8.24)
Tambem faremos por indu cao em k. Para k = 0, temos
d
0
= H
0
f(x
0
) = f(x
0
) [f(x
0
)].
Suponha agora que a inclus ao e v alida para k. Vamos provar que vale para k +1. Temos
H
k+1
= I +
k
j=0
p
j
(p
j
)
T
(p
j
)
T
q
j

k
j=0
H
j
q
j
(q
j
)
T
H
j
(q
j
)
T
H
j
q
j
.
Portanto, utilizando o Teorema 5.31 (ii), obtemos
d
k+1
= H
k+1
f(x
k+1
) = f(x
k+1
) +
k
j=0
j
H
j
q
j
,
onde
j
=
(q
j
)
T
H
j
f(x
k+1
)
(q
j
)
T
H
j
q
j
. Pelo que provamos no Exerccio 5.19,
H
j
q
j
[f(x
0
), f(x
1
), . . . , f(x
k+1
)],
para todo j = 0, 1, . . . , k. Assim,
d
k+1
[f(x
0
), f(x
1
), . . . , f(x
k+1
)].
Finalmente, pelo Teorema 5.31 (iii), temos que os vetores d
0
, d
1
, . . . , d
k
s ao A-conjugados
e consequentemente
dim
_
[d
0
, d
1
, . . . , d
k
]
_
= k + 1,
que junto com (8.24) nos fornece
[d
0
, d
1
, . . . , d
k
] = [f(x
0
), f(x
1
), . . . , f(x
k
)].
5.21. Temos que provar que dado x
0
IR
n
, vale
x
j
D
= x
j
G
,
para todo j = 1, . . . , k, onde x
1
D
, . . . , x
k
D
s ao os pontos obtidos pelo metodo DFP (com
H
0
= I) e x
1
G
, . . . , x
k
G
s ao os pontos obtidos pelo algoritmo de gradientes conjugados (GC).
Novamente vamos usar induc ao em k. Como d
0
= f(x
0
) tanto para DFP quanto para
GC, temos x
1
D
= x
1
G
, o que prova o resultado para k = 1. Suponha agora que a armacao
e v alida para k. Vamos provar que vale para k + 1. Para simplicar a notacao vamos
escrever para j = 1, . . . , k,
x
j
= x
j
D
= x
j
G
.
Pelo Exerccio 5.20, as direcoes (conjugadas) geradas pelo metodo DFP satisfazem
[d
0
D
, d
1
D
, . . . , d
k
D
] = [f(x
0
), f(x
1
), . . . , f(x
k
)]
e as geradas pelo algoritmo de gradientes conjugados cumprem
[d
0
G
, d
1
G
, . . . , d
k
G
] = [f(x
0
), f(x
1
), . . . , f(x
k
)],
em virtude do Teorema 5.20. Portanto, pelo Teorema 5.16, temos que x
k+1
D
e x
k+1
G
mini-
mizam f na variedade
x
0
+ [f(x
0
), f(x
1
), . . . , f(x
k
)].
Como f e estritamente convexa, temos que
x
k+1
D
= x
k+1
G
.
5.22. Note primeiro que a matriz
Q = B +
qq
T
p
T
q
e inversvel, pois e soma de duas matrizes denidas positivas. Aplicando a f ormula de
Sherman-Morrison que vimos no Exerccio 1.22 e lembrando que B
1
= H, obtemos
Q
1
= B
1
B
1
qq
T
B
1
p
T
q + q
T
B
1
q
= H
Hqq
T
H
p
T
q + q
T
Hq
. (8.25)
Assim, fazendo r = p
T
q + q
T
Hq, temos
Q
1
B = I
Hqq
T
r
, BQ
1
= I
qq
T
H
r
e BQ
1
B = B
qq
T
r
. (8.26)
Considere agora u =
Bp
p
T
Bp
e v = Bp. Desta forma,
B
+
= Q + uv
T
. (8.27)
Usando (8.26), segue que
1 + v
T
Q
1
u =
p
T
Bp p
T
BQ
1
Bp
p
T
Bp
=
(p
T
q)
2
r(p
T
Bp)
,= 0,
o que nos permite aplicar a f ormula de Sherman-Morrison em (8.27) para obter
H
+
= Q
1
Q
1
uv
T
Q
1
1 + v
T
Q
1
u
= Q
1
+
r(Q
1
Bpp
T
BQ
1
)
(p
T
q)
2
. (8.28)
Por (8.26), temos
r(Q
1
Bpp
T
BQ
1
) = rpp
T
p
T
q
_
pq
T
H + Hqp
T
_
+
(p
T
q)
2
r
Hqq
T
H,
que substituindo junto com (8.25) em (8.28), nos fornece
H
+
= H +
_
1 +
q
T
Hq
p
T
q
_
pp
T
p
T
q

pq
T
H + Hqp
T
p
T
q
.
5.23. Pelo teorema do valor medio, existe
k
(0, 1) tal que
f(x
k
+ d
k
) = f(x
k
) +f(x
k
+
k
d
k
)
T
d
k
.
Portanto,
ared pred =
1
2
(d
k
)
T
B
k
d
k
_
f(x
k
+
k
d
k
) f(x
k
)
_
T
d
k
,
Usando a desigualdade de Cauchy-Schwarz e as Hip oteses H3 e H5, obtemos
[ared pred[
k
_
k
+ sup
t[0,1]
_
|f(x
k
+ td
k
) f(x
k
)|
_
_
.
Notando que [
k
1[ =
ared pred
pred
e usando H2, obtemos o resultado.

5.24. Suponha por absurdo que isto seja falso. Ent ao existe > 0 tal que |f(x
k
)| ,
para todo k IN. Pela continuidade uniforme de f, existe > 0 tal que se |d
k
| ,
ent ao
sup
t[0,1]
_
|f(x
k
+ td
k
) f(x
k
)|
_
c
1
4
. (8.29)
Considere

= min
_
,
c
1
2
2
_
, onde c
1
, e s ao as constantes das Hipoteses H2, H3
e H5, respectivamente. Se
k

, ent ao

|f(x
k
)|
,
k
e

2
k
2c
1

1
4
. (8.30)
Portanto, pelo Exerccio 5.23 e pelas relac oes (8.29) e (8.30),
[
k
1[

c
1
k
+
c
1
4
_
=

2
k
2c
1
+
1
4

1
2
.
Assim,
k

1
2
>
1
4
e pelo Algoritmo 5.6 temos
k+1

k
. Isto signica que o raio e
reduzido somente se
k
>

, caso em que
k+1
=

k
2
>
2
. Podemos ent ao concluir que
k
min
_
0
,
2
_
, (8.31)
para todo k IN. Considere agora o conjunto
/ =
_
k IN [
k

1
4
_
.
Dado k /, pelo mecanismo do Algoritmo 5.6 e pela Hip otese H2 temos
f(x
k
) f(x
k+1
) = f(x
k
) f(x
k
+ d
k
)
1
4
_
m
k
(0) m
k
(d
k
)
_
1
4
c
1
min
_
k
,

_
.
Em vista de (8.31), temos que existe uma constante

> 0 tal que
f(x
k
) f(x
k+1
)

, (8.32)
para todo k /. Por outro lado, a sequencia
_
f(x
k
)
_
e n ao crescente e, por H4, limitada
k
) f(x
k+1
) 0. Portanto, de (8.32), podemos
concluir que o conjunto / e nito. Assim,
k
<
1
4
, para todo k IN sucientemente
grande e entao
k
ser a reduzido ` a metade em cada iterac ao. Isto implica
k
0, o que
contradiz (8.31). Deste modo, a armac ao no feita no exerccio e verdadeira.
Captulo 7
7.5. Suponha por absurdo que existe u P(S), u ,= 0. Como 0 int(S), existe > 0 tal
que v = u S. Como u P(S), v tambem pertence, pois P(S) e um cone. Por outro
lado, v S, donde segue que v
T
v 0 o que e uma contradicao.
7.6. Pelo Lema 7.8, basta mostrar que P
_
P(C)
_
C. Para isso, considere c P
_
P(C)
_
,
A = B
T
e x IR
n
tal que
Ax 0. (8.33)
Portanto, x
T
(A
T
y) = (Ax)
T
y 0, para todo y 0, donde segue que x P(C). Como
c P
_
P(C)
_
, obtemos
c
T
x 0,
que junto com (8.33) signica que o primeiro sistema no Lema 7.11 nao tem soluc ao.
Ent ao o segundo sistema do lema e possvel, ou seja, c C.
7.7. Dado d C, temos d = By, para algum y 0. Caso posto(B) = m, temos
d
_
JJ
C
J
, pois J = 1, . . . , m . Caso contrario, existe IR
m
0 tal que B = 0.
Assim, d = By = B(y+t), para todo t IR. Escolhendo

t tal que y = y+
t 0 e y
j
= 0
para algum j (veja os detalhes na demonstrac ao do Lema 7.10), obtemos d = B y = B
J
y
J
,
onde J = 1, . . . , m j. Repetindo este argumento ate que J , conclumos o
exerccio.
7.8. Considere primeiro o caso em que posto(B) = m. Seja (d
k
) C, tal que d
k
d ,= 0.
Ent ao, d
k
= By
k
, com y
k
0. Sem perda de generalidade, podemos supor que
y
k
|y
k
|
u,
com |u| = 1. Deste modo,
1
|y
k
|
d
k
= B
_
y
k
|y
k
|
_
Bu ,= 0. (8.34)
Como (d
k
) e convergente, temos que (y
k
) e limitada (se nao fosse, o limite em (8.34) seria
nulo) e, novamente s.p.g., vamos supor que y
k
y. Assim, d
k
= By
k
By, com y 0.
Portanto, d = By C. O caso em que posto(B) < m decorre imediatamente do que
zemos acima e do Exerccio 7.7, tendo em vista que a uniao nita de fechados e um
conjunto fechado.
7.9. Considere (d
k
) T( x), com d
k
d. Vamos mostrar que d T( x). Isto e imediato
se d = 0. Suponha entao que d ,= 0 e que (s.p.g.) d
k
,= 0, para todo k IN. Fixado
k IN, como d
k
T( x), existe sequencia (x
k,j
)
jIN
tal que
x
k,j
j
x e q
k,j
=
x
k,j
x
|x
k,j
x|
j
d
k
|d
k
|
.
Assim, existe j
k
IN tal que
|x
k
x| <
1
k
e
_
_
_
_
q
k
d
k
|d
k
|
_
_
_
_
<
1
k
,
onde x
k
= x
k,j
k
e q
k
= q
k,j
k
. Passando o limite em k, obtemos x
k
x e
_
_
_
_
q
k
d
|d|
_
_
_
_
_
_
_
_
q
k
d
k
|d
k
|
_
_
_
_
+
_
_
_
_
d
k
|d
k
|

d
|d|
_
_
_
_
0.
Portanto,
x
k
x
|x
k
x|
= q
k
d
|d|
, implicando em d T( x).
7.15. O problema proposto e equivalente a
minimizar (x
1
3)
2
+ (x
2
3)
2
sujeito a x
2
1
3x
1
+ x
2
= 0.
Note primeiro que o problema tem uma solucao (global), em virtude do Lema 3.5. Tal
minimizador deve satisfazer
2
_
3 x
1
3 x
2
_
=
_
2x
1
3
1
_
e tambem a condic ao de viabilidade x
2
= 3x
1
x
2
1
. Por substituic ao de vari aveis, chegamos
em 2x
3
1
9x
2
1
+ 16x
1
12 = 0, cuja unica raiz real e x
1
= 2. Assim, o unico ponto
estacion ario, e portanto a solu cao do problema, e x
=
_
2
2
_
. A Figura 8.11 ilustra este
exerccio.
7.16. O problema proposto pode ser formulado como
minimizar
1
2
|x a|
2
sujeito a Ax + b = 0.
Este problema tem solu cao (global e unica), em virtude do Lema 3.6. Tal minimizador
0 1 2 3
1
0.5
0
0.5
1
1.5
2
2.5
3
Figura 8.11: Ilustrac ao do Exerccio 7.15.
deve satisfazer
x
a + A
T
= 0
Ax
+ b = 0,
fornecendo
= (AA
T
)
1
(Aa + b) e
x
= a A
T
= a A
T
(AA
T
)
1
(Aa + b),
exatamente o que foi obtido no Exerccio 3.8.
7.19. Seja x
um minimizador global do problema

min f(x) = x
2
1
+ x
2
2
+ x
2
3
s. a x
1
x
2
x
3
= 1
x
2
1
+ x
2
2
+ x
2
3
3.
A existencia de x
e garantida pois o conjunto vi avel deste problema e compacto. Como

x =
_
_
_
1
1
1
_
_
_
cumpre as restric oes acima, temos que f(x
) f( x) = 3. Armamos que x
e soluc ao global do problema original. De fato, seja x IR

3
tal que x
1
x
2
x
3
= 1. Caso
x
2
1
+ x
2
2
+ x
2
3
3, temos f(x
) f(x). Por outro lado, se x

2
1
+ x
2
2
+ x
2
3
> 3, ent ao
f(x
) 3 < x
2
1
+ x
2
2
+ x
2
3
= f(x).
7.20. Vamos primeiro encontrar os pontos crticos. Note que a equac ao
2
_
x
1
x
2
1
_
=
_
2x
1
1
_
implica que ,= 0, pois do contr ario obteramos o ponto
_
0
1
_
, que n ao e viavel. Entao,
a restricao e ativa, ou seja, x
2
= x
2
1
. Caso x
1
= 0, obtemos o ponto x = 0, com
multiplicador = 2. Se x
1
,= 0, entao =
1
, x
2
= 1
1
2
e x
2
1
=
2 1
2
2
. Para
que existam outras solucoes, devemos ter >
1
2
. Neste caso, os outros dois pontos
crticos sao x
=
1
2
_
4 2
2 1
_
e x =
1
2
_
4 2
2 1
_
. Vamos agora vericar se s ao
minimizadores. Caso >
1
2
, temos tres pontos crticos, x, x
e x. O ponto x n ao e
nem minimizador nem maximizador local de f. De fato, para todo t > 0, sucientemente
pequeno, temos 1 +
2
t
2
2 < 0. Portanto,
f
_
t
t
2
_
= t
2
+ (t
2
1)
2
= t
2
+
2
t
4
2t
2
+ 1 < 1 = f( x).
Alem disso, f
_
t
0
_
= t
2
+1 > 1 = f( x). Os pontos x
e x s ao minimizadores globais pois

f(x
) = f( x) =
4 1
4
2
e dado x , temos x
2
1

x
2
. Assim,
f(x) = x
2
1
+ (x
2
1)
2
x
2
2
+
_
1
2
_
x
2
+ 1
4 1
4
2
.
Caso
1
2
, o unico ponto crtico e x = 0. Este ponto e minimizador global, pois dado
x , temos x
2
1
2x
2
. Assim, f(x) = x
2
1
+(x
2
1)
2
x
2
2
+1 1 = f( x). A Figura 8.12
ilustra este exerccio. Salientamos que os fatos de x
e x serem minimizadores globais no

1.5 1 0.5 0 0.5 1 1.5
0.5
0
0.5
1
1.5
2
2.5
x
x
*
x
~
1.5 1 0.5 0 0.5 1 1.5
0.5
0
0.5
1
1.5
2
2.5
x
caso >
1
2
e de x = 0 ser minimizador global no caso
1
2
poderiam ser obtidos com
o argumento usado no Exerccio 7.15, que utiliza o Lema 3.5. De fato, o problema aqui e
equivalente a encontrar o(s) ponto(s) de mais pr oximo de
_
0
1
_
.
7.22. Este exerccio estabelece, via teoria de KKT, uma importante relacao entre os
problemas primal e dual de programac ao linear.
(a) Dados x e y vi aveis temos
b
T
y = (Ax)
T
y = x
T
A
T
y x
T
c = c
T
x.
(b) As condi coes de KKT para o problema primal podem ser escritas como
c =
A
T
0
(
)
T
x
= 0.
Alem disso, pela viabilidade de x
, temos Ax
= b e x
0. Portanto,
c
T
x
= (
+ A
T
)
T
x
= b
T
.
(c) Para ver que
e solu cao do problema dual, note primeiro que A

T
= c
c, o
que signica que
e vi avel. Considere agora um ponto y vi avel para o dual. Usando o

que ja foi provado, temos
b
T
y c
T
x
= b
T
.
(d) Pelo que foi provado nos itens anteriores, o valor otimo primal, c
T
x
coincide com o
valor otimo dual, b
T
.
7.23. Como o conjunto viavel e compacto, existe um minimizador global x
. Suponha,
por absurdo, que |x
| < . Ent ao, Ax
+ b = f(x
) = 0. Sejam < 0 o menor

autovalor de A e v IR
n
um autovetor associado tal que |x
+ v| . Assim,
f(x
+ v) f(x
) =
1
2
|v|
2
< 0,
o que contradiz o fato de x
ser um minimizador global.

7.24. As condicoes de KKT para o problema s ao
x
+ A
T
= 0
Ax
+ b = 0.
Como A
T
= A, temos que x
Im(A).
7.25. As condicoes de KKT para o problema s ao
Bx + b + A
T
= 0
Ax + c = 0.
Pelo que vimos no Exerccio 1.18, o sistema acima, que pode ser escrito como
_
B A
T
A 0
__
x
_
=
_
b
c
_
,
tem uma unica soluc ao (x
). Como as condicoes sucientes de segunda ordem s ao

satisfeitas para este problema, podemos concluir que a soluc ao e um minimizador local.
Para ver que e global, note que dado x IR
n
, tal que Ax + c = 0, temos x x
^(A).
Assim, x = x
+ d, para algum d ^(A). Alem disso,

f(x) f(x
) =
1
2
d
T
Bd + d
T
(Bx
+ b) =
1
2
d
T
Bd d
T
(A
T
).
Como d ^(A), obtemos f(x) f(x
).
7.26. Considere d

D(x
) arbitrario e dena J = c I
+
_
i I
0
[ c
i
(x
)
T
d = 0
_
.
Aplicando os Lemas 7.37 e 7.38, com J no lugar de c, conclumos que existe uma sequencia
(x
k
) tal que c
J
(x
k
) = 0, x
k
x
e
x
k
x
|x
k
x
|

d
|d|
.
Armamos que x
k
e vi avel, a partir de um certo ndice. De fato, se i 1 I(x
), entao
c
i
(x
) < 0. Por outro lado, se i I(x
) J, ent ao c
i
(x
)
T
d < 0. Portanto,
c
i
(x
k
)
|x
k
x
|
= c
i
(x
)
T
x
k
x
|x
k
x
|
+
o(|x
k
x
|)
|x
k
x
|
c
i
(x
)
T
d
|d|
< 0.
Em qualquer caso, c
i
(x
k
) < 0, para todo k sucientemente grande. Assim, fazendo
y
k
= x
k
x
e usando o fato de que x
e um minimizador local para o problema (7.1),

obtemos
f(x
)
T
y
k
+
1
2
(y
k
)
T
2
f(x
)y
k
+ o(|y
k
|
2
) = f(x
k
) f(x
) 0. (8.35)
Alem disso, para cada i c I
+
, temos
c
i
(x
)
T
y
k
+
1
2
(y
k
)
T
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = c
i
(x
k
) c
i
(x
) = 0,
donde segue que
_
A
E
(x
)
T
_
T
y
k
+
1
2
(y
k
)
T
iE
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0. (8.36)
e
_
A
I
+(x
)
T
I
+
_
T
y
k
+
1
2
(y
k
)
T
iI
+
2
c
i
(x
)y
k
+ o(|y
k
|
2
) = 0. (8.37)
Somando (8.35) - (8.37) e notando que f(x
) +A
E
(x
)
T
+A
I
+(x
)
T
I
+
= 0, obtemos
(y
k
)
T
2
xx
(x
)y
k
+ o(|y
k
|
2
) 0. (8.38)
Dividindo (8.38) por |y
k
|
2
e passando o limite, obtemos
d
T
2
xx
(x
)d 0.
7.27. A prova e praticamente a mesma do Teorema 7.44, observando apenas que se
d D(x
)

D(x
), entao existe i I
+
, tal que c
i
(x
)
T
d < 0.
Captulo 8
8.1. As condicoes de KKT para o subproblema (8.2) sao dadas por
_
B(x
k
,
k
)d + A(x
k
)
T
=
x
(x
k
,
k
)
A(x
k
)d = c(x
k
).
(8.39)
Desta forma, se (x
k
,
k
) e um ponto KKT para o problema (8.1), entao
x
(x
k
,
k
) = 0 e
c(x
k
) = 0. Portanto, (d, ) = (0, 0) cumpre (8.39). Reciprocamente, se d = 0 e um ponto
estacion ario para o subproblema (8.2), ent ao existe IR
m
tal que
A(x
k
)
T
=
x
(x
k
,
k
) e c(x
k
) = 0.
Assim, f(x
k
) +A(x
k
)
T
(
k
+) = 0, isto e, x
k
e um ponto KKT para o problema (8.1).
Referencias Bibliogracas
[1] M. S. Bazaraa, H. D. Sherali, and C. M. Shetty. Nonlinear Programming Theory and
Algorithms. John Wiley, New York, 2nd edition, 1993.
[2] D. P. Bertsekas, A. Nedi c, and A. E. Ozdaglar. Convex Analysis and Optimization.
Athena Scientic, Belmont, USA, 2003.
[3] J. F. Bonnans, J. C. Gilbert, C. Lemarechal, and C. A. Sagastizabal. Numerical
Optimization: Theoretical and Practical Aspects. Springer Verlag, Berlin, 2002.
[4] C. M. Chin. A new trust region based SLP-lter algorithm which uses EQP active set
strategy. PhD thesis, Department of Mathematics, University of Dundee, Scotland,
2001.
[5] C. M. Chin and R. Fletcher. On the global convergence of an SLP-lter algorithm
that takes EQP steps. Mathematical Programming, 96(1):161177, 2003.
[6] A. R. Conn, N. I. M. Gould, and Ph. L. Toint. Trust-Region Methods. MPS-SIAM
Series on Optimization, SIAM, Philadelphia, 2000.
[7] E. D. Dolan and J. J. More. Benchmarking optimization software with performance
proles. Mathematical Programming, 91:201213, 2002.
[8] R. G. Eustaquio. Condic oes de otimalidade e de qualicac ao para problemas de
programac ao n ao linear. Masters thesis, Universidade Federal do Paran a, Curitiba,
PR, 2007.
[9] F. M. Fernandes. Velocidade de convergencia de metodos de otimizacao irrestrita.
Trabalho de conclus ao de curso, Universidade Federal do Paran a, 2010.
[10] R. Fletcher and S. Leyer. Nonlinear programming without a penalty function.
Mathematical Programming - Ser. A, 91(2):239269, 2002.
[11] R. Fletcher, S. Leyer, and Ph. L. Toint. On the global convergence of a lter-SQP
algorithm. SIAM J. Optimization, 13(1):4459, 2002.
[12] R. Fletcher and C. M. Reeves. Function minimization by conjugate gradients. Com-
puter J., 7:149154, 1964.
196
Referencias Bibliogr acas 197
[13] A. Friedlander. Elementos de Programacao Nao-Linear. Unicamp, 1994.
[14] C. C. Gonzaga. Um curso de programac ao nao linear. Notas de aula - UFSC, 2004.
[15] C. C. Gonzaga, E. W. Karas, and M. Vanti. A globally convergent lter method for
nonlinear programming. SIAM J. Optimization, 14(3):646669, 2003.
[16] F. J. Gould and J. W. Tolle. A necessary and sucient qualication for constrained
optimization. SIAM Journal on Applied Mathematics, 20:164172, 1971.
[17] N. I. M. Gould, D. Orban, and Ph. L. Toint. CUTEr, a constrained and unconstrai-
ned testing environment, revisited. ACM Transactions on Mathematical Software,
29(4):373394, 2003.
[18] M. Guignard. Generalized Kuhn-Tucker conditions for mathematical programming
problems in a Banach space. SIAM Journal on Control and Optimization, 7:232241,
1969.
[19] J-B. Hiriart-Urruty and C. Lemarechal. Convex Analysis and Minimization Algo-
rithms I. Springer-Verlag, New York, 1993.
[20] W. Hock and K. Schittkowski. Test Examples for Nonlinear Programming Codes,
volume 187. Lecture Notes in Economics and Mathematical Systems, Springer, 1981.
[21] A. Howard and C. Rorres.

Algebra Linear com Aplicacoes. Bookman, Porto Alegre,
8nd edition, 2001.
[22] A. Izmailov and M. Solodov. Otimizacao: Condicoes de Otimalidade, Elementos de
Analise Convexa e Dualidade, volume 1. IMPA, Rio de Janeiro, 2005.
[23] A. Izmailov and M. Solodov. Otimizacao: Metodos Computacionais, volume 2. IMPA,
Rio de Janeiro, 2007.
[24] F. John. Extremum Problems with Inequalities as Subsidiary Conditions. In
O. E. Neugebauer K. O. Friedrichs and J. J. Stoker, editors, Studies and Essays:
Courant Anniversary Volume, pages 187204. Wiley-Interscience, New York, 1948.
[25] E. W. Karas, A. M. Mota, and A. A. Ribeiro. On the convergence rate of the cauchy
algorithm in the l
2
norm. Technical report, Federal University of Paran a, Brazil,
2005.
[26] E. W. Karas, A. P. Oening, and A. A. Ribeiro. Global convergence of slanting
lter methods for nonlinear programming. Applied Mathematics and Computation,
200(2):486500, 2007.
[27] H. W. Kuhn and A. W. Tucker. Nonlinear programming. In J. Neyman, editor,
Proceendings of the Second Berkeley Symposium on Mathematical Statistics and Pro-
bability, pages 481492. University of California Press, Berkeley, CA, 1951.
[28] Harold W. Kuhn. Nonlinear programming: a historical view. In R. W. Cottle and
C. E. Lemke, editors, Nonlinear Programming, volume IX, pages 126. SIAM-AMS
Proceedings, American Mathematical Society, Providence, RI, New York, 1976.
[29] S. J. Leon.

Algebra Linear com Aplicacoes. LTC, Rio de Janeiro, 1999.
[30] E. L. Lima. Curso de Analise, volume 1. IMPA, Rio de Janeiro, Brasil, 1981.
[31] E. L. Lima. Curso de Analise, volume 2. IMPA, Rio de Janeiro, Brasil, 1981.
[32] D. G. Luenberger. Linear and Nonlinear Programming. Addison - Wesley Publishing
Company, New York, 1986.
[33] J. M. Martnez. Inexact-restoration method with Lagrangian tangent decrease and a
new merit function for nonlinear programming. Journal of Optimization Theory and
Applications, 111:3958, 2001.
[34] J. M. Martnez and E. A. Pilotta. Inexact restoration algorithm for constrained
optimization. Journal of Optimization Theory and Applications, 104:135163, 2000.
[35] J. M. Martnez and S. A. Santos. Metodos computacionais de otimizac ao. 20.
0
Col oquio Brasileiro de Matem atica - IMPA, 1995.
[36] J. J. More, B. S. Garbow, and K. E. Hillstrom. Testing unconstrained optimization
software. ACM Transactions on Mathematical Software, 7(1):1741, 1981.
[37] A. M. Mota. Convergencia de algoritmos para programac ao n ao linear. Masters
thesis, Universidade Federal do Paran a, Curitiba, PR, 2005.
[38] K. G. Murty. Linear Programming. John Wiley, New York, 1983.
[39] J. Nocedal and S. J. Wright. Numerical Optimization. Springer Series in Operations
Research. Springer-Verlag, 1999.
[40] A. L. Peressini, F. E. Sullivan, and Jr J. J. Uhl. The Mathematics of Nonlinear
Programming. Springer-Verlag, New York, 1nd edition, 1988.
[41] G. A. Pericaro. Algoritmos de Filtro Globalmente Convergentes: Teoria, Imple-
mentacao e Aplicacao. PhD thesis, Universidade Federal do Paran a, Curitiba, PR,
2011.
[42] G. A. Pericaro, A. A. Ribeiro, and E. W. Karas. Global convergence of general lter
algorithms. Technical report, Federal University of Parana, Brazil, 2011.
[43] E. Polak. Computational Methods in Optimization: A Unied Approach. Academic
Press, New York, 1971.
[44] E. Polak and G. Ribière. Note sur la convergence de methodes de directions con-
juguees. Revue Francaise dInformatique et de Recherche Operationnelle, 16:3543,
1969.
[45] B. T. Polyak. Introduction to Optimization. Optimization Software, Inc, New York,
1987.
[46] A. A. Ribeiro, E. W. Karas, and C. C. Gonzaga. Global convergence of lter methods
for nonlinear programming. SIAM Journal on Optimization, 19(3):12311249, 2008.
[47] T. Steihaug. The conjugate gradient method and trust regions in large scale optimi-
zation. SIAM Journal on Numerical Analysis, 20:626637, 1983.

Livro PNL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Livro PNL

Uploaded by

Copyright:

Available Formats

UM CURSO DE OTIMIZAC

E conhecido na literatura que se o conjunto vi avel e formado apenas por res-

e um minimizador, entao existe

s ao chamadas de Multiplicadores de Lagrange e a condi cao

E importante observar que apenas a condic ao (1.3) n ao implica que x

) f(x), para todo

) f(x), para todo x , x

e dito minimizador global de

e minimizador estrito. Se nao for mencionado o conjunto , signica que = IR

f( x), uma contradicao. Portanto, f() = f(x) [ x e limitado

= inff(x) [ x . Entao, para todo k IN, existe x

. Repetindo o argumento acima, obtemos f(x

. Pela unicidade do limite, temos f(x

f(x), para todo x , o que

L tal que f(x

) f(x), para todo x L.

) f(x), para todo

B tal que f(x

) f(x), para todo x B. Alem

). Isto prova que

+b = 0. Mostre tambem que x

e minimizador local, temos que

+ b = 0. Para ver que x

e global, note que

e um minimizador local de f, entao

e minimizador local, existe

) nao fosse nulo, poderamos

e um minimizador local de f, entao a matriz

e semidenida positiva, isto e,

e minimizador local, o Teorema 2.9 garante que f(x

e minimizador local de f, entao dado d IR

e um ponto estacionario da funcao f e

e minimizador local estrito de f.

). Como esta matriz e denida po-

) > 0, para todo d B(0, ) 0, ou, equivalentemente,

). Suponha que todo x, tal que

, e um minimizador local de f. Mostre que x

z. Sendo S fechado, temos que z S. Alem disso,

C e minimizador local de f em C, entao

) f(x), para todo x B(x

, ), tome t > 0 de modo que t|y x

| < . Assim, o ponto x = (1 t)x

, ) C (veja a Figura 3.6). Deste modo temos

) 0, para todo y C, entao x

(t) = 11t 5 = 0. Assim,

x. Suponha por absurdo que x n ao seja estacion ario,

, sucientemente grande. Deste modo, como t

, sucientemente grande. Por outro lado, pela continuidade de f, temos

f( x). Como a sequencia (f(x

x. Suponha por absurdo que x n ao seja estacionario, isto

f( x). Como a sequencia (f(x

, sucientemente grande. Pelo

existiu e foi recusado. Assim,

0, podemos concluir que

x. Suponha por absurdo que x n ao seja desej avel. Ent ao

, se necess ario, de modo que x

. Por outro lado, utilizando a continuidade de , temos (x

satisfaz a condi cao de Armijo

, que e global e satisfaz

, com taxa de convergencia

) denida positiva, e que a sequencia (x

) com taxa nao superior a

e obtido em um s o passo, pois