You are on page 1of 22

Gaston Berger de Saint Louis

Universite

UFR Sciences Economiques et Gestion


UFR Sciences Economiques et Gestion

SUPPORT : COURS DOPTIMISATION

2004-2005
===============================================
Les methodes doptimisation, cest-`a-dire de determination de minima ou de maxima, sont
utilisees dans de tr`es nombreux domaines : economique et gestion, conception optimale, automatique et robotique, traitement du signal,etc.... De plus les, probl`emes doptimisation sont
intimement lies aux principes variationnels de la mecanique et de la physique.
Lobjectif de ce cours est de donner les principaux resultats mathematiques concernant les
probl`emes de minimisation (ou plus generalement doptimisation). Ces resultats portent dune
part sur lexistence de minima, puis sur leur caracterisation par des conditions necessaires parfois suffisantes. Dans chaque chapitre on donnera quelques exemples qui illustrent limportance
de loptimisation, la variete des domaines dapplication concernes et la diversite des probl`emes
mathematiques formules comme probl`eme de minimisation.
===============================================

Ngalla DJITTE
Enseignant-Chercheur UFR SAT
ngalla@ugb.sn,ngalla@ceremade.dauphine.fr
Bureau FB01

Chapitre 1

Optimisation dans Rn
Dans Rn , on consid`ere le probl`eme doptimisation
min F (x)
xK

(1.1)

o`
u K est un sous-ensemble non vide de Rn et F est une fonction definie sur un ouvert U de
Rn contenant K.

1.1

G
en
eralit
es

finition 1 Un minimum local de F sur K est un vecteur x


De
de K tel quil existe une
boule B(
x, r) de centre x
et de rayon r > 0, telle que
x B(
x, r) K, F (x) F (
x)
Un minimum global de F sur K est un vecteur x
de K tel que
x K, F (x) F (
x)
Les minimas sont dits stricts si les inegalites dans les definitions precedentes sont strictes.
Cette distinction etant faite, notons qu`a part dans des cas favorables, on se contentera dun
minimum local de F sur K.

Remarque 1 La recherche de maximum peut se ramener a` celle de minimum comme le


montre la proposition suivante.
Proposition 1 Si x
realise un maximum (local ou global) de F sur K, x
realise un
minimum (local ou global) de F sur K. Plus precisement
max F (x) = min(F (x))
xK

xK

CHAPITRE 1. OPTIMISATION DANS RN

1.1.1

Exemples de probl`
emes doptimisation

`me 1 Trouver les rectangles inscrits dans un cercle de rayon 1 de surface maximale.
Proble

Reponse. les carres dont la longueur des cotes est egale `a 2.


`me 2 Trouver les cylindres inscrits dans une sph`ere de rayon 1 de volume maximal
Proble
2
Reponse. Les cylindres de hauteur h =
3
`me 3 Trouver lensemble des points de Rn qui minimise la somme des carres des
Proble
distances euclidiennes a` N points a1 , a2 , , aN de Rn .
Reponse. Cet ensemble ne cointient quun seul point : lisobarycentre des points a 1 , a2 , , aN .
`me 4 (Un exemple en regression non-lineaire). On cherche a` identifier le paProble
ram`etres a, b, c et d dun signal du type
f (t) = a exp(bt)cos(ct + d)
a` partir dechantillons [t i, yi ], (i = 1, , m) du signal f (t).

1.1.2

Questions communes `
a tous ces probl`
emes

Formaliser mathematiquement le probl`eme.


Existence et unicite du minimum ou du maximum.
Caracterisation du minimum ou du maximum.

1.2

Th
eor`
emes dexistence

ore
`me 1 (Weierstrass)
The
Si K est un sous-ensemble non vide compact de Rn et si F : Rn R est une application
continue, alors il existe x
1 K et x
2 K tels que :
F (
x1 ) = min F (x)
xK

F (
x2 ) = max F (x)
xK

finition 2 F : Rn R est dite coercive lorsque :


De

lim

kxk+

F (x) = +

ore
`me 2 Si K est un sous-ensemble ferme non vide de Rn et si F : Rn R est une
The
application coercive et continue alors il existe x
K tel que
F (
x) = min F (x)
xK

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

finition 3 On dit que le sous ensemble K de Rn est convexe si


De
(x, y) K K, t [0, 1] tx + (1 t)y K

(1.2)

Autrement dit K est convexe sil contient tout segment reliant deux quelconques de ses
points.
finition 4 On dit que la fonction F : K Rn est convexe si K est convexe et si :
De
(x, y) K K t [0, 1] F (tx + (1 t)y) tF (x) + (1 t)F (y)

(1.3)

F est dite strictement convexe si linegalite (1.3) est stricte lorsque x 6= y et t ]0, 1[.
Proposition 2 Si K est un sous-ensemble convexe non vide de Rn et si F : Rn R
est une application strictement convexe (concave) sur K alors F a au plus un minimum
(maximum) global sur K.

1.3
1.3.1

Conditions doptimalit
e
Diff
erentiabilit
e dans Rn

Nous rappelons dans cette section les notions de base du calcul differentiel dans R n .
1.3.1.1

D
eriv
ees, diff
erentielles

Soit F une fonction de plusieurs variables x Rn `a valeurs dans R.


finition 5 On dit que F est differentiable (ou derivabble au sens de frechet) en un
De
point x0 de Rn , sil existe une application lineaire de Rn dans R notee dF (x0 ) telle que :
|F (x0 + h) F (x0 ) dF (x0 )(h)|
=0
khk
khk0
lim

(1.4)

dF (x0 ) est appelee d


eriv
ee ou diff
erentielle de F au point x0 .
Lapplication derivee dF associe `a x0 un vecteur de Rn appele aussi gradient de F en x0
et note F (x0 ). Nous allons preciser les coefficients de ce vecteur gradient ce qui permet de
calculer facilement dF (x0 ).
finition 6 On dit que F est derivable dans la direction d Rn au point x0 de Rn si
De
lim

t0+

F (x0 + td) F (x0 )


,
t

(1.5)

existe. Quand d est le i`eme vecteur de base ei de Rn , on dit que F admet une derivee
F
partielle par rapport a` xi et on la note
(x0 ). On a donc
xi
lim

t0+

F (x0 + tei ) F (x0 )


F
=
(x0 )
t
xi

(1.6)

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

On a le resultat important suivant :


Proposition 3 Si F est differentiable en un point x0 de Rn , alors toutes les derivees
partielles existent et le gradient secrit :
F (x0 ) = (

F
F
(x0 ), ,
(x0 ))
x1
xn

On a alors
dF (x0 )(h) =< F (x0 ), h >=

n
X
F
(x0 )hi h Rn .
xi

(1.7)

i=1

Diff
erentielle dune fonction u de Rn dans Rn
Soit u une fonction de plusieurs variables x = (x1 , , xn ) `a valeurs dans Rn :
u : Rn Rn , u(x) = (u1 (x), , un (x))

La definition de la derivabilite pour u est la meme mais on fait intervenir la norme de R n `a


larrivee au lieu de celle de R . Cette fois la derivee (ou differentielle) de u nest pas identifiable
`a un vecteur de Rn mais `a une matrice carree dordre n appelee matrice Jacobienne que lon
calcule de mani`ere analogue au gradient :

ui
Du(x) =
(x)
xj
1i,jn
D
eriv
ee seconde dune fonction de Rn dans R.
On peut definir la derivee seconde de F comme la derivee de dF . Plus precisement
finition 7 On dit que F : Rn est differentiable sur un sous ensemble U de Rn , si
De
F est differentiable en tout point x de U .
Lapplication derivee dF : U Rn associe `a un point x de U , le vecteur dF (x) = F (x).
cette application est definie dans Rn et prend ses valeurs dans Rn . Si elle est meme differentiable
en un point x0 de U , on dit que F est deux fois derivable en x0 . Dans ce cas, la derivee seconde
de F en x0 est definie comme la derivee premi`ere de dF . Dapr`es le paragraphe precedent elle
est identifiable `a une matrice carree appelee matrice Hessienne et definie par :
2

F
HF (x0 ) =
(x0 )
xi xj
1i,jn
o`
u

2F

F
2F
(x0 ) =
(x0 ) =
(x0 )
xi xj
xj xi
xi xj

finition 8 On dit que F est de classe C 1 (ou tout simplement C 1 ) sur U si elle est
De
differentiable sur U et sa derivee est continue sur U .
finition 9 On dit que F est C 2 sur U si elle est deux fois differentiable sur U et si sa
De
derivee seconde est continue sur U .

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

1.3.2

Conditions n
ecessaires du premier ordre

finition 10 Soit x
De
un point de K. On appelle direction admissible en x
, un vecteur d
(direction) le long du quel on pourra se deplacer en partant de x
tout en restant dans K,
cest-`a-dire tel quil existe > 0 tel que le segment [
x, x
+ d] K. On notera D ad (
x)
lensemble des directions admissibles en x

On appelle cone de Rn tout sous-ensemble C tel que x C x C, > 0.


Exercice 1
1. Montrer que si K est un convexe de Rn et x
K, alors D ad (
x) est un cone convexe.
ad
n
En particulier si x
est un point interieur de K, alors D (
x) = R .
n
2. Montrer que si K est un convexe de R et x
K, alors pour tout y K, y x
D ad (
x)
ore
`me 3 Si F est C 1 sur un ouvert contenant K et si x
The
K est un minimum local
de F sur K, alors pour toute direction admissible d en x
, on a :
F (
x) d 0
En particulier, si x
est un point interieur de K, alors F (
x) = 0. On dit alors que x
est
un point critique.
Exemple 1 Soit F (x1 , x2 ) = x21 + x2 et K = {x = (x1 , x2 ) | x2 0}. Le minimum global
est x
= (0, 0). En ce point F (
x) = (0, 1). Une direction admissible en x
est de la forme
d = (d1 , d2 ) ave d2 0. On verifie bien que F (
x) d = d2 0.
Contre-exemple 1 Verifions que les conditions necessaires doptimalite ci-dessus ne sont
pas suffisantes. En effet si F (x1 , x2 ) = x21 x22 et K = B(0, 1), le point (0, 0) pour lequel
les conditions necessaires du premier ordre sont verifiees nest pas un minimum.

1.3.3

Conditions n
ecessaires du second ordre

finition 11 Soit A une matrice symetrique nn. On dit que A est semi-definie positive
De
et on note A 0, quand
xT Ax 0, x Rn .
On dit que A est definie positive et on note A > 0, quand
xT Ax 0, x Rn , x 6= 0.
Cette definition peut etre reliee aux valeurs propres par :
Proposition 4 Soit A une matrice symetrique n n. On note par {i , i = 1, n} ses
valeurs propres (reelles). On a les equivalences suivantes :
A 0 i 0, i
A > 0 i > 0, i
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

ore
`me 4 (CNSO)
The
Si F est C 2 sur un ouvert contenant K et si x
est un minimum local de F sur K, alors :
1. pour toute direction admissible d en x
, on a F (
x) d 0.
2. Si F (
x) d = 0, alors < HF (
x) d, d > 0, cest-`
a-dire HF (
x) est semi-definie-positive
sur lensemble des directions admissibles.
Dans le cas o`
u x
est un point interieur de K, on peut enoncer une condition suffisante de
minimum local.

1.3.4

Conditions suffisantes du second ordre

ore
`me 5 Si F est C 2 sur un ouvert contenant K et si x
The
, un point interieur de K,
est tel que F (
x) = 0 et HF (
x) est definie positive, alors x
est un minimum local strict
de F sur K.
Proposition 5 Si F est C 2 sur un ouvert contenant K et si F (
x) = 0, si HF (
x) admet
au moins une valeur propre strictement positive et une valeur propre strictement negative,
alors x
est un point-col local de F .

1.3.5
1.3.5.1

Conditions n
ecessaires et suffisantes doptimalit
e dans le cas convexe
Fonctions convexes

finition 12 Un ensemble K Rn est dit convexe si pour tout couple (x, y) K 2 et


De
[0, 1], on a :
x + (1 )y K
On dit quune fontion F : K R, definie sur un ensemble convexe K, est convexe si elle
verifie
(x, y) K 2 , [0, 1], F (x + (1 )y) F (x) + (1 )F (y)
On dira que F est strictement convexe si
(x, y) K 2 , x 6= y, ]0, 1[, F (x + (1 )y) < F (x) + (1 )F (y)
Lorsque n = 1 cette definition sinterpr`ete geometriquement : le graphe de la fonction est
toujours en dessous du segment reliant les points (x, F (x)) et (x, F (x)).
finition 13 Si F : K R, est une fonction definie sur K a` valeurs dans R, on appelle
De
lepigraphe de F , le sous-ensemble de K R note epi(F ) et defini par :
epi(F ) = {(x, ) K R | F (x) }
Proposition 6 soit F : K R, definie sur un ensemble convexe K. Alors F est convexe
sur K si et seulement si son epigraphe est convexe.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

Proposition 7 On definit pour (x, y) K 2 , o`


u K est un ensemble convexe, la fonction
xy : [0, 1] R par :
xy (t) = F (tx + (1 t)y)

Alors F est convexe si et seulement si (x, y) K 2 , xy est convexe sur [0, 1].

Proposition 8 Soit K un convexe dinterieur non vide de Rn .


1. Si F est C 1 sur un ouvert contenant K, alors elle est convexe sur K si et seulement si
F (y) F (x)+ < F (x), y x >, x, y K.

2. Si F est C 2 sur un ouvert contenant K, alors elle est convexe sur K si et seulement si
pour tout x K, la matrice HF (x) est semi definie positive dans K.
3. Si F est C 1 sur un ouvert contenant K, alors elle est fortement convexe de rapport
a > 0 sur K si et seulement si
(F (y) F (y)) (y x) aky xk2 , x, y K
n
X
n
xi ln(xi ) est convexe,
Exemple 2 La fonction F : R+ R qui a` x associe F (x) =
i=1

puisque son Hessien est une matrice diagonale dont le i-i`eme terme vaut 1/u i > 0.
ore
`me 6 (CNS doptimalite dans le cas convexe)
The
1. Si F est convexe sur le convexe K, alors tout minimum local est aussi global.
2. Si F est C 1 et convexe sur le convexe K, tout point x
de K tel que :
F (
x) (y x) 0, y K
est un minimum global de F sur K, et reciproquement.

ore
`me 7 Soit F : K Rn R strictement convexe sur K. Le minimum de F sur
The
K, sil existe, est unique.

1.3.6

Conditions n
ecessaires et suffisantes doptimalit
e dans le cas elliptique

finition 14 Une application F : Rn R est dite elliptique lorsque F est de classe C 1


De
sur Rn et lorsquil existe un reel strictement positif tel que
x Rn , y Rn , (F (y) F (x), y x) ky xk2
Proposition 9 Si F : Rn R est elliptique de rapport > 0, alors

x, y Rn , F (y) F (x)+ < F (x), y x > + ky xk2


2
ore
`me 8 Une fonction elliptique F est C 1 , strictement convexe et coercive sur Rn .
The
Elle admet un minimum global unique qui est son seul point critique.
Proposition 10 Si F : Rn R est elliptique et si K est un convexe non vide ferme,
alors F admet un minimum global unique x
K caracterise par linequation variationnelle
F (x) (y x
) 0, y K

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

1.3.7

Les m
ethodes de descente

Nous consid`erons dans cette partie le probl`eme


min F (x)

xRn

1.3.7.1

Principe des m
ethodes de descente

finition 15 Soit F : Rn R. On dira quun vecteur d de Rn est une direction de


De
descente en x
Rn sil existe t > 0 tel que
F (
x + td) < F (
x), t ]0, t[
Le principe dune methode de descente consiste a faire les iterations suivantes :
xk+1 = xk + tk dk , tk > 0,

(1.8)

tout en assurant la propriete


F (xk+1 ) < F (xk ).
Le vecteur dk est la direction de descente en xk . Le scalaire tk est le pas de la methode `a
literation k.
On peut caracteriser les directions de descente en xk `a laide du gradient gr`ace `a :
Proposition 11 Soit d Rn verifiant F (
x)d < 0, alors d est une direction de descente
en x
.
Dans les iterations (1.8), le choix de tk est lie `a la fonction (t) = F (xk + tdk ). En particulier,
une facon de choisir tk peut etre de resoudre le probl`eme
min (t).
t>0

Le pas tk obtenu ainsi sappelle le pas optimal. L a fonction etant differentiable, on a alors
necessairement :
0 (tk ) = F (xk + tk dk ) dk = 0.
1.3.7.2

M
ethodes du gradient

On cherche `a determiner la direction de descente qui fait decroitre (t) = F (


x + td) le
plus vite possible. Pour cela on va essayer de minimiser la derivee de (t) en 0. On a
0 (0) = F (
x) d,
et on cherche d solution du probl`eme
min

dRn ,kdk=1

0 (0).

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

10

en vertu de linegalite de schwartz, la solution est

F (
x)
kF (
x)k

Il ya de nombreuses facon dutiliser cette direction de descente. On peut par exemple utiliser
un pas fixe `a priori tk = > 0, k.
On obtient alors la methode du gradient `a pas constant :
dk = F (xk )

xk+1 = xk + dk

(1.9)
(1.10)

Sous certaines hypoth`eses de regularite (par exemple si F est C 2 ) cette methode converge si
est choisi assez petit.
La m
ethode du gradient `
a pas optimal
La methode du gradient `a pas optimal consiste `a faire les iterations suivantes :
dk = F (xk ),

xk+1 = xk + tk dk ,

(1.11)
(1.12)

o`
u tk est choisi de sorte que :
tk = argmint>0 F (xk + tdk )
` Pas optimal)
Algorithme 1 (Algorithme du Gadient a
en partant de de x0 tel que F (x0 ) = 0, on peut determiner
x1 = x0 t0 F (x0 ), avec t0 = arg mint>0 F (x0 tF (x0 )),
Le point x1 obtenu sera le meilleur possible dans la direction F (x0 ). Cest ce que
lon resume par gradient a` pas optimal, t0 est le pas optimal correspondant.

a
` letape k, connaissant xk , on calcule xk+1 par :
xk+1 = xk tk F (xk ), avec tk = arg mint>0 F (xk tF (xk ))
on decide darreter lalgorithme lorsquun test de convergence est verifie.
Test de convergence : On peut decider de stopper les iterations si kx k+1 xk k < 1 , 1
etant un seuil fixe `a lavance. Ce test evite daccumuler des iterations qui napportent plus rien
`a la qualite de la solution trouvee. Il ne donne en revance, aucune assurance sur loptimalite
k
X
1
eventuelle de la solution trouvee. Par exemple la suite xk =
verifie ce test des que
i
i=1
1/k + 1 < 1 . Un autre test provenant des CNPO est darreter lorsque kF (xk )k < 2 . Il reste
alors `a verifier que le xk corespondant est bien un minimum, car ca peut etre un point-selle.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

11

Proposition 12 Soit F : Rn R une fonction differentiable. Les directions de descente


dk generees par la methode (1.11)-(1.12) verifient
< dk , dk+1 >= 0.
Calcul du pas optimal dans le cas quadratique
Soit A une(n n)-matrice symetrique definie positive et b un vecteur de R n . On consid`ere la
fonction F definie par :
1
F (x) = xT Ax bT x
2
Le pas optimal tk est caracterise par :
0 (tk ) = 0.
On obtient donc
tk =

F (xk ) d
,
dTk Adk

qui est positif car dk est une direction de descente et A est definie positive.
La methode du gradient `a pas optimal peut donc secrire (dans le cas quadratique)

dk
= b Axk

2
kk
tk
= dkd
(1.13)
T Ad
k
k

xk+1 = xk + tk dk ,

ore
`me 9 Si F est elliptique alors lalgorithme du gradient a
The
` pas optimal converge
vers lunique minimum.
La m
ethode du gradient conjugu
e

finition 16 Soit A une matrice symetrique n n, definie positive. On dit que deux
De
vecteurs x et y de Rn sont A-conjugues (ou conjugues par rapport a` A) sils verifient
xT Ay = y T Ax = 0.

(1.14)

La matrice A etant symetrique et definie positive, la forme bilineaire


a(x, y) = xT Ay
definit un produit scalaire et la relation (1.14) traduit lorthogonalite des vecteurs x et y pour
ce produit scalaire.
Proposition 13 Si d0 , d1 , , dk sont des directions A-conjuguees deux a
` deux, soit
dTi Adj = 0, i, j, i < j k,
alors elles sont lineairement independantes.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

12

Ce
Considerons dans R2 une methode de descente appliquee `a la minimisation dune forme
quadratique definie par :
1
F (x) = xT Ax bT x
2
alors
x1 = x 0 + t 0 d0 ,
x2 = x 1 + t 1 d1 ,
avec d0 et d1 deux directions A-conjuguees et t0 et t1 determines de facon optimale. On a
donc les relations suivantes :
F (x1 ) d0 = (Ax1 b) d0 = 0
de plus on a :

F (x2 ) d1 = (Ax2 b) d1 = 0
F (x2 ) d0 = 0

Puisque F (x2 ) d0 = F (x2 ) d1 = 0 et d0 , d1 lineairement independants, on F (x2 ) = 0,


x2 realise donc le minimum de F sur R2 . La methode converge donc en deux iterations(dans
le cas n = 2).
finition 17 Soient {d0 , d1 , , dn } une famille de vecteurs A-conjugues. On appelle
De
methode de directions conjuguees, la methode

x0
donne
(1.15)
xk+1 = xk + tk dk , tk optimal
On va montrer que la propriete verifiee pour n = 2, `a savoir xn = x
o`
ux
realise le minimum
1 T
de F (x) = x Ax bT x est valable pour tout n.
2
Un lemme fondamental
On se donne `a priori une famille {d0 , d1 , , dn } de directions conjugues et on note
Ek = Vect(d0 , , dk1 ),
le sous espace vetoriel engendre par les vecteurs d0 , d1 , , dk1 . Lalgorithme de direction
conjugue construit iterativement un vecteur xk verifiant
xk x 0 + E k .
Lemme 1 Le vecteur xk defini par lalgorithme (1.15) realise le minimum de
F (x) =

1 T
x Ax bT x
2

sur le sous espace x0 + Ek , cest-`


a-dire
F (xk ) F (x), x x0 + Ek

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

CHAPITRE 1. OPTIMISATION DANS RN

13

Pour la preuve nous aurons besoin du resultat suivant


Proposition 14 Le vecteur xk realise le minimum de F sur x0 + Ek si et seulement si
F (xk ) di = 0, i = 1, , k 1
Lidee de la methode du gradient conjugue consiste `a construire succesivement des directions
d0 , , dk mutuellement conjuguees. A chaque etape k la direction dk est obtenue comme
combinaison lineaire du gradient en xk et de la direction precedente dk1 , les coeficients etant
choisis de telle sorte que dk soit conjuguee avec toutes les directions precedentes. Si lon note
par gk = F (xk ), lalgorithme prend la forme suivante :
On se donne x0 et on pose d0 = g0
xk+1 = xk + tk dk , avec
g T dk
tk = Tk
,
dk Adk
dk+1 = gk+1 + sk dk , avec
g T Adk
,
sk = k+1
dTk Adk

(1.16)
(1.17)
(1.18)
(1.19)

On va maintenant montrer que lalgorithme ci-dessus definit bien une methode de directions
conjuguees.
ore
`me 10 A une iteration k quelconque de lalgorithme o`
The
u loptimum nest pas encore
atteint, cest-`
a - dire gk 6= 0, on a :
tk =
sk =
=

gkT gk
,
dTk Adk

(1.20)

T (g
gk+1
k+1 gk )

gkT gk

T g
gk+1
k+1

gkT gk

(1.21)
(1.22)

et les directions d0 , , dk+1 sont mutuellement conjuguees.


Convergence de la m
ethode du gradient conjugu
e
ore
`me 11 Soit A une matrice symetrique definie positive. Lalgorithme du gradient
The
onjugue onverge en n iterations au plus.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Chapitre 2

Optimisation sous contraintes


On sinteresse maintenant `a des probl`emes doptimisation de la forme

min F (x),

xRn

(P C)
g(x) 0,

h(x) = 0,

(2.1)

o`
u les fonctions F, g et h sont differentiables au moins une fois.
Dans ce chapitre nous allons enoncer les conditions doptimalite associees au probl`eme
(PC). Nous nous interesserons precisement dans ce chapitre aux probl`emes
PCE
PCI

probl`eme avec contraintes degalite


probl`eme avec contraintes dnegalite

et les resultats setenderons facilement aux probl`eme general (PC).

2.1

Contraintes d
egalit
e

Considerons le probl`eme

(P CE)

minn F (x),

xR

h(x) = 0,

o`
u h : Rn Rm est differentiable. On note
C = {x Rn | h(x) = 0}
14

(2.2)

Optimisation sous contraintes

2.1.1
2.1.1.1

15

Conditions n
ecessaires du premier ordre
Contraintes d
egalit
e lin
eaires

Un probl`eme doptimisation avec contraintes degalite lineaires prend la forme :

minn F (x),

xR
(P CEL)

Ax b = 0.

(2.3)

o`
u A est une matrice m n avec m < n et b Rm . On notera
C = {x Rn | Ax b = 0}.

Exercice 2 Montrer que d Rn est est une direction admissible en x


C si et seulement
si
Ad = 0
Rappelons maintenant un resultat bien utile dalg`ebre lineaire.
Proposition 15 Soit A une matrice p n. On a la relation suivante :
(ker A) = (Im A)T

On peut maintenant enoncer les conditions doptimalite pour le probl`eme (PCEL).


ore
`me 12 Soit x
The
C solution de (PCEL), verifiant F (
x) F (x) x C. Alors il
existe un vecteur Rp tel que :
F (x) + AT = 0

Si de plus A est de rang m alors est unique.


2.1.1.2

Contraintes d
egalit
e non lin
eaires

Une courbe de Rn est une fonction x telle quil existe > 0 telle que x(t) soit C 1 sur
] , [ et x(t) Rn . Soit x
C. Considerons une courbe x(t) definie pour t ] , [ et
verifiant
x(t) C, t ] , [,

x(0) = x
.

Une telle courbe est appelee courbe admissible en x


.
Puisque x(t) C, on a hi (x(t)) = 0, pour 1 i m et on peut donc ecrire :

d
hi (x(t)) = hi (x(t)) x(t)

= 0, 1 i m.
dt
Si on note y = x(0)

le vecteur tangent `a la courbe x(t) en t = 0, on a donc


hi (
x) y = 0, 1 i m.

(2.4)

Cela conduite `a la definition suivante.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

16

finition 18 On dit que y Rn est une direction admissible en x


De
, sil existe > 0 et
une courbe x(t) verifiant :
x(t) C, t ] , [,

(2.5)

x(0) = x
,

(2.6)

x(0)

= y.

(2.7)

On notera alors y T (C, x


).
Lensemble T (C, x
) definit lespace tangent `a C en x
. Lanalyse faite precedemment montre
que lon a limplication :
y T (C, x
) hi (
x) y = 0, 1 i m.
Nous allons maintenant montrer sous quelles conditions la relation (2.4) est une condition
suffisante pour y dappartenir `a T (C, x
).
finition 19 On dit quun point x C = {x | h(x) = 0} satisfait la condition de
De
qualification (CQ) si les vecteurs h1 (x), , hm (x) sont lineairement independants,
ou encore si la matrice jacobienne de h en x est de rang m.
Proposition 16 Si x
C et verifie (CQ), alors pour tout y Rn on a :
hi (
x) y = 0, i y T (C, x
).
Preuve. Soit y Rn verifiant hi (
x) y = 0, i. On consid`ere la courbe
x(t) = x
+ ty + h(
x) u(t).
La fonction u(t) Rm , pour linstant inconnue va etre determinee de sorte que h(x(t)) = 0.
Pour cela soit la fonction H : R Rm Rm definie par :
H(t, u) = h(
x + ty + h(
x) u).
Le probl`eme de la determination de u(t) se ram`ene donc `a la resolution de lequation
H(t, u) = 0
au voisinage du point (0, 0) de R Rm . On a dune part H(0, 0) = h(
x) = 0 et dautre
par :

H(0, 0) = h(
x)T h
x)
u

Puisque h
x) est de rang m, alors la matrice
H(0, 0) est inversible. On peut alors appliquer
u
le theor`eme des fonctions implicites : il existe un voisinage du point (0, 0) et une fonction u(t)
tels que
F (t, u) = 0 u = u(t).
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

17

Notons que u(0) = 0 puisque F (0, 0) = 0.


On a maintenant
x(t)

= y + h(
x)u(t)

soit en t = 0
x(0)

= y + h(
x)u(0)

Montrons que u(0)

= 0. Pour cela on ecrit :


d
h((x(t)) = h((x(t)))T (y + h(
x)u(t))

=0
dt
puisque h(x(t)) = 0, et donc en t = 0 la relation precedente prend la forme
d
h(x(t)) |t=0 = h(
x) y + h(
x)T h(
x) u(0)

= 0.
dt
Le premier terme du second membre est nul par hypoth`ese, et donc u(0)

= 0 puisque la matice
h(
x)T h
x)
est inversible. Donc x(0)

= y, soit y T (C, x
)
ore
`me 13 (Lagrange) Soit x
The
C verifiant (CQ). Si x
realise un minimum local
de F sur C, alors il existe un vecteur = (1 , , m ) Rm unique verifiant
F (
x) +

m
X
i=1

i hi (

x) = 0.

(2.8)

Les composantes du vecteur sont appelees multiplicateurs de Lagrange associes `a la solution x


.
Preuve. Soit y T (C, x
) et soit x(t) une courbe verifiant :
x(t) C, t ] , [,

(2.9)

x(0) = x
,

(2.10)

x(0)

= y.

(2.11)

alors il existe > 0 tel que


F (
x) = F (x(0)) F (x(t)), t ] , [
Donc 0 realise un minimum sur ] , [ de lapplication t F (x(t)). On a alors dapres les
CNPO,
d
F (x(t)) |t=0 = F (
x) T y = 0
dt
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

18

ce qui signifie que F (


x) se trouve dans lorthogonal de T (C, x
). Or
T (C, x
) = ker h(
x)T = T (C, x
) = Im h(
x)
il existe donc un vecteur Rm tel que
F (
x) =

m
X
i=1

i hi (
x)

Lunicite resulte du fait que h(


x) est de rang m.
finition 20 On appelle fonction de Lagrange ou Lagrangien associe probl`eme (PCE),
De
la fonction L : Rn Rm R definie par :
L(x, ) = F (x) +

m
X

i hi (x)

(2.12)

i=1

Do`
u la version lagrangienne du theor`eme13
ore
`me 14 (Lagrange(bis)) Soit x
The
C verifiant (CQ). Si x
realise un minimum
m
local de F sur C, alors il existe un vecteur = (1 , , m ) R unique verifiant
L
=0
(
x, )
x

2.1.2

(2.13)

Condition n
ecessaire du second ordre

ore
`me 15 Soit x
The
C verifiant (CQ). Si x
realise un minimum local de F sur C,
m

alors il existe R tel que


= 0,
x L(
x, )
et de plus pour tout y T (C, x
), y 6= 0, on a
0
y T 2xx L(
x, )y
est la matice hessienne par rapport a

o`
u 2xx L(
x, )
` la variable x de L au point (
x, )

2.1.3

Conditions suffisantes de minimalit


e

Rm
ore
`me 16 (Conditions suffisantes de minimalite
) Soit x
The
C et soit
tel que
(
=0
Dx L(
x, )
(2.14)
> 0, y T (C, x
2xx L(
x, )
)
Alors x
est un minimum local de F sur C.
Preuve La preuve se fait par labsurde. Supposons que x
ne realise pas un minimum local de
F sur C. Il existe donc une suite (xn ) de C verifiant :

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

19

xn x

xn 6= x
, n

F (xn ) F (
x), n.

Soit dn la suite definie par :

xn x

kxn x
k

(2.15)

tn = kxn x
k

(2.16)

dn =

Alors (dn ) est une suite de la sph`ere unite qui est compact, donc elle admet une suite extraite
encore notee (dn ) qui converge vers d 6= 0. On va montrer que d T (C, x
).
Posons :
Donc on xn = x
+ tn dn . Si on fait un deloppement de Taylor au voisinage de x
alors il existe
une fonction definie sur un voisinage de x
et [0, 1] tels (x) 0 quand x x
et
h(xn ) = h(
x) + tn Dh(
x).dn + tn kdn k(
x + tn dn )

(2.17)

Or h(xn ) = h(
x) = 0 car xn , x C, donc (2.17) entraine que :
tn Dh(
x).dn + tn kdn k(
x + tn dn ) = 0

(2.18)

En divisant par tn et faisant tendre n vers + on obtient d T (C, x


).
Faisons maintenant le developpement de Taylor de L(., ) en x
.
L(xn , ) = L(
x, ) + tn (Dx L(
x, ), dn ) +

tn 2
(Dx L(
x, )dn , dn ) + t2n kdn k2 n
2

(2.19)

avec n 0 quand n 0. De plus on a : L(xn , ) = F (xn ), L(


x, ) = F (
x) et Dx L(
x, ) =
0. Donc (2.19) entraine :
(Dx2 L(
x, )dn , dn ) + 2kdn k2 n =

F (xn ) F (
x)
0 car F (xn ) F (
x).
2
tn /2

(2.20)

En passant `a la limite, on obtient :


(Dx2 L(
x, )d, d) 0
Ce qui contredit lhypoth`ese (Dx2 L(
x, )d, d) > 0

2.2

Contraintes din
egalit
e

On sinteresse maintenant au probl`eme suivant, dit probl`eme doptimisation avec contraintes


dinegalite :

minn F (x),

xR
(2.21)
(P CI)

g(x) 0,
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

20

o`
u g : Rn Rm est differentiable (aucune condition sur m). On notera K, lensemble des
points admissibles, cest `a dire
K = {x Rn | g(x) 0}
Au point solution de (PCI) il va de soi que les contraintes effectivement actives verifierons
gi (x) = 0. Cependant, puisque lon ne sait pas `a priori quelles sont ces contraintes, le passage
de (PCI) `a un probl`eme du type (PCE) nest pas direct.
finition 21 On appelle contraintes saturees en x
De
, lensemble des indices i tel que
gi (
x) = 0, et on note
I(
x) = {i | gi (
x) = 0}.
On note alors S(
x), lensemble
S(
x) = {x Rn , gi (x) = 0, i I(
x)}
Le concept de direction admissible se definit comme suit :
finition 22 On dit que y Rn est une direction admissible en x
De
K, sil existe > 0
et une courbe x(t) verifiant
x(t) K, t ] , [,

x(0) = x
,
x(0)

= y.

On note par C(
x), lensemble des directions admissibles en x
.
On peut remarquer que si y Rn est une direction admissible en x
, alors, necessairement
gi (
x) y 0, i I(
x)
finition 23 On dit que x
De
K verifie la condition de qualification (CQ) si les vecteurs
{gi (
x), i I(
x)} sont lineairement independants
Lemme 2 Si x
verfie (CQ), alors alors on a :
gi (
x) y 0, y I(
x) y C(
x)
Proposition 17 Soit x
la solution de (PCI). Il existe > 0 tel que :
x B(
x, ), gi (x) < 0, i I(
x).
Par consequent x
est la solution du probl`eme
(
min F (x),
xB(
x,)

gi (x) = 0, i I(
x).

(2.22)

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes

21

Ce resultat est intimement lie `a la continuite des gi .


ore
`me 17 (Karush-Kuhn-Tucker) Si x
The
K est un minimum local de F sur K, et si
= (
1, ,
m ) Rm tel que :
x
satisfait (CQ) alors il existe un unique vecteur
F (
x) +

m
X
i=1

i gi (

x) = 0,
i 0, i = 1, , m,

i gi (

x) = 0, i = 1, , m.

(2.23)
(2.24)
(2.25)

Preuve Les conditions (2.23) et (2.25) sont une consequence directe du theor`eme de Lagrange,
car il suffit de prendre i = 0 pour i
/ I(
x). Montrons (2.24) par absurde. Supposons quil
existe k I(
x) tel que k < 0. On definit la surface :
Sk = {x | gi (x) = 0, i I(
x), i 6= k}
Soit y Rn tel que :
gi (
x) y = 0, i I(
x), i 6= k,

gk (
x) y = 1.

alors y est une direction admissible en x


puisque
gi (
x) y 0, i I(
x),
et x
verifie (CQ). Il existe donc une courbe x(t) Sk et verifiant de plus x(t) K pour tout
t [, alpha] telle que x(0)

= y. On donc :
d
F (x(t)) | t=0 = F (
x) y,
dt
m
X
i gi (
x) y,
=
i=1

= k gk (
x) y = k < 0,

ce qui est absurde car F atteint sont minimum en x


.

2.2.1
2.2.1.1

Exemples de probl`
emes
Distance dun point `
a un plan

On cherche `a calculer la distance dun point x0 Rn au plan defini par lequation Ax = b,


o`
u A est une m n matrice de rang m. Ce probleme se pose sous la forme

1
2

minn kx x0 k
xR 2
(2.26)

Ax b = 0.
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

Optimisation sous contraintes


2.2.1.2

22

Pseudo-inverse de Moore et Pensose

On cherche `a resoudre le syst`eme :


Ax = b,

(2.27)

avec A une m n matrice de rang m et m < n. Il sagit donc dun syst`eme sous-determine.
La Pseudo-inverse de Moore et Pensose est par definition la matrice A 0 telle que le vecteur :
x
= A0 b
est la solution de norme minimale du syst`eme (2.27). Le probl`eme doptimisation `a resoudre
est donc :

1
2

minn kxk
xR 2
(2.28)

Ax b = 0.

Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005

You might also like