You are on page 1of 11

Metodo dei moltiplicatori di Lagrange

Da Wikipedia, l'enciclopedia libera.

Figure 1: Find x and y to maximize f(x,y) subject to a constraint (shown in red) g(x,y) = c.

Figure 2: Contour map of Figure 1. The red line shows the constraint g(x,y) = c. The blue lines are
contours of f(x,y). The point where the red line tangentially touches a blue line is our solution.

Nei problemi di ottimizzazione, quello dei moltiplicatori di Lagrange (così chiamati da Joseph
Louis Lagrange) è un metodo per trovare i massimi e i minimi di una funzione di più variabili
soggetta a una o più vincoli: è lo strumento di base nell'ottimizzazione nonlineare vincolata.

I moltiplicatori di Lagrange calcolano i punti stazionari della funzione vincolata; dal teorema di
Fermat sui punti stazionari, i massimi e i minimi si trovano tra questi (o sul bordo o nei punti in cui
la funzione non è differenziabile).

Questo metodo riduce la ricerca dei punti stazionari di una funzione vincolata in n variabili con k
vincoli a trovare i punti stazionari di una funzione non vincolata in n+k variabili: esso introduce una
nuova variabile scalare incognita, il moltiplicatore di Lagrange appunto, per ogni vincolo e
definisce una nuova funzione (la Lagrangiana) in termini della funzione originaria, dei vincolo e dei
moltiplicatori di Lagrange.

For example (see Figure 1 on the right), consider the optimization problem

maximize
subject to
We introduce a new variable (λ) called a Lagrange multiplier, and study the Lagrange function
defined by

If (x,y) is a maximum for the original constrained problem, then there exists a λ such that (x,y,λ) is a
stationary point for the Lagrange function (stationary points are those points where the partial
derivatives of Λ are zero). However, not all stationary points yield a solution of the original
problem. Thus, the method of Lagrange multipliers yields a necessary condition for optimality in
constrained problems.[1]

Indice

[nascondi]

• 1 Introduzione
o 1.1 Attenzione: differenze tra massimi e minimi e punti stazionari
• 2 Il metodo dei moltiplicatori di Lagrange
• 3 Esempio
o 3.1 Esempio semplicissimo
o 3.2 Esempio semplice
o 3.3 Esempio: entropia
• 4 Economia
• 5 Applicazione del metodo per funzioni con 2 variabili ed un vincolo di eguaglianza
• 6 In presenza di disequazioni

• 7 Note correlate

Introduzione [modifica]
Consideriamo il caso bidimensionale. Supponiamo di avere una funzione, f(x,y), da massimizzare
soggetta al vincolo:

ove c è una costante. Possiamo visualizzare le curve di livello della f date da

per vari valori di dn, e le curve di livello della g date da g(x,y) = c.

Supponiamo di camminare lungo la curva di livello con g = c. In generale le curve di livello della f
e della g possono essere distinte, quindi la curva di livello per g = c potrebbe passare attraverso le
curve di livello della f. Questo equivale a dire che mentre ci si muove lungo la curva di livello per g
= c il valore della f potrebbe variare. Solo quando la curva di livello per g = c tocca le curve di
livello della f in modo tangente, il valore della f non aumenta né diminuisce - cioè, le curve di
livello toccano ma non attraversano.
Questo succede esattamente quando la componente tangente della derivata totale si annulla:
, cioè nei punti stazionari vincolati della f (che includono i massimi e minimi locali,
assumendo che f sia differenziabile). In equazioni, questo succede quando il gradiente della f è
perpendicolare al vincolo (o ai vincoli), ovvero quando grad f è una combinazione lineare delle grad
gi.

Un esempio familiare può essere ottenuto dalle mappe meteorologiche, con le loro curve di livello
per temperatura e pressione: i massimi e minimi vincolati capiteranno dove le mappe sovrapposte
mostrano linee tangenti (isoplete).

Geometricamente traduciamo la condizione di tangenza dicendo che i gradienti della f e della g


sono vettori paralleli dove c'è un massimo, visto che i gradienti sono sempre perpendicolari alle
curve di livello. Introducendo uno scalare incognito, λ, dobbiamo risolvere

per λ ≠ 0.

Una volta che i valori per λ sono stati determinati, torniamo al numero originario di variabili e
possiamo quindi continuare a trovare i punti stazionari della nuova funzione non vincolata

nel modo tradizionale. Cioè, F(x,y) = f(x,y) per ogni (x,y) che soddisfano il vincolo perché g(x,y) − c
è uguale a zero sul vincolo, ma i punti stazionari della F(x,y) sono tutti su g(x,y) = c. (Come può
essere visto ponendo il gradiente uguale a zero.)

Attenzione: differenze tra massimi e minimi e punti stazionari [modifica]

Bisogna essere consapevoli del fatto che le soluzioni sono punti stazionari della Lagrangiana Λ, e
questi possono essere anche punti di sella: questi non sono né massimi né minimi di Λ o F. Λ è
illimitata: dato un punto (x,y) che non giace sul vincolo, facendo il limite per si rende Λ
arbitrariamente grande o piccola.

Il metodo dei moltiplicatori di Lagrange [modifica]


Sia f una funzione definita su Rn, e siano i vincoli dati da gk(x) = 0 (ottenuti da un' equazione del
tipo hk(x) = c con gk(x) = hk(x) - c). Ora si definisca la Lagrangiana, Λ, come

Si osservi che sia il criterio di ottimizzazione sia i vincoli gk sono compresi in modo compatto come
punti stazionari della Lagrangiana:

e
Spesso i moltiplicatori di Lagrange hanno un'interpretazione come una certa quantità interessante.
Per vedere perché ciò può capitare, si osservi che:

Dunque, λk è la velocità con cui cambia la quantità da ottimizzare come funzione della variabile
vincolata. Come esempi, nella meccanica lagrangiana le equazioni del moto sono ottenute trovando
i punti stazionari dell'azione, l'integrale nel tempo della differenza tra energia cinetica e potenziale.
Dunque, la forza su una particella dovuta a un potenziale scalare, F = −∇V, può essere interpretata
come un moltiplicatore di Lagrange che determina il cambiamento dell'azione (trasferimento di
energia potenziale in energia cinetica) conseguente a una variazione della traiettoria vincolata della
particella. In economia, il profitto ottimale per un giocatore è calcolato in base a uno spazio di
azione vincolato, dove un moltiplicatore di Lagrange indica il rilassamento di un dato vincolo (ad
esempio attraverso la corruzione o altri mezzi).

Il metodo dei moltiplicatori di Lagrange è generalizzato dalle condizioni di Karush-Kuhn-Tucker.

Esempio [modifica]
Esempio semplicissimo [modifica]

Fig. 2. Illustrazione del problema di ottimizzazione vincolata.

Supponi di voler massimizzare f(x,y) = x + y sotto il vincolo x2 + y2 = 1. Il vincolo è il cerchio


unitario, e le curve di livello della f sono rette diagonali (con pendenza -1), così si può vedere
graficamente che il massimo viene raggiunto in (e il minimo viene raggiunto in
)

Formalmente, poniamo g(x,y) = x2 + y2 − 1, e

Λ(x,y,λ) = f(x,y) + λg(x,y) = x + y + λ(x2 + y2 − 1)


Poniamo la derivata dΛ = 0, ottenendo il sistema di equazioni:

Come sempre, la derivata rispetto a λ è il vincolo originario.

Combinando le prime due equazioni si ottiene x = y (esplicitamente, visto che (altrimenti (i)
implica 1 = 0), si può risolvere rispetto a λ, ottenendo λ = − 1 / (2x), che va sostituito nella (ii)).

Sostituendo nella (iii) si ottiene 2x2 = 1, cosicché e i punti stazionari sono


e . Valutando la funzione studiata f su questi si ottiene

dunque il massimo è , raggiunto nel punto , e il minimo è , raggiunto


nel punto .

N.B. Essendo f una funzione continua definita sul vincolo che è un insieme chiuso e limitato, essa
ammette sicuramente un minimo e un massimo assoluti.

Esempio semplice [modifica]

Supponiamo di voler trovare i valori di massimo per la funzione

con la condizione che (x,y) giace sul cerchio centrato nell'origine di raggio √3, cioè,

Visto che c'è una sola condizione, useremo un solo moltiplicatore, diciamo λ.

Usiamo il vincolo per definire una funzione g(x, y):

La funzione g è identicamente nulla sul cerchio di raggio √3. Dunque ogni multiplo di g(x, y) può
essere aggiunto alla f(x, y) senza cambiarne il valore sul vincolo. Sia
I valori critici di Λ capitano quando il suo gradiente è zero. Le derivate parziali sono

L'equazione (iii) è semplicemente il vincolo originario. L'equazione (i) implica λ = −y o x = 0. Se x


= 0 allora dobbiamo avere per la (iii) e dalla (ii) otteniamo che λ=0. Se invece λ = −y,
sostituendo nell'equazione (ii) abbiamo che,

Quindi x² = 2y². Sostituendo nell'equazione (iii) e risolvendo rispetto a y si ottiene per y il valore
seguente:

Chiaramente ci sono sei punti critici:

Valutando la funzione studiata in questi punti, troviamo

Perciò, la funzione studiata raggiunge il suo massimo in

e un minimo in altri due punti critici. I punti sono punti di sella.

Esempio: entropia [modifica]

Supponiamo di voler trovare la distribuzione di probabilità discreta con entropia d'informazione


massimale. Allora

Chiaramente, la somma di queste probabilità fa 1, quindi il nostro vincolo è g(p) = 1 con


Possiamo usare i moltiplicatori di Lagrange per trovare il punto di massima entropia (dipendente
dalle probabilità). Per tutti i k da 1 a n, richiediamo che

da cui si ottiene

Procedendo con la derivazione di queste n equazioni, otteniamo

Questo dimostra che tutti i pi sono uguali (perché dipendono da λ soltanto). Utilizzando il vincolo
∑k pk = 1, troviamo

Dunque, la distribuzione uniforme è la distribuzione di massima entropia.

Economia [modifica]
L'ottimizzazione vincolata gioca un ruolo centrale in economia. Per esempio il problema della
scelta per un consumatore è rappresentato come quello che massimizza una funzione di utilità
soggetta a un vincolo di budget. Il moltiplicatore di Lagrange ha una interpretazione economica
come shadow price associato al vincolo, in questo caso l'utilità marginale del capitale.

Questa voce o sezione di matematica non riporta fonti o riferimenti.


Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili, secondo le linee guida sull'uso
delle fonti.

Applicazione del metodo per funzioni con 2 variabili ed un


vincolo di eguaglianza [modifica]
1) Scrivere la funzione lagrangiana .

Lo studio del lagrangiano non fornisce informazioni sul vincolo g(x,y). È invece fondamentale per
studiare la funzione definita su un insieme aperto: i punti critici della funzione lagrangiana sono
anche punti critici per la funzione iniziale f(x,y) che si intende studiare. In altre parole, se un punto
(x0,y0) è di massimo/minimo/sella per la funzione lagrangiana, esso è un punto di
massimo/minimo/sella anche per la funzione f(x,y).

2) Calcolare il gradiente della funzione (non f(x,y)).


3) Definire un sistema formato dalle equazioni del gradiente poste uguali a 0 e

La soluzione del sistema fornisce le coordinate dei punti critici. Un punto critico è un punto nel
quale si annullano le derivate prime e può essere un massimo, un minimo o un punto di sella.

4) Si calcolano le derivate seconde e dunque il carattere della matrice hessiana orlata dal vincolo
H(f) calcolata per le variabili x e y orlata delle derivate prime del vincolo per ognuno dei punti
critici.[2][3].

Se la matrice orlata calcolata nel punto è:

• Definita Positiva → il punto è un minimo


• Definita Negativa → il punto è un massimo
• Semidefinita Positiva → il punto potrebbe essere un minimo
• Semidefinita Negativa → il punto potrebbe essere un massimo
• Indefinita → il punto è un punto di sella

per determinare il carattere della matrice orlata si calcola il segno dei determinanti degli ultimi m -
n minori principali della diagonale di nord ovest. dove m è il numero di variabili della funzione di
partenza e n il numero dei vincoli ai quali è soggetta lo studio.

• Qualora tutti i determinanti abbiano segno negativo la matrice è definita positiva.


• Qualora i determinati abbiano segno uguale a ( − 1)k dove k è il rango del minore principale
in considerazione allora è definita negativa.
• Qualora, ponendoci nei casi precendeti almeno un determinante risulta pari a zero allora la
matrice è rispettivamente semidefinita positiva o negativa
• Negli altri casi è indefinita

In presenza di disequazioni [modifica]


Se i vincoli che vengono presentati sono disequazioni si procede come segue:

• In caso di massimizzazione porre il vincolo nella forma normale


• In caso di minimizzazione porre il vincolo nella forma normale
• Il sistema da risolvere si trasforma in
• Procedere con il calcolo del carattere della matrice hessiana orlata

Note correlate [modifica]


1. ^ {{{author}}}, "Lagrange multipliers" SpringerLink Encyclopaedia of Mathematics (2001).
2. ^ Le derivate seconde sono quattro, quelle da calcolare tre poiché le derivate miste sono uguali.
Le derivate sono: derivata rispetto a x della derivata prima rispetto a x (viene derivata una seconda
volta), derivata rispetto a y della derivata prima rispetto a y, derivata rispetto a y della derivata prima
rispetto a x. quest'ultima, derivata mista, coincide con la derivata rispetto a x della derivata prima
rispetto a y.
3. ^ Dal calcolo delle derivate seconde si ottiene una matrice di funzioni. Occorre poi sostituire le
coordinate di ognuno dei punti critici, calcolare il determinante della matrice e studiarne il segno

Matrice hessiana
Da Wikipedia, l'enciclopedia libera.

In matematica la matrice hessiana di una funzione di n variabili è la matrice quadrata n × n delle


derivate parziali seconde della funzione.

Data la funzione reale di n variabili reali

se tutte le derivate parziali seconde di f esistono, allora si definisce matrice hessiana della f la
matrice , dove

Questa particolare matrice prende il nome del matematico tedesco Ludwig Otto Hesse (1811-1874).

Indice

[nascondi]

• 1 Derivate miste e simmetria dell'hessiana


• 2 Punti critici e discriminante
• 3 Test per la derivata seconda
• 4 Funzioni a valori vettoriali

• 5 Voci correlate
Derivate miste e simmetria dell'hessiana [modifica]
Gli elementi fuori dalla diagonale principale nell'hessiana sono le derivate miste della funzione f .
Con opportune ipotesi, vale il teorema seguente:

Questa uguaglianza si scrive anche come:

In termini formali: se tutte le derivate seconde di f sono continue in una regione Ω, allora l'hessiana
di f è una matrice simmetrica in ogni punto di Ω. La veridicità di questa affermazione è nota come
teorema di Schwarz.

Punti critici e discriminante [modifica]


Se il gradiente della funzione f è nullo in un punto x appartenente al dominio della funzione, allora f
in x ha un punto critico. Il determinante dell'hessiana in x è anche detto discriminante in x. Se
questo determinante è zero allora x è chiamato punto critico degenere della f. Negli altri punti viene
chiamato non degenere.

Test per la derivata seconda [modifica]


Il seguente criterio può essere applicato in un punto critico non degenere x:

• se l'hessiana è una matrice definita positiva in x, allora f ha un minimo locale in x;

• se l'hessiana è una matrice definita negativa in x, allora f ha un massimo locale in x;

• se l'hessiana ha tutti gli autovalori non nulli e di entrambi i segni allora x è un punto di sella
per f.

Altrimenti il test è inconclusivo. Nota che per hessiane semidefinite positive e semidefinite negative
il test è inconclusivo. Quindi, possiamo vedere di più dal punto di vista della teoria di Morse.

Tenuto conto di quanto è stato appena detto, il test per le derivate seconde per funzioni di una e due
variabili sono semplici. In una variabile, l'hessiana contiene appena una derivata seconda:

• se questa è positiva allora x è un minimo locale, se questa è negativa allora x è un massimo


locale;

• se questa è zero allora il test è inconclusivo.

In due variabili, può essere usato il determinante, perché è il prodotto degli autovalori:

• se questo è positivo allora gli autovalori sono entrambi positivi, o entrambi negativi;
• se questo è negativo allora i due autovalori hanno differente segno

• se questo è zero, allora il test della derivata seconda è inconclusivo;

Funzioni a valori vettoriali [modifica]


Se f è invece una funzione a valori vettoriali, cioè se

allora il vettore delle derivate parziali seconde non è una matrice, ma un tensore di rango 3.