Professional Documents
Culture Documents
Christian Marinoni
Copyright c 2019 Christian Marinoni
‘
Table des matières
1 ESPACES VECTORIELS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Espaces vectoriels 5
1.1.1 Espaces vectoriels linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Espace dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Espace vectoriel normé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Espaces Euclidiens ou Hernitiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Représentation des vecteurs et opérateurs dans une base 12
1.2.1 Le théorème de Riesz-Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Changemen de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.3 Le statut particulier des bases orthonormales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4 Métrique associée à une base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Résumé 26
1.4 Exercices 27
2 COORDONNEES CURVILIGNES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Systèmes de coordonnées 30
2.2 Mesures métriques I : éléments de ligne 32
2.3 Bases associées à un système de coordonnées 36
2.3.1 La base holonomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Transformation de coordonnées 40
2.4.1 Coordonnées et invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2 Matrice de passage entre systèmes de coordonnées . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Transformation des composantes vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5 Dérivées de vecteurs géométriques 46
2.6 Mesures métriques II : éléments de surface et de volume 49
4
2.7 Résumé 51
2.8 Exercices 51
4 FONCTIONS ORTHOGONALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1 Espaces de fonctions 96
4.2 Bases orthonormales des fonctions 100
4.3 Polynômes orthonormaux 104
4.3.1 Polynômes de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.3.2 Polynômes de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3.3 Polynômes d’Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.3.4 Polynômes de Tchebychef de première espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.5 Polynômes de Tchebychef de seconde espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.4 Resumé 116
4.5 Exercises 117
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
1. ESPACES VECTORIELS
Dans cette première leçon, nous examinerons la structure et les propriétés des espaces vectoriels.
Nous verrons que l’espace vectoriel est une construction abstraite qui permet d’unifier un ensemble
apparemment distinct d’objets. Nous reconnaîtrons que des classes disparates d’éléments tels que
la classe des matrices, la classe des fonctions continues, la classe des vecteurs géométriques de
l’espace et bien d’autres partagent la même propriétée sous-jacente : les elements de ces classes
satisfont à une liste commune d’axiomes et ils ont donc le droit d’être appelées habitants d’un
même type d’espace, l’espace vectoriel. Nous verrons aussi que nous pouvons opérer avec des
opérations algébriques sur les éléments d’un espace vectoriel, nous pouvons les transformer dans
des nouveaux éléments et éventuellement comprendre quand deux espaces sont identiques en
forme et propriétés. On pourra éventuellement définir des opérations permettant de quantifier la
‘taille’ d’un élément d’un espace vectoriel, de trouver la distance entre deux éléments et en général
d’établir une métrique qui aide à saisir toutes les propriétés géométriques de l’espace.
Un ensemble est riens d’autre qu’une collection d’éléments distincts satisfaisants à des propriétés
données. Ces propriétés permettent de distinguer les éléments qui appartiennent ou non à l’ensemble.
Une structure minimale dont nous voudrions qu’un espace soit muni est un moyen d’établir des
relations entre des points appartenant à un ensemble et des points appartenant à un autre ensemble.
L’outil le plus évident que nous pouvons introduire pour atteindre cet objectif est le concept de
fonction. Une fonction est un moyen d’associer à chaque élément d’un espace (domaine) D un et
un seul élément d’un espace différent appelé codomaine T .
Definition 1.1.2 — Fonction. Une fonction φ : D → T entre deux ensembles D et T , appelés
respectivement domaine et codomaine, est une loi qui associe, de manière unique, à chaque
point du domaine, quelques points du codomaine T . Nous appelons image le sous-ensemble de
6 Chapitre 1. ESPACES VECTORIELS
Il est intéressant de noter que des structures plus riches peuvent être définies en introduisant des
opérations multiples entre les éléments d’un espace. Par exemple, les anneaux et les champs sont
des examples de structures algébriques plus complexes que les groupes. Notamment, un champ
(S, +, ·) est un ensemble S muni de deux opérations, appelées addition et multiplication, ayant la
structure de groupe abélien sous addition et multiplication, et tel que l’opération ‘·’ est distributive
sur l’opération ‘+’. Les éléments d’un champ sont appelés scalaires. L’ensemble des nombres réels
a la structure algébrique d’un champ. Encore plus riches en propriétés sont les espaces vectoriels,
pour lesquels de multiples opérations peuvent être aussi définies.
Definition 1.1.4 — Espace vectoriel (ou linéaire). Un espace vectoriel V sur un champ K est
un quadruplet (V, K, ⊕, ) comprenant un espace V, le champ K et deux opérations
v-somme ⊕ : V × V → V
s-multiplication : K × V → V
satisfaisant aux huit axiomes suivants
C ⊕ Commutatif : v ⊕ w = w ⊕ v
A⊕ Associatif : (u ⊕ v) ⊕ w = u ⊕ (v ⊕ w)
N ⊕ Élément neutre ⊕ : ∃ e | e ⊕ v = v
I ⊕ Élément inverse : ∀ v ∈ V ∃ −v | v ⊕ (−v) = e
A Associatif : (λµ) v = λ(µ v)
D Distributif p/r aux scalaires : (λ + µ) v = λ v ⊕ µ v
D Distributive p/r aux vecteurs : λ (v ⊕ w) = λ v ⊕ λ w
N Élément neutre : ∀ v ∈ V ∃ 1 ∈ K | 1 v = v
Les éléments de V sont appelés vecteurs, puisque leurs propriétés sont analogues à celles
satisfaites par les vecteurs géométriques (segments orientés) de l’espace R3 . Nous les indiquerons
en caractère gras. Par exemple v est un élément d’un espace vectoriel. Notons aussi que si K est le
champ des nombres réels ou complexes, nous dirons simplement espace vectoriel réel ou espace
vectoriel complexe.
L’espace VN sur les réels R contenant des vecteurs géométriques, c-à-d tous les segments
orientés reliants les points de RN , muni de la v-somme définie via la règle du parallélogramme, et
la s-multiplication λ v qui défini un vecteur ayant la même direction de u si λ > 0, la direction
opposée si λ < 0, et la longueur zéro si λ = 0, est un espace vectoriel.
1.1 Espaces vectoriels 7
L’espace RN lui-même, dont les éléments sont les N-uplet ordonnés de nombres réel est un
espace vectoriel sur R. La v-somme ⊕ de deux éléments de RN , u et v, est définie comme suit
(u1 , u2 , ...., uN ) ⊕ (u1 , u2 , ...., uN ) = (u1 + v1 , u2 + v2 , ...., uN + vN ) tandis que la s-multiplication pour un
scalaire λ ∈ R est définie comme suit : λ (u1 , u2 , ....uN ) = (λ u1 , λ u2 , ...., λ uN ).
L’ensemble Mm,n des matrices avec m lignes et n colonnes dont les elements appartiennent à
K, avec l’opération de v-somme définie comme (A ⊕ B)i j = Ai j + Bi j ainsi que la s-multiplication
définie comme (c A)i j = cAi j est un espace vectoriel sur K.
L’espace FR des fonctions réelles f : D → R transformants le point p ∈ D dans le nombre
réel f (p), avec la v-somme définie comme ( f ⊕ g)(p) = f (p) + g(p) et la s-multiplication définie
comme (λ f )(p) = λ f (p) est un espace vectoriel. Les ensembles de fonctions continues, fonctions
dérivables, fonctions intégrables sont aussi des exemples d’espaces vectoriels. L’espace linéaire et
l’espaces dual, qu’on va bientôt introduire, sont des espaces vectoriels moins évidents, mais tout
aussi importants.
Par conséquent, si nous avons deux espaces vectoriels, nous pouvons toujours en construire un
nouveau, l’ensemble de toutes les opérateurs linéaires entre ces deux espaces vectoriels.
Une transformation linéaire entre deux espaces vectoriels est un exemple d’homomorphisme,
c.-à-d. d’une opération qui préserve la structure algébrique des deux espaces.
Definition 1.1.7 — Homomorphisme. Une transformation f : A → B entre l’espace A, muni
de l’opération binaire ∗, et l’espace B, muni de l’opération binaire ?, est un homomorphisms si
f (a ∗ b) = f (a) ? f (b).
Par exemple, puisque am+n = am an pour tous les entiers m et n, la fonction f : Z → R, où f (n) ≡ an ,
satisfait f (m + n) = f (m) f (n). Par conséquent, f est un homomorphisme de l’ensemble additif Z à
l’ensemble multiplicatif R.
∼
Considérons la transformation linéaire H : V − → W. Si V = W, alors H est appelée endomor-
phisme. Si H est bijective, on l’appelera isomorphisme.
8 Chapitre 1. ESPACES VECTORIELS
Le noyau (ker) d’une transformation linéaire est la structure mathématique qui quantifie si
l’application est injective.
Definition 1.1.8 — Kernel. Soient U et V des espaces vectoriels sur le champ K et soit H une
transformation linéaire de U à V. Le noyau de H, ker H, est l’ensemble de tous les vecteurs u
en U pour lesquels H[u] = 0V , où 0V est le vecteur nul en V.
∼
Theorem 1.1.1 Une transformation linéaire H[...] : U −
→ V est injective si et seulement si
kerH = {0U }, où 0U est le vecteur nul en U.
Proof Nous démontrons d’abord que deux vecteurs u et v de U n’ont la même image que s’ils
appartiennent au ker, c’est-à-dire u − v ∈ ker H. En effet, si H[u] = H[v] alors H[u − v] = 0,
ainsi u − v ∈ ker H. Inversement, si u − v ∈ ker H alors H[u] = H[v]. La transformation est
injective si et seulement si u = v. Donc ker H = {0U }.
Si une transformation H est surjective alors son image est égale au codomaine. Les théorèmes
suivants aident à déterminer si une application est injective ou surjective.
∼
Theorem 1.1.2 — Le théorème Image-ker. Etant donnée la transformation lineaire H : V −
→W
entre deux espaces vectoriels à dimensions finies, la dimension (Dim) de l’image plus celle du
noyau est égale à celle du domaine :
Malgré leur nom, les fonctions linéaires sont des vecteurs, c’est-à-dire des éléments d’un espace
vectoriel ! Ils sont donc souvent appelés vecteurs duals.
Montrer qu’il s’agit d’un fonctionnel linéaire et qu’il satisfait aux axiomes de l’espace vectoriel.
sont dotés de longueur, nous voulons pouvoir associer une ‘taille’ aussi à des vecteurs plus abstraits
telles que les elements d’un espace vectoriel. À cette fin, nous définissons une nouvelle structure
mathématique, appelée norme et indiquée par ||...||, qui agit sur les éléments d’un espace vectoriel
et qui mesure la ‘taille’ de l’élément en lui assignant un nombre strictement positif. Cette grandeur
mathématique est définie de façon abstraite par le biais des trois axiomes suivants.
Definition 1.1.10 — Norme d’un vecteur. Étant donné un espace vectoriel (V, K, ⊕, ), une
norme ||...|| est une application ||...|| : V → [0, +∞) avec les propriétés suivantes :
Positivité : ∀ v ∈ V ||v|| ≥ 0 et ||v|| = 0 si et seulement si v = 0
Inégalité triangulaire : ∀ u, v ∈ V ||u + v|| ≤ ||u|| + ||v||
Homogénéité linéaire : ∀λ ∈ K ||λ v|| = |λ|||v||.
Les espaces vectoriels pour lesquels nous pouvons définir une norme sont appelés espaces vectoriels
normés. Il y a clairement plus d’une façon de mesurer la ‘taille’ d’un vecteur, selon le contexte
spécifique, cependant toute l’opération que l’on peut définir doit satisfaire aux propriétés susmen-
tionnées. Par exemple, on peut vérifier que la norme d’un vecteur géométrique, définie comme
√
||u|| = u · u (où le symbol · indique le produit scalaire entre vecteurs géométriques, définie comme
u · v ≡ uv cos θ où u et v sont les longueurs des segments orientés de l’espace et θ l’angle entre eux)
vérifie les axiomes de la norme, et donc l’espace VN des vecteurs géométriques est aussi un espace
vectoriel normé.
Exercise 1.2 Soient a et b deux vecteurs arbitraires d’un espace vectoriel réel. Est-ce que la
norme ||a|| est un fonctionnel ? est-ce une application linéaire ? Est-ce un élément d’un espace
vectoriel ?
La distance est une fonction d qui associe à une paire d’éléments p et q d’un espace S un
nombre réel d(p, q) et qui vérifie les trois axiomes suivants
— d(p, q) ≥ 0 et d(p, q) = 0 si et seulement si p = q
— d(p, q) = d(q, p) pour tout p, q ∈ S.
— d(p, q) ≤ d(p, r) + d(r, q) pour tout p, q, r ∈ S.
Definition 1.1.11 — Espace métrique. Un espace métrique est un ensemble au sein duquel une
notion de distance entre les éléments de l’ensemble est définie.
Dans un espace vectoriel normé, on peut toujours définir la distance entre deux vecteurs comme
suit
d(a, b) ≡ ||b − a||. (1.2)
Il est trivial de vérifier que cette fonction satisfait les propriétés axiomatiques d’une distance. Nous
concluons donc qu’un espace normé est aussi un espace métrique.
Definition 1.1.12 — Espace muni d’une forme sesquilinéaire. Considérons l’espace vectoriel
(V, K, ⊕, ). Une forme sesquilinéaire sur K est une application (..., ...) : V × V → K qui est
— Symétrique par conjugaison : ∀u, v ∈ V, (v, u) = (u, v)
— Linéaire dans le deuxième argument : ∀µ, ν ∈ K, (v, λ u1 ⊕ µ u2 ) = λ(v, u1 ) + µ(v, u2 )
— Définie positive : ∀ v ∈ V, (v, v) ≥ 0 et (v, v) = 0 si et seulement si v = 0.
Un espace vectoriel équipé d’une forme sesquilinéaire sur K est appelé espace pré-Hilbertien.
(u, v) = 0. (1.3)
Nous mentionnons également que les éléments d’un tel espace satisfont l’inégalité de Cauchy-
Schwarz-Bunyakovsky .
C’est considéré comme l’une des inégalités les plus importantes dans l’ensemble des mathématiques,
alors j’en esquisse une preuve. Les cas v = 0 et v perpendiculaires à u est trivial, donc supposons
que le contraire soit vrai. For all λ ∈ R,
Puisque le polynôme quadratique de λ ci-dessus n’a pas de zéros, le discriminant ∆ doit être négatif
∆ = 4λ2 (u, v)2 − 4λ2 ||u||2 ||v||2 < 0. On obtient donc que |(u, v)| ≤ ||u||||v||.
Exercise 1.3 Soient a et b deux vecteurs géomé́triqués de V3 . Est-ce que la norme ||a|| est une
application linéaire ? Sinon, la quantité ||a + b|| est plus grande ou plus petite que ||a|| + ||b|| ?
Definition 1.1.14 — Espaces euclidiens. Un espace euclidien est un espace vectoriel réel E
doté d’une forme sesquilinéaire.
Comme exemple d’espace euclidien on peut considèrer l’ensemble V3 sur R contenant tous
les segments orientés joignant les points de R3 , c’est-à-dire les vecteurs géométriques. On peut
facilement vérifier que l’application (...., ....) : V3 × V3 → R définie comme (u, v) ≡ uv cos θ où u
et v sont les longueurs des segments orientés de l’espace et θ l’angle entre eux, satisfait toutes les
1. Il y a deux conventions pour la linéarité de la forme sesquilinéaire. Dans la plupart de la littérature mathématique,
(..., ...) est linéaire dans le premier argument. Nous adoptons la convention selon laquelle la forme est linéaire dans le
deuxième argument ce qui est plus courant en mathématiques appliquées et en physique.
1.1 Espaces vectoriels 11
propriétés d’une forme sesquilinéaire. Ce spécifique produit Euclidien est appelé produit scalaire
entre vecteurs géométriques et il est indiqué comme (u, v) = u · v. L’espace, V3 avec le produit
scalaire est donc un example d’espace euclidien.
Exercise 1.4 Considérons l’espace vectoriel réel R2 ainsi que la la forme qui associe à chaque
vecteur x = {x1 , x2 } et y = {y1 , y2 } de R2 le nombre réel
Vérifiez qu’un tel espace, avec cette forme est un espace euclidien.
Solution On doit verifier si la forme (1.5) est une forme sesquilinéaire. La première propriete
1.1.12 est satisfaite. En effet
En utilisant des manipulations algb́riques similaires, on peut verifier que la forme est linéaire
dans le deuxième argument. La forme est aussi définie positive. En fait
Exercise 1.5 Considérons l’espace vectoriel réel C[a, b] des fonctions continues dans l’interval
[a, b] ayants valeurs réels. Considérons la forme
Z b
( f, g) = f (x)g(x)dx (1.6)
a
qui associé à chaque fonction f (x) et g(x) de C[a, b] un nombre reél. Cette espace est il euclidien ?
Solution La forme (1.6) est bien une forme sesquilinéaire. En fait, en utilisant les propriétés
des intégrales on peut facilement verifier que les conditions 1.1.12 sont satisfaites. Notez que
l’hypothèse de continuité est essentielle afin de garantir que l’unique fonction f telle que
Z b
( f, f ) = f 2 (x)dx = 0
a
est la fonction identiquement nulle en [a, b], c.-à-d. le vecteur nul de C[a, b]. Cet espace est un
exemple d’espace euclidien ayant une dimension infinie.
D’autres espaces intéressants peuvent être construits à partir de l’algèbre des formes sesquili-
néaires. Par exemple
Definition 1.1.15 — Espaces hermitiens. Un espace hermitien est un espace vectoriel complexe
V muni d’une forme sesquilinéaire.
Dans ce qui suit, nous considérerons toujours les espaces vectoriels euclidiens, à moins que nous
n’énoncions explicitement le contraire.
12 Chapitre 1. ESPACES VECTORIELS
Comme nous le verrons maintenant, cette condition permet d’établir un isomorphisme entre les
formes sesquilinéaires et les fonctions linéaires, concept que nous allons formaliser dans la section
suivante.
v = v1 b1 + v2 b2 + ....... + vN bN . (1.7)
R Étant donné un vecteur v ∈ V, la convention la plus adoptée est celle d’indiquer ses composants
avec un indice haut (en caractère normal) (c.-à-d. ui ), alors que les vecteurs de la base de V
sont indiqués en caractère gras avec un indice bas (gras) (bi ). Notez que les indices en gras de
la base n’indiquent pas une composante, mais plutôt les vecteurs individuels de la base.
Bien que le choix de la base soit arbitraire, toutes les bases possibles sont composées du même
nombre N de vecteurs, N étant défini comme la dimension de l’espace vectoriel. On peut donc
associer un vecteur v de façon unique au N-uplet (v1 , v2 , ...., vN ) ∈ KN . Nous disons que V est
isomorphe à l’espace vectoriel KN et parlons indifféremment de v et (v1 , v2 , ...., vN ) ∈ KN comme
étant le même objet. La décomposition en combinaison linéaire sur une base est un choix de
commodité motivé par l’objectif d’accélérer les calculs dans les applications pratiques. Le prix à
payer est que, de cette façon, le vecteur est représenté par des quantités ‘dépendantes de la base’ va ,
appelées composantes dans la base donnée b a . Il est donc important de souligner que le symbole v
est un objet invariant, indépendant de la base spécifique dans laquelle il est représenté, bien que ses
composants en dépendent.
Nous pouvons exprimer le vecteur sous la forme d’une combinaison linéaire d’une base en
introduisant la convention de sommation d’Einstein. Au lieu d’utiliser la notation assez encombrante
N
X
v= vi b i (1.8)
i=1
on écrira simplement
v = vi b i (1.9)
1.2 Représentation des vecteurs et opérateurs dans une base 13
Figure 1.1 – Les composantes du vecteur géométrique OP (flèche rouge) par rapport aux deux vecteurs de base
(flèches noires), définies selon la règle du parallélogramme, sont celles indiquées par les lignes pointillées vertes.
R Dans sa présentation de la théorie de la relativité, Einstein a introduit une notation basée sur
des indices qui est devenue largement utilisée en physique. Cette notation est presque univer-
sellement utilisée en relativité générale, elle est aussi extrêmement utile en électromagnétisme
et en physique des particules. Einstein trouvait fastidieux d’écrire de longues expressions avec
beaucoup de symboles de sommation, donc il a introduit une forme plus courte de la notation,
en appliquant les règles suivantes, qui ensemble constituent la convention de sommation de
Einstein : Règle 1 : les indices répétés, doublés, apparaissant une fois en haut et une fois en
bas d’un côté d’une équation sont automatiquement additionnés, à moins que ces indices appa-
raissent, non appariés, de l’autre côté de l’égalité. Ainsi, S = Ai Bi ≡ A1 B1 + A2 B2 + ... + AN BN .
Il n’y a pas de somme implicite, au contraire, lorsque les indices apparaissent tous les deux
en bas, comme dans les quantités S = Ai Bi , ou en haut S = Ai Bi ou l’indice répété apparaît,
non apparié, de l’autre côté de l’équation, comme dans l’expression S i = BiC i . Les indices
qui sont additionnés sont appelés indices muets. Comme les variables d’intégration dans une
intégrale définie, les noms des indices fictifs sont arbitraires. Ainsi, Ai B i = A j B j , mais nous
ne pouvons pas changer l’indice k en Ak = Bk,k C k , car dans cette expression, il n’y a aucune
somme qui est implicitement supposée.
Règle 2 : pour assurer la cohérence de la notation, les indices bas/haut apparaissant au
dénominateur d’une fraction sont considérés comme des indices haut/bas. Par exemple, la
quantité ∂x∂ i a un indice supérieur au dénominateur, qui compte donc comme un indice bas.
On utilisera donc la notation ∂x∂ i ≡ ∂i . Par exemple, le différentiel d’une fonction f (x, y, z...)
∂f ,i
peut être simplement écrit d f = ∂x i dx = ∂i f dx .
i
Exercise 1.7 Le but de cet exercice est de se familiariser avec la notation de Einstein. Calculez
la valeur de a) δi j δik et b) δi j δi j , où i, j, k sont des indices assumants les valeurs 1, 2, 3....N.
14 Chapitre 1. ESPACES VECTORIELS
Tout d’abord on notera que δi j δik = Akj puisque i est un indice de somme donc un indice muet. Il
nous faut donc trouver la valeur des coefficients Akj . Le delta de Kronecker représente la matrice
identité donc une matrice symétrique. Par consequent δi j = δ ji . On peut donc écrire
où le troisième membre est un produit matriciel entre deux matrices identité. On a donc que
Akj = δkj . b) En développant les calculs on obtient
Seulement les deltas avec des indices identiques sont différentes de zero. Ces termes étant en
nombre de N, on déduit que δi j δi j = N Une autre façon de procéder est la suivante. On exploite
j
le résultat a) (δi j δik = δkj ) et on déduit que δi j δi j = δ j = δ11 + δ22 + .... + δNN = N.
Exercise 1.8 Ecrire explicitement la somme implicite suivante δi j ui v j avec i, j ∈ {1, 2}. Quel
type d’opération mathématique entre vecteur géomé́triqués cette expression représente-t-elle ?
On a
Si on considère les vecteur géométriques u et v avec composantes (u1 , u2 ) et (u1 , u2 ) par rapport
à une base bi on à que leur produit scalaire
u · v = (u1 b1 + u2 b2 ) · (v1 b1 + v2 b2 )
= u1 v1 b1 · b1 + u1 v2 b1 · b2 + u2 v1 b2 · b1 + u2 v2 b2 · b2
Si on fait l’hypothèse que la base est orthonormale (les vecteurs sont unitaires et orthogonales
entre eux) on déduit
u · v = u1 v1 + u2 v2
Le produit scalaire entre deux vecteurs géométriques peut être simplement écrit en termes des
composantes (par rapport à une base orthonormale) comme
u · v = δi j ui v j
1.2 Représentation des vecteurs et opérateurs dans une base 15
Exercise 1.9 Ecrivez explicitement la somme implicite suivante i j ui v j avec i, j ∈ {1, 2}. Quel
type d’opération mathématique entre vecteurs cette expression représente-t-elle ?
Solution. On a
Si on considère les vecteur géométriques u et v avec composantes (u1 , u2 ) et (u1 , u2 ) par rapport
à une base bi on à que leur produit vectoriel
u × v = (u1 b1 + u2 b2 ) × (v1 b1 + v2 b2 )
= u1 v1 b1 × b1 + u1 v2 b1 × b2 + u2 v1 b2 × b1 + u2 v2 b2 × b2
u × v = u1 v2 b3 − u2 v1 b3
où b3 est un vecteur unitaire perpendiculaire aux vecteurs b1 et b2 (dont la direction est obtenue
avec la règle de la main droite.) On déduit que la norme du produit vectoriel entre deux vecteurs
géométriques bi-dimensionnels peut être simplement éxprimée en termes des composantes (par
rapport à une base orthonormale) comme
||u × v|| = i j ui v j
Supposons qu’un vecteur v ∈ V soit donné, et que V ait une dimension finie N. Nous voulons
N de V. Comment peut-on les
connaître la valeur de ses N composants vi par rapport à la base {bi }i=1
estimer ?
Nous pouvons aborder cette question en utilisant, par exemple, une approche géométrique. La
décomposition (1.9) n’est rien de plus qu’une façon sophistiquée d’exprimer la bonne vieille règle
du parallélogramme ! Et en effet vi , en plus d’être appelés coefficients de combinaison linéaires,
sont également identifiés comme étant les composantes parallèles du vecteur obtenu par la règle du
parallélogramme (voir Fig. 1.1) On peut donc se baser sur des raisonnements géométriques afin de
déduire la valeur de ces composantes, qui, nous le soulignons, ne représentent pas la projection
orthogonale du vecteur sur la base.
Pour trouver la valeur numérique des composantes vectorielles, il est cependant beaucoup
plus pratique de suivre une approche algébrique abstraite. Nous définissons un fonctionnel, appelé
évaluateur des composantes bi [...], appartenant à l’espace dual V∗ associé à V, et imposons,
par définition, que les composantes du vecteur v par rapport au vecteur bi de la base de V sont
retournées par l’action de ce fonctionnel sur le vecteur v, c.-à-d.
vi ≡ bi [v]. (1.11)
Il reste à préciser quelle est la règle opérationnelle avec laquelle le fonctionnel, une fois appliqué
aux vecteurs, permet d’évaluer leurs composantes. Néanmoins, nous pouvons avoir un aperçu des
propriétés de cette fonction abstraite, même si, à ce stade, nous ne savons pas encore comment la
calculer.
N de l’espace vectoriel V
Theorem 1.2.1 — Principe de dualité. Considérons une base {bi }i=1
ainsi que l’évaluateur des composantes b i [...] ∈ V∗ . Le fonctionnel bi [...], agit sur la base de
16 Chapitre 1. ESPACES VECTORIELS
bi [b j ] = δi j . (1.12)
Theorem 1.2.2 — Base de l’espace dual. L’ensemble des évaluateurs des composantes bi [...] ∈
V∗ forment une base de V∗ , appelée base de l’espace dual. En outre, V∗ a les mêmes dimensions
de V.
Proof Que l’ensemble des évaluateurs des composantes vectorielles forme une base est montré
comme suit. Considérons un fonctionnel linéaire générique v[...] agissant sur les vecteurs u
de V
v[u] = v[ui bi ] = ui v[bi ] = v[bi ]bi [u] = vi bi [u]
où nous avons défini
vi ≡ v[bi ]
Puisque cet expression précédente doit être valable pour chaque vecteur u on en déduit que
v[...] = vi bi [...]
c.-à-d. que nous pouvons exprimer la fonction linéaire v[...] comme une combinaison linéaire
des bi [...]. Ainsi, l’ensemble des évaluateurs des composantes couvre l’espace vectoriel V∗ .
Afin de prouver que cet ensemble est composé de vecteurs linéairement indépendants, nous
considérons la combinaison linéaire suivante
ci bi [...] = 0V ∗ .
La seule combinaison linéaire qui donne le vecteur nul est celle dont les coefficients sont
égaux à zéro. Pour le voir, il suffit d’appliquer la relation précédente à l’un des vecteurs de
base bi .
On remarque que ce théorème ne s’applique qu’aux espaces vectoriels finis ! Pour les espaces
à dimensions infinies V, l’espace dual V∗ peut être ‘plus grand’ ou ‘plus petit’ que V. Les
espaces à dimensions infinies sont subtils, et il ne faut pas penser qu’il s’agit simplement
d’éspaces avec un nombre infini de vecteurs de base.
où
vi ≡ v[bi ] (1.14)
sont définis comme les composantes du vecteur dual v[...] ∈ V∗ par rapport à la base bi [...] de
l’espace dual V∗ . La convention est donc la suivante : les indices hauts sur des vecteurs indiquent
que le vecteur est un élément de l’espace dual. Les indices bas sur les composantes indiquent que la
composante est pris par rapport à une base de l’espace dual. Vous pouvez comparer cette définition
avec eq. (1.11) qui exprime les composantes vi d’un vecteur v ∈ V par rapport à la base bi de V.
1.2 Représentation des vecteurs et opérateurs dans une base 17
∗
Proof Considérons l’operateur linéaire H : V → V . Nous devons montrer qu’il s’agit d’un isomor-
phisme, c.-à-d. que v 7→ v[...] est une application bijective sous la condition (1.15). La condi-
tion de non-dégénérescence d’une forme sesquilinéqire impose que si (v, w) = 0 pour chaque
w , 0V alors v = 0V . Par conséquent, v[w] = 0 implique que kerH = 0v }, et que H : V → V∗
est une application injective. En outre on a que Dim(Im H) + Dim(ker H) = D(V). On en
déduit donc que Dim(Im H) = Dim(V) et, puisque les espaces vectoriels V et V∗ ont les
mêmes dimensions, nous concluons que D(Im H) = D(V ∗ ), donc l’application H : V → V∗
est aussi surjective.
Le théorème de Riesz-Fréchet indique clairement que nous pouvons évaluer l’action d’une
fonction en utilisant les règles des formes sesquilinéaires. Une forme sesquilinéaire nous permet
donc d’établir un isomorphisme V → V ∗ c.-à-d. d’identifier un vecteur v[...] ∈ V∗ avec un élément
v ∈ V. Par exemple, les N vecteurs bi [...] ∈ V∗ peuvent être associés de façon unique à un ensemble
de N vecteurs bi ∈ V appelées base duale de V de manière que ces deux sets ne peuvent pas être
distinguées à l’aide d’opérations vectorielles : bien qu’ils vivent dans des espaces différents, ils
agissent de la même manière et produisent les mêmes effets.
À la lumière de ce résultat important, nous pouvons réinterpréter la signification de l’expression
v[...] = vi bi [...] comme équivalent à v = vi bi . Nous pouvons donc représenter formellement un
vecteur v ∈ V comme une combinaison linéaire des vecteurs bi de la base duale de V. L’adjectif
duale nous rappelle que les éléments de cette base sont associé, via la forme sesquilinéaire (bi , b j ) =
δi j , aux vecteurs de la base bi ∈ V. En comparant avec (1.9) on obtient
v = vi b i = v j b j . (1.16)
où vi et vi , étant des composantes du même vecteur par rapport à deux bases différentes du même
espace V, ont, en principe, des valeurs numériques différentes. L’entité intrinsèque (le vecteur v)
est la même, seule sa représentation est différente selon que ses composantes sont prises par rapport
à la base de V ou par rapport à la base duale associée (dont les éléments, notez le bien, sont encore
des élḿent de V).
Grâce au théorème de Riesz-Fréchet, les composantes d’un vecteur peuvent être évalués
efficacement à l’aide des relations suivantes
va ≡ b a [v] = (b a , v)
va ≡ v[b a ] = (v, b a ). (1.17)
Puisque une forme sesquilinéaire n’est pas en général commutative, il faut toujours préciser si
les composantes sont prises par rapport à la base de V ou à la base duale associée. Par exemple,
N ∈ V. Les composants des vecteurs v ∈ V par rapport a cette base sont
considérez la base {bi }i=1 i
18 Chapitre 1. ESPACES VECTORIELS
Figure 1.2 – Un bateau de masse m, tiré uniformément par deux câbles séparés par un angle 2θ, a une accélération a.
Quelle est la force exercée par chaque câble ? La direction de chaque câble est spécifiée par les vecteurs unitaires b1 et
b2 .
(vi ) j ≡ b j [vi ] = (b j , vi ), tandis que ses composantes par rapport à la base duale {bi }i=1
N ∈ V sont
(vi ) j ≡ vi [b j ] = (vi , b j ).
R Aucune signification spécifique n’est attribuée aux variables avec des indices hauts ou bas,
c.-à-d. Ai ≡ Ai , si l’indice est utilisé pour étiqueter un scalaire ou une coordonnée. Par exemple
ξ 1 est la même coordonnée que ξ1 ou δi j (le symbole de Kronecker, égal à l’unité si i = j et à
zéro si i , j) peut être indiqué comme δab , δba ou encore δab . Cependant, une attention toute
particulière doit être portée aux indices en hauts et en bas lorsque ils sont utilisés pour étiqueter
des composantes vectorielles. En effet, il faut distinguer entre les composantes vectorielles par
rapport aux vecteurs de base (identifiés par des indices en haut) et les composantes vectorielles
par rapport à la base duale (identifiés par des indices en bas). En général, la valeur de ces deux
composantes ne coïncide pas. Les indices en haut et en bas sont donc utilisés pour signaler
cette différence et distinguer entre ces deux types de composantes vectorielles. Les indices
des composantes vectorielles ne peuvent donc pas être relevés ou abaissés librement. Seuls
des opérateurs spéciaux peuvent transformer un composant en l’autre comme nous le verrons
dans la section 1.2.4.
Exercise 1.10 Un bateau de masse m (voir Figure 1.2) est tiré, uniformément, par deux câbles
séparés formant un angle 2θ. Son accélération est a, quelle est la force exercée par chaque
câble ? (Négliger toutes sources de frottement.)
Solution. La force totale résultante, dans la direction horizontale, est F = ma. En raison de
la symétrie du système, la force exercée par chaque câble est identique (F 1 = F 2 où F i sont les
composantes de la force sur chaque câble). Notez que la direction de chaque câble est spécifiée
par les vecteurs unitaires b1 and b2 . Le composant F i de la force le long de chaque câble n’est
pas la simple projection orthogonale de la force totale (F i , F cos θ.) Ce sera plutôt la projection
parallèle F 1 = (b1 , F). Nous avons donc besoin de savoir quel est la base duale associé aux
vecteurs de la base bi . A cette fin, nous exprimons chaque élément de la base duale par le biais
de la combinaison linéaire suivante
où (bi ) j sont les composantes des vecteurs de la base duale par rapport à bi . Celles-ci peuvent
être déterminée en imposant le principe de dualité (1.12)
bi [b k ] = δik = (bi ) j (b j , b k ).
Dans l’espace des vecteurs géomé́triqués, la forme sesquilinéaire peut être évaluée en
1.2 Représentation des vecteurs et opérateurs dans une base 19
(b j , b k ) = b j · b k
En résolvant le système, nous trouvons que les vecteurs de la base duale associée à la base
{b1 , b2 } sont
cos 2θ
b1 = sin−2 2θb1 − b2
sin2 2θ
cos 2θ
b2 = − b1 + sin−2 2θb2 . (1.18)
sin2 2θ
Nous pouvons enfin calculer la composante de la force dans la direction b1 comme suit
cos 2θ cos 2θ
F 1 = (b1 , F) = (sin−2 2θb1 − 2
b2 , F) = sin−2 2θ b1 · F − b2 · F
sin 2θ sin2 2θ
1 − cos 2θ F
= F cos θ = .
sin2 2θ 2 cos θ
b0i = B[bi ].
La raison pour laquelle un tel opérateur est linéaire devrait être évidente. Cependant, ce qui est
moins évident, c’est que cet opérateur peut être représenté par une matrice N × N. En effet, si nous
exprimons les éléments de la nouvelle base comme combinaison linéaire des vecteurs de l’ancienne
base par le biais de la combinaison linéaire
b0i = (bi ) j b j
comme étant la matrice dont la colonne i est constituée des composantes du vecteur bi0 de la
nouvelle base par rapport à la base duale b j .
Notez que la somme implicite dans le dernier terme de (1.19) ne correspond pas à un produit
matriciel. En introduisant l’opérateur de transposition d’une matrice, nous pouvons cependant
exprimer la nouvelle base en termes de l’ancienne base de la manière suivante
j
j T
b0i = B i b j = Bi b j . (1.20)
Le dernier terme dans l’expression ci-dessus représente en effet un produit matriciel.
Exercise 1.11 Soit {b j }Nj=1 une base, {b j }Nj=1 la base duale associée, et C i j = bi [b j ]. Laquelle
parmi les relations suivantes est correcte ?
j
a) bi = Ci b j b) bi = C ji b j
j j
c) bi = C i b j d) bi = C i b j
e) bi = C ji b j f ) bi = C i j b j
i
g) bi = C i j b j h) bi = C j b j
N on obtient
Solution. En développant les vecteurs bi de la base {b j }i=1
j
bi = (bi ) j b j ≡ b j [bi ] b j = C i b j
nous concluons que les expressions a) et b) sont fausses. Cette dernière évidemment parce que
les indices à gauche et à droite de l’égalité ne correspondent pas. La première parce que la forme
sesquilinéaire n’est pas, en général, commutative. Seulement c) est correct.
En développant le vecteur bi sur la base {b j }i=1
N on obtient
bi = (bi ) j b j ≡ b j [bi ] b j = C ji b j
bi = (bi ) j b j ≡ bi [b j ] b j = C i j b j
j
Exercise 1.12 Deux bases de V sont liées par la transformation b0 = B i b j . Soient {b j }Nj=1 et
i
N les bases duales de V associées à {b }N et {b0 }N respectivement. Montrer que
{b0i }i=1 j j=1 i=1 i
−1
b0i = Bi j b j. (1.21)
Solution. En développant les vecteurs b0i comme combinaison linéaire de la base duale
{b j }i=1
N on obtient
−1 −1
b0i = b j = b0i [b j ] b j = (b0i , b j )b j = (b0i , Bk j b0k )b j = Bk j (b0i , b0k )b j
b0i
j
−1 −1
= B j δi k b j = Bi j b j
k
1.2 Représentation des vecteurs et opérateurs dans une base 21
−1
où nous avons utilisé le fait que l’inverse de (1.19) est b j = Bk j b0 .
k
0
Si la base change, les composantes d’un vecteur v changeront aussi. Les composantes vi du
vecteur v par rapport à la nouvelle base b0 ) peuvent être obtenues à partir des anciennes v j comme
i
suit :
0 −1
vi = Bi j v j
où Bi j est la matrice de changement de base. La démonstration est simple : puisqu’un vecteur peut
être représenté indifféremment par rapport à n’importe quelle base, on obtient
0 −1
v = vi b0i = v j b j = v j b j = v j Bi j b0i
base du domaine U M et {t i }i=1 une base du codomaine VN . Nous voulons montrer que l’opérateur
N
linéaire H qui agit sur les vecteurs u ∈ U M et renvoie les vecteurs v ∈ VN , v = H[u], peut être
écrit, par composantes, comme vi = H ij u j où vi et u j sont le composantes de u et v dans les bases
respectives U M et VN . La fonctionnel d’évaluation des composants, qui extrait les composants du
vecteur v par rapport à la base t i du codomaine est t i [..].. Par conséquent,
h h ii h h ii h i
vi = t i [v] = t i [H [u]] = t i H u j d j = t i H d j u j = t i , H d j u j = H i j u j (1.22)
Par conséquent, chaque colonne de H i j contient les composantes du vecteur H[d j ] par rapport au N
vecteurs de la base duale t i associé à la base t i .
Les symboles ‘chapeau’ (ˆ) sont introduits pour indiquer que le vecteur a une norme unitaire. Les
composantes d’un vecteur v par rapport à une base orthonormale êi est dénoté vî .
Le théorème de Riesz-Fréchet sur l’isomorphisme entre un espace vectoriel et son dual permet
d’établir une propriété générale des bases duales.
Theorem 1.2.4 — Base duale associée à une bases orthonormale. Considérons une base or-
N d’un espace vectoriel V. La base duale associée {êi }N coïncide avec {ê }N .
thonormale {êi }i=1 i=1 i i=1
22 Chapitre 1. ESPACES VECTORIELS
Proof Considérons une base orthonormale (êi , ê j ) = δi j d’un espace vectoriel V. Le théorème 1.2.3
permet d’identifier les vecteurs de la base duale êi [...] associé à la base orthonormale avec
certains vecteurs êi ∈ V. La relation de dualité 1.12 devient δib = êi [ê j ] = (êi , ê j ). Il s’ensuit
donc que êi = êi .
Le théorème précédent indique clairement que nous n’avons pas besoin de faire de distinction
entre êi et êi si notre base est orthonormale. Par conséquent, dans ce cas, les composants vi et
vi d’un vecteur v coïncideront. Ce fait important admet une interprétation géométrique intuitive.
Jetez un coup d’oeil à la Figure 1.1 où une base non orthogonale (flèches noires) est représentée.
Les composantes d’un vecteur v (flèche rouge) dans la base donnée sont celles résultantes de la
décomposition du vecteur v au moyen de la règle du parallélogramme. Notez qu’elles diffèrent
des composantes qui sont obtenues en projetant le vecteur orthogonalement sur la base, c’est-à-
dire en prenant le produit scalaire entre le vecteur v et les vecteurs de la base. Par conséquent,
pour obtenir les composantes du vecteur, il faut introduire la base duale, de sorte que le produit
scalaire entre le vecteur v et les vecteurs de base double renvoie les composantes de v. Toutes ces
complications disparaissent si la base est orthonormale. Dans ce cas, la base et son duale coïncident
et les composantes du vecteur, obtenues selon la règle du parallélogramme, coïncident avec celles
obtenues par projection orthogonale. C’est pour cette raison qu’on préfère, si possible, travailler
dans une base orthonormale.
Exercise 1.13 Considérez l’operateur Hθ : R2 → R2 qui tourne tous les vecteurs géométriques
du plan d un angle θ dans le sens inverse des aiguilles d’une montre. i) Trouvez la matrice qui
représente l’action de l’operateur Hθ par rapport à la base orthonormale {êi }2i=1 de R2 . ii) Quelle
est la représentation matricielle par rapport à la base b1 = (1, 1) et b2 = (−1, 0) ?
Solution Les composantes des vecteurs de la base orthonormale (par rapport à la base
orthonormale elle même) sont
!
1
ê1 = λ ê1 + λ ê2
1 2
ê1 ⇔
0
!
0
ê2 = µ ê1 + µ ê2
1 2
ê2 ⇔
1
L’action de l’opérateur sur la base orthonormale est exprimable comme suit
cos θ − sin θ
! ! ! !
1 0
Hθ ê1 ⇔ Hi j = Hθ ê2 ⇔ Hi j =
0 sin θ 1 cos θ
Par définition, la matrice qui représente cet homomorphisme (par rapport aux bases ortho-
normales du domaine et du codomaine) est la suivante
H ij = êi , Hθ ê j . (1.24)
Puisque la base orthonormale et son dual coïncident, c.-à-d. êi et êi sont le même vecteur, en
prenant le produit scalaire entre vecteurs on peut calculer les elements de la matrice, par exemple
1.2 Représentation des vecteurs et opérateurs dans une base 23
H11 = ((1ê1 + 0 ê2 ) , (cos θ ê1 , sin θ ê2 )) = cos θ (ê1 , ê1 ) + sin θ (ê1 , ê2 ) + .....
= cos θ ê1 · ê1 + sin θ ê1 · ê2 + ..... = cos θ
et donc
cos θ − sin θ
!
Hj= i
sin θ cos θ
qui est une matrice dite ‘orthogonale’ : vous pouvez vérifier que le produit de la matrice
précédente fois sa transpośee donne bien la matrice d’identité.
Considérons maintenant la nouvelle base {bi }2i=1 . dont les composantes par rapport à la base
orthonormale sont b1 = (1, 1) et b2 = (−1, 0). Nous pouvons donc écrire, de façon plus compacte,
j
bi = B i ê j
où
!
1 −1
j
Bi=
1 0
L’opérateur de rotation est représenté par rapport à cette nouvelle base {bi }2i=1 par l’opérateur
suivant
H̃ ij = bi , Hθ b j . (1.25)
Nous devons maintenant prêter attention au fait que la base {bi }2i=1 n’est pas orthonormale.
Un peu plus de travail est nécessaire pour trouver la base duale associée. A cette fin, nous
exprimons les vecteurs de la base duale sous forme de combinaisons linéaires de la base
orthonormale
bi = D ji ê j , (1.26)
ou, équivalentement,
et utilisons le principe de dualité 1.12 afin de trouver la valeur des composantes. On obtient
Par conséquent, les composantes de la base duale par rapport à la base orthonormale {êi }2i=1 sont
b1 = (0, 1) et b2 = (−1, 1) ou, équivalentement,
!
0 −1
D =ij
1 1
Vous pouvez bien vérifier que le produit de la matrice précédente par sa transposée ne donne
pas comme résultat la matrice identité. Bien que représentant le même operateur de rotation Hθ ,
la matrice H̃i j , contrairement à Hi j , n’est pas orthogonale.
Exercise 1.14 Considérons les vecteurs de base b j et exprimons-les comme une combinaison
linéaire d’une base orthonormale bi = Bmi ê m. Considérons aussi la base duale associée b j =
Dn j ê n. Montrer que les composantes des b j (par rapport à la base orthonormale) sont liées
aux composantes de la base bi (par rapport à la base orthonormale) par la relation matricielle
suivante
D = (B−1 )T . (1.27)
(a, b) = a · b.
Cependant, les vecteurs géométriques sont un cas bien particulier de vecteurs. Quelle est donc la
règle générale qui permet d’associer à une paire de vecteurs d’un espace vectoriel arbitraire un
scalaire unique ? Il est facile de constater que
de sorte que la règle est entièrement contenue dans l’ensemble des coefficients mi j . Nous sommes
donc naturellement conduits à la définition suivante.
1.2 Représentation des vecteurs et opérateurs dans une base 25
N une base de l’espace vectoriel
Definition 1.2.3 — Métrique associée à une base. Soit {bi }i=1
V. La métrique induite par la base est définie comme l’ensemble des coefficients
mi j ≡ (bi , b j ). (1.29)
Si l’espace vectoriel V est réel, alors la métrique associée à une base est une matrice symétrique
réelle N × N. Il est simple d’en déduire ses coefficients si la base est orthonormale. Si, par contre,
les vecteurs de base ne sont pas orthogonaux, nous ne pouvons calculer la métrique mi j que si les
composantes de chaque vecteur bi par rapport à une base orthonormale sont explicitement données.
Dans le cas contraire, les coefficients mi j doivent être fournis ‘a-priori’ comme une donnée du
problème.
Les coefficients métriques sont donc les ingrédients fondamentaux qui permettent de calculer
la ‘taille’ des éléments vectoriels et les distances entre eux. En effet, une fois que une forme
sesquilinéaire est spécifié pour les vecteurs de base, il est facile de déterminer la valeur de cette
forme pour tout autre vecteur via 1.28. Examinons donc quelques propriétés clés de la métrique
associée à une base.
Theorem 1.2.5 — Monter et descendre les indices. Soient vi et vi les composants d’un vecteur
v par rapport à une base et son dual. Ces indices sont liés comme suit
Proof Un vecteur v peut être écrit indifféremment comme v = v bi = vi b où {bi }i=1 est une base et
i i N
{bi }i=1
N est la base duale associée. On a donc
Pareillement,
Considérons maintenant une base orthonormale d’un espace vectoriel V. Les coefficients
métriques associées à cette base sont simplement mi j = δi j . Il s’ensuit que le delta de Kronecker
est l’opérateur qui monte ou baisse les indices des composantes vectorielles. Cela ne devrait pas
être une surprise, à ce stade, puisque nous savions déjà que les composantes vi et vi d’un vecteur
coïncident si la base est orthonormale. Cependant, si l’orthonormalité n’est pas satisfaite, il faut
être prudent lorsque l’on monte ou baisse les indices, car les composantes d’un vecteur par rapport
à la base et son dual ne coïncident pas en général.
Nous concluons en mentionnant quelques autres propriétés utiles des coefficients métriques, par
exemple le fait que mij = δij et le fait que mi j ≡ (bi , b j ) est la matrice inverse de mi j . Pouvez-vous le
montrer ?
Exercise 1.15 Montrer que la métrique mi j est l’opérateur qui monte et baisse les indices des
vecteurs de la base, transformant un vecteur de la base en un vecteur de la base duale associée et
vice-versa.
Exercise 1.16 Prenons en considération l’espace vectoriel V en assumant qu’il ait dimension
N = 2. Soit {bi }2i=1 une base non-orthonormal de R2 . Soient b1 = (1, 1) et b2 = (−1, 0) les compo-
santes par rapport à une base orthonormale {êi }2i=1 de V. Déterminez les coefficients mi j de la
métrique associée à la base. Déterminez aussi les coefficients mi j .
m11 = (b1 , b2 ) = (1ê1 + 1ê2 , 1ê1 + 1ê2 ) = (ê1 , ê1 ) + 2(ê1 , ê2 ) + (ê1 , ê1 )
= (ê1 , ê1 ) + 2(ê1 , ê2 ) + (ê1 , ê1 ) = 2
où on a utilisée le fait qu’une base et son dual sont identiques si la base est orthonormale, ainsi
que le principe de dualité 1.12. En réproduisant le même calcul pour les autres indices, on
obtient
!
2 −1
mi j = .
−1 1
!
1 1
m =
ij
.
1 2
1.3 Résumé
La plupart des objets mathématiques s’avèrent être des éléments d’un espace très particulier,
appelé espace vectoriel. Ces objets, bien que de nature intrinsèquement différente, comme par
exemple les vecteurs géomé́triques, les fonctions continues et le matrices, satisfont tous à un
ensemble de huit axiomes, et, en raison de ce comportement commun, sont appelés vecteurs. Voici
quelques concepts clés sur les vecteurs que vous devez maîtriser.
Représentation d’un vecteur dans une base. Étant donné le vecteur v ∈ V nous pouvons le re-
présenter par rapport à la base bi de V ou par rapport à la base duale bi ∈ V (associé à bi via
le principe de dualité bi [b j ] = δij ) comme suit
v = vi b j = vi b j .
Les composantes du vecteur par rapport à l’une des deux bases sont obtenues par les biais
des formes sesquilinéaires
vi ≡ (bi , v)
vi ≡ (v, bi ).
N’oubliez pas que si la base est orthonormale, il n’y a pas de différence entre les indices en
hauts et en bas. Si la base n’est pas orthonormale, au contraire, vous devez faire attention.
Représentation d’un opérateur linéaire dans une base. Étant donné l’opérateur H : D → T et
les bases di et bi du domaine et du codomaine, nous pouvons représenter H par rapport aux
1.4 Exercices 27
H ij = (d i , Hb j ).
Comment évaluer des forme sesquilinéaires ? La règle est entièrement contenue dans la mé-
N dans laquelle le vecteur est représenté.
trique associée à la base {bi }i=1
(u, v) = mi j ui v j
où
mi j ≡ (bi , b j ).
est la métrique associé l̀a base. Les coefficients métriques sont organisés dans une matrice
réelle symétrique qui permet, entre autres, de monter et baisser les indices des composantes
et des bases vectorielles.
vi = mi j v j v j = mi j v j
b i = mi j b j b j = mi j b j .
1.4 Exercices
Exercise 1.17 Le but de cet exercice est de se familiarisé avec la notation de Einstein
1. Ecrire explicitement la somme implicite suivante i jk ui v j wk avec i, j, k ∈ {1, 2, 3}. Quel
type d’opération mathématique entre vecteurs représente-t-elle cette opération ?
2. Remplir les espaces : mi j mik = .....; mi j mi j = .....; mi j δik = .....; où mi j est la matrice
métrique.
Exercise 1.18 Soit V un ensemble de triplets dans l’espace des réels. On définit sur V la
v-somme ⊕ : V × V → V et la s-multiplication : R × V → V de la manière suivante
(a, b, c) ⊕ (d, e, f ) ≡ (a + d, b + e, c + f )
et
Exercise 1.21 Soit {êi }3i=1 la base orthonormale de R3 . La projection (perpendiculaire) des
vecteurs v ∈ R3 sur le plan [ê2 , ê3 ] est elle un homomorphism ? Et la projection sur l’axe défini
par ê1 ?
Exercise 1.22 Considérez les vecteurs de base suivants exprimés en termes de vecteurs d’une
base orthonormale :
Un système physique est symétrique sous l’effet d’une opération si le système, après l’opération,
est identique au système avant l’opération. Par exemple, une sphère parfaitement uniforme a une
symétrie de rotation autour de n’importe quel axe parce qu’après la rotation, la sphère a le même
aspect qu’avant la rotation.
Supposons que nous identifions des points de l’espace tridimensionnel ordinaire à l’aide d’un
système de coordonnées x, et que, pour une raison quelconque, nous décidions de renommer ces
points en utilisant un autre système de coordonnées ξ = ξ(x). Y a-t-il quelque chose qui n’est pas
affecté par ce changement de coordonnées ? Oui, toute la physique ! Les phénomènes physiques
tels qu’une pierre tombant dans le champ gravitationnel de la terre ou une charge électrique se
déplaçant dans un condensateur chargé ne se soucient pas du système de coordonnées que nous
utilisons pour décrire leur mouvement ! Il existe un outil mathématique raffiné qui, indépendant des
systèmes de coordonnées, permet aux physiciens de formuler des lois qui sont les mêmes quel que
soit le système de coordonnées adopté pour l’étiquetage des points d’espace : les vecteurs. En effet,
les équations représentants les lois classiques de la physique, telles que les lois mécaniques ou les
lois électromagnétiques, sont des lois vectorielles ; elles sont valables dans n’importe quel système
de coordonnées ! On dit donc que les lois de la physique sont symétriques sous un changement
statique ξ = ξ(x) (ne dépendant pas du temps) du système de coordonnées.
Que diriez-vous d’un changement dynamique de système de coordonnées ? Par dynamique,
j’entends un changement de coordonnées du type ξ = ξ(x, t) tel que les nouvelles coordonnées
spatiales sont fonction non seulement des anciennes coordonnées spatiales, mais aussi de la
coordonnée temporelle t. La théorie de la relativité postule que la nature est symétrique aussi sous
des transformations de coordonnées dépendantes du temps. Deux observateurs, référençant leurs
mesures d’un même phénomène physique à deux systèmes de coordonnées différents en mouvement
l’un par rapport à l’autre, devraient déduire les mêmes lois de la physique de leurs observations.
Le but ultime des physiciens est donc d’exprimer les lois fondamentales de la nature de façon
indépendante des coordonnées, que le changement de coordonnées soit statique ou dynamique. Des
technologies mathématiques, comme le calcul tensoriel, ont été développées pour généraliser le
simple calcul vectoriel et répondre à ces besoins.
30 Chapitre 2. COORDONNEES CURVILIGNES
Les physiciens, cependant, en plus de découvrir les lois fondamentales de la nature, sont
également intéressés à connaître les valeurs spécifiques des grandeurs physiques telles que l’énergie
d’une particule ou sa vitesse, etc. La valeur de ces variables dépend de l’observateur. Comme les
physiciens préfèrent le dire, ce sont des quantités qui ne sont pas invariantes, donc nous devons
toujours spécifier qui mesure leur valeur si nous voulons donner un sens aux mesures physiques. On
y parvient en introduisant la notion de système de référence et, en cartographiant les événements
spatio-temporels à l’aide d’un systèmes de coordonnées. L’utilisation d’un système de coordonnées
permet également de traduire les problèmes géométriques en problèmes algébriques et vice versa. A
titre d’exemple, considérons l’analyse des systèmes physiques avec des configurations géométriques
caractéristiques. Le choix d’un système de coordonnées spécifique, bien adapté pour décrire cette
géométrie, permet de simplifier les calculs mathématiques et, au final, l’interprétation physique. Le
présent chapitre a donc pour objet de présenter les systèmes de coordonnées les plus utilisés en
physique et décrire leurs propriétés.
Par exemple, dans la figure 2.2 je montre trois plans mutuellement orthogonaux, appelés x y,
et z, qui se croisent en lignes de coordonnées rectilignes et orthogonales (le plan x = const et
z = const définissent la ligne de coordonnées y, les plans x = const et y = const définissent la ligne
de coordonnées z etc) Ce système de coordonnées ξ ≡ {x, y, z} est appelé rectiligne ou cartésien. 1
De façon générique, nous appelons coordonnées curvilignes les systèmes de coordonnées dans
lesquels les lignes de coordonnées ne sont pas droites (comme dans la figure 2.1).
Une grande variété de problèmes physiques sont traités de la manière la plus appropriée en
utilisant un ensemble de coordonnées curvilignes ξ ≡ {ξ 1 , ξ 2 , ξ 3 }, Ceci afin d’exploiter la symétrie
présentée par le système physique étudié et de simplifier son traitement mathématique. Parmi les
différents systèmes de coordonnées curvilignes, le polaire (qui décrit les points de R2 ), le sphérique
(en R3 ) et le cylindrique (en R3 ) se détachent par leur importance.
Coordonnées Polaires
La coordonnée ξ 1 marque des cercles concentriques (les lignes rouges de la figure 2.1) dans
le sens où chaque valeur de la coordonnée (ξ 1 = const) identifie l’ensemble des points situés sur
un cercle donnés La valeur de ξ 1 est donc conventionnellement choisie comme la valeur du rayon
ρ ∈ [0, +∞) de chaque cercle. La coordonnée ξ 1 est appelée coordonnée radiale, et le cercle à rayon
1. Le système de coordonnées cartésiennes porte le nom de R. Descartes (1596-1650) bien qu’il ne soit pas le seul à
avoir eu cette idée. La légende raconte que Descartes, qui aimait rester au lit jusqu’à tard, a inventé ces coordonnées en
observant une mouche au plafond depuis son lit, et se demandant comment décrire sa position par rapport au plafond.
2.1 Systèmes de coordonnées 31
Figure 2.1 – Chaque coordonnée ξ 1 marque les cercles rouges (tous les points d’un cercle rouge ont la même
coordonnée ξ 1 ≡ r = const). Chaque ligne bleue définit la coordonnée ξ 2 . ≡ φ = const. Les lignes de coordonnées se
croisent orthogonalement.
zéro, un point, est appelé origine ou pôle O. La deuxième coordonnée ξ 2 (la ligne bleue de la
figure 2.1) marque un ensemble de segments droits radiaux irradiant hors de O. La valeur ξ 2 est
conventionnellement choisie comme l’angle φ, appelé pôle angle, qu’ils forment par rapport à un
segment arbitrairement choisi comme reference et appelé axe polaire. La plage de variation de
l’angle polaire est de [0, 2π). Tout point du plan 2D peut donc être associé de manière univoque et
identifié par un ensemble de deux nombres réels {ξ 1 , ξ 2 } = {r, φ} qui représente l’emplacement où
les cercles et lignes radiales se croisent (orthogonalement dans ce cas précis). Notez que ce système
de coordonnées est dégénéré dans le sens où tous les points de R2 ne sont pas associés de façon
univoque aux coordonnées ξ 1 et ξ 2 . En effet le pôle O n’est pas associé à une valeur unique de la
coordonnée φ.
Coordonnées Sphèriques Les coordonnées ξ 1 marquent tous les points sur des sphères concen-
triques (voir Fig. 2.3 ) dans le sens où chaque valeur de la coordonnée ξ 1 (ξ 2 , ξ 3 ) = const identifie
l’ensemble de points situés sur une même sphère. La valeur de ξ 1 est donc conventionnellement
choisie comme valeur du rayon r ∈ [0, +∞) de chaque cercle. La coordonnée ξ 1 est appelée la
coordonnée radiale et la sphère de rayon zéro, un point, est appelé origine ou pôle.
Les coordonnées ξ 2 marquent tous les points sur les surfaces latérales des cônes coaxiaux ayant
les sommets sur l’origine des coordonnées radiales (voir Fig. 2.3). Chaque valeur de la coordonnée
(ξ 2 (ξ 1 , ξ 3 ) = const) identifie l’ensemble des points situés sur un cône donné. L’axe commun des
cônes est appelé axe polaire ou zénithal. La valeur de ξ 2 est conventionnellement choisie comme
l’angle θ ∈ [0, π] (appelé angle ou inclinaison polaire) entre l’axe polaire et le générateur des cônes.
Les coordonnées ξ 3 marquent tous les points sur des demi-plans ayant l’axe polaire comme
bord commun dans le sens où chaque valeur de la coordonnée ξ 3 (ξ 1 , ξ 2 ) = const identifie tous les
points situés sur un demi-plan donné (voir Fig 2.3). La valeur de ξ 3 est conventionnellement choisie
comme l’angle φ ∈ [0, 2π), appelé azimuth, qu’ils forment par rapport à un plan arbitraire choisi
comme origine et appelé plan azimutal.
32 Chapitre 2. COORDONNEES CURVILIGNES
Figure 2.2 – Système de coordonnées cartesien. Chaque coordonnée x, y, z marque un plan. Tous les points du plan x
ont la même coordonnée x(y, z) = const. Deux plans se croisent dans une ligne de coordonnées. Par exemple, les avions
x(y, z) = const et y(x, z) = const définissent la ligne de coordonnées z. Trois plans s’interceptent en un point identifié par
les trois coordonnées {x, y, z}.
Tout point de l’espace 3D peut donc être associé et identifié par un ensemble de nombres réels
(ξ 1 , ξ 2 , ξ 3 ) = (r, θ, φ) chacun identifiant des sphères, des plans et des surfaces latérales des cônes.
Notez que ce système de coordonnées aussi est dégénéré. Combien de points d’espace ne sont pas
cartographiés uniquement par ces coordonnées ?
Exercise 2.1 Quelles sont les surfaces, étiquetées par ξ 1 = r, ξ 2 = φ and ξ 3 = h dont l’intersection
définit la grille cylindrique des coordonnées représentée sur la figure 2.4 ?
Figure 2.3 – Chaque coordonnée ξ 1 identifie des sphères. Tous les points d’une sphère ont la même coordonnée
ξ 1 ≡ r = const. Chaque cône définit la coordonnée ξ 2 = θ = const, alors que tous les points d’un plan ont la même
coordonnée ξ 3 = φ = const. L’intersection d’une paire de surfaces de coordonnées définit une ligne de coordonnées.
Trois surfaces de coordonnées se croisent à une position unique et le N−uplet (ξ1 , ξ2 , ξ3 ) qui en résulte étiquette sans
ambiguïté le point d’espace qui se trouve à cette position. Cet N−uplet represente les coordonnées du point.
34 Chapitre 2. COORDONNEES CURVILIGNES
produit scalaire (une façon raffinée de signifier que les distances sont calculées selon le théorème
de Phythagore).
Nous voulons maintenant rendre explicite la structure métrique d’un système de coordonnées
afin d’en faire un gadget extrêmement utile pour exprimer la distance entre deux coordonnées
adjacentes. Considérons deux points P et Q de R2 identifiés par les coordonnées {ξ 1 , ξ 2 } and
{ξ 1 + ∆ξ 1 , ξ 2 + ∆ξ 2 } respectivement. La métrique est simplement la règle qui permet de convertir la
séparation de coordonnées ∆ξ 1 et ∆ξ 2 dans la distance physique ∆s entre les deux points P et Q.
L’espace RN est un cas particulier de ce que les mathématiciens appellent une variété Rieman-
nienne, c’est-à-dire un espace tel que le carré de la distance élémentaire (ds,2 ) entre deux points de
coordonnées infiniment proches {ξ 1 , ξ 2 , ....., ξ 3 } et (ξ 1 + dξ 1 , ξ 2 + dξ 2 , ξ 3 + ... + dξ N ) peut toujours, et
uniquement, s’exprimer par la forme quadratique suivante
X
ds 2 ≡ g11 dξ 1 dξ 1 + g12 dξ 1 dξ 2 + g12 dξ 2 dξ 1 + g22 dξ 2 dξ 2 + .... = gi j dξ i dξ j (2.1)
ij
ds 2 = gi j dξ i dξ j . (2.2)
Figure 2.5 – Mesure géométrique de l’élément de ligne ds2 en coordonnées polaires cartésiennes et rectilignes dans
un espace euclidien.
croisent à angle droit. Par exemple, l’élément de ligne en 3D associé à un système de coordonnées
curvilignes orthogonales est
ds 2 = g11 (dξ 1 )2 + g22 (dξ 2 )2 + g33 (dξ 3 )2 (2.3)
Les coefficients diagonaux de la matrice métrique gii sont appelés facteurs d’échelle associés aux
coordonnées curvilignes. 2 En effet, elles doivent être interprétées comme des fonctions de mise à
l’échelle qui convertissent les intervalles de coordonnées dξ a en distances physiques. En d’autres
termes, si nous nous déplaçons à partir de ξ,i jusque’à ξ i + dξ i le long d’une ligne de coordonnée,
√
la distance infinitésimale parcourue le long de la ligne de coordonnée sera dsi = gii dξ i .
Considérons, par exemple, les coordonnées cartésiennes indiquées dans la figure 2.5. Puisque
l’espace R2 est euclidien, nous savons que l’élḿent de ligne (2.2) est donnée par le théorème de
Pythagore. Par conséquent, la distance entre (x, y) et (x + dx, y + dy) est ds2 = dx2 + dy2 de sorte que
les coefficients métriques associés à un système de coordonnées cartésiennes bidimensionnelles sont
simplement g11 = g22 = 1, g12 = 0. Notez que dans le cas particulier des coordonnées cartésiennes,
les intervalles de coordonnées sont aussi des distances physiques ! En effets, les coordonnées
cartésiennes ont la propriété que gi j = 1 si i = j. Par conséquent, un interval de coordonnés, par
exemple dx, mesure directement la distance ds x entre x et x + dx. Il s’agit la d’une propriété
exceptionnelle qui n’est pas valable pour les coordonnées curvilignes génériques.
Examinons maintenant le système de coordonnées polaires illustré en figure 2.5. La distance
entre les points identifiées par {ρ, φ} et {ρ + dρ, φ + dφ} est ds2 = dρ2 + ρ2 dφ2 où nous avons utilisé
le fait que dans un espace euclidien en 2D l’élément de ligne, en accord avec le théorème de
Phytagore, est ds2 = ds2// + ds2⊥ , où ds// , la distance radiale le long de la ligne de coordonnées entre
les points {ρ, φ} et {ρ + dρ, φ}, est ds// = dρ et où ds⊥ , la distance transversale le long de la ligne de
coordonnées entre les points {ρ, φ} et {ρ, φ + dφ}, est ds⊥ = ρdφ. Les éléments métriques associés au
système de coordonnées polaires sont donc les suivants
!
1 0
gab = (2.4)
0 ρ2
De la même manière, on peut vérifier que l’élément de ligne en coordonnées sphériques est
ds 2 = dr 2 + r 2 dθ 2 + r 2 sin 2 θdφ 2 , et que, par conséquent, les coefficients métriques pour le système
2. Dans les vieux livres, on les appelle aussi coefficients de Lamé après G, Lamé (1795-1870). Sa théorie générale
des coordonnées curvilignes est exposée dans ‘Leo̧ns sur les coordonnées curvilignes et leurs diverses applications
publié en 1859.
36 Chapitre 2. COORDONNEES CURVILIGNES
Enfin, vous pouvez verifier que, dans le cas des coordonnées cylindriques, nous avons
1 0 0
gab = 0 ρ 2 0 . (2.6)
0 0 1
Notons que chaque vecteur de la base standard {ξ̂i }i=1 N est tangent à la ligne de coordonnées
le long de laquelle la coordonnée ξi change. Par exemple, la base standard associée à un système
cartésien tridimensionnel est { x̂, ŷ, ẑ}. Notez que le symbole x̂ ne pointe pas le long de la ligne de
coordonnées x (ligne où x est constant) mais le long de la ligne de coordonnées où x augmente.
La base standard associée à un système de coordonnées sphériques est {r̂, φ̂, θ̂}. Notez que r̂ est un
vecteur unitaire pointant dans la direction du rayon identifié par le point de coordonnées (φ, θ).
Notons une différence importante entre les coordonnées curvilignes et les coordonnées carté-
siennes : les vecteurs de la base standard associés aux coordonnées curvilignes ne sont pas constants
en direction. Ce qui distingue les vecteurs de la base cartésienne des vecteurs de la base curvilignes
est que dans ce dernier cas les vecteurs de base dépendent de la position : le même vecteur de
base r̂ points dans différentes directions pour les points avec coordonnées {x, y, z} = {1, 0, 0} et
{x, y, z} = {0, 0, 1}.
Nous pouvons donc classer les bases standards comme étant homogènes ou non. Une base
homogène est une base qui conserve la même orientation en tout point des grilles de coordonnées
auxquelles elle est associée. Cette condition n’est possible que si la grille de coordonnées est formée
par des lignes de coordonnées droites (voir figures 2.6 et 2.7). Je vais mettre en relief le fait que
une base standard d’un système de coordonnées n’est pas homogène, en explicitant la dépendance
des vecteurs de base du point auquel la base est associée. Par exemple, dans le cas du système de
coordonnées sphériques, je écrirai {r̂(r, θ, φ), θ̂(r, θ, φ), φ̂(r, θ, φ)}.
Un autre critère important qui permet de caractériser davantage la base standard est la propriété
d’orthogonalité.
Definition 2.3.2 — Base canonique associée à un système de coordonnées. Si le système
de coordonnées est orthogonal, la base standard qui lui est associée est dite canonique. Nous
désignons les vecteurs génériques de la base canonique comme étant ê a . Ils remplissent la
condition
3. Puisque RN est un espace euclidien, la norme d’un vecteur est bien définie.
2.3 Bases associées à un système de coordonnées 37
Figure 2.6 – Coordonnées homogènes. Les vecteurs de base sont orientées de la mêmes façon en tous points de
l’espace. Les cellules définies par la grille de coordonnées sont des parallélogrammes. Leur généralisation en trois
dimensions sont appelées parallélépipèdes, et parallélotopes dans le cas des systèmes de coordonnées N-dimensionnelles.
Figure 2.7 – Coordonnées curvilignes. Les vecteurs de base standard sont toujours tangents aux lignes de coordonnées.
Ces systèmes de coordonnée ne sont pas homogènes. Celui de gauche, en plus, est orthogonal.
38 Chapitre 2. COORDONNEES CURVILIGNES
dr ≡ dξ i ei (2.8)
En d’autres termes, les composantes du vecteurs de déplacement par rapport à la base holonomique
sont simplement les différentiels des coordonnées. Notez que les vecteurs de la base homonymique
sont tangents aux lignes de coordonnées : le vecteur ei est parallèle à la ligne de coordonnées où
la coordonnée ξi augmente. Ceci est évident dans la définition : si toutes les coordonnées ξ i avec
i = 2, 3, 4....N sont constantes, sauf ξ 1 , alors cette coordonnée peut varier seulement dans la direction
e1 . Ainsi, les vecteurs de la base homonymique et de la base standard sont parallèles, la seule chose
qui les distingue est que la longueur des vecteurs de la base holonomique est opportunément choisie
de manière à simplifier les calculs.
Voyons les vertus de cette base. Puisque le vecteur déplacement résulte de la variation du
∂r
vecteur position r = r(ξ 1 , ξ 2 , ...ξ N ), c.-à-d. dr = ∂ξ i
i dξ , nous en déduisons, par comparaison avec
l’équation (2.20), que
∂r
ei = . (2.9)
∂ξ i
Celle ci est une règle très efficace pour déterminer les vecteurs de base des coordonnées.
Une autre propriété importante est que les coefficients métriques associés à la base holonomique
mi j ≡ (ei , e j ) (voir la definition 1.2.3) ne sont rien d’autre que les coefficients gi j entrant dans
l’expression de l’élément de ligne (cf. eq. 2.2). En effet
gi j = (ei , e j ). (2.10)
Ceci fournit un moyen très rapide et efficace de déterminer les coefficients métriques associés à un
système de coordonnées.
Les propriétés de transformation des vecteurs sont également très simples si leurs composantes
sont exprimées dans la base holonomique. Étant donné un vecteur v comment pouvons-nous
déterminer ses composantes v i par rapport à une base holonomique {ei }i=1 N ? Il suffit d’appliquer le
Theorem 2.3.1 Soyent vi et v i les composantes d’un vecteur par rapport à la base homonymique
et son dual. Leur amplitude est en général différente et reliée comme suit
v j = gi j v i (2.11)
v = g vi
j ij
(2.12)
ou
j
v 2 = v i (ei , v j e j ) = v i v j δi = v j v j (2.14)
v 2 = (vi e i , v j e j ) = gi j vi v j (2.15)
Avant d’aller plus loin, une mise en garde s’impose. Les composantes d’un vecteur par rapport
à une base holonomique ne sont pas, en général, des grandeurs physiques. Considérons par exemple
le vecteur déplacement dans la base de coordonnées associée aux coordonnées polaires dr = dρ eρ +
dφ eφ . On constate que les composantes de ce vecteur n’ont pas d’unités homogènes, la première
(dρ) étant une longueur tandis que la deuxième (dφ) est un angle. En autre, la composante par
rapport au vecteur eφ n’est pas l’amplitude du déplacement dans le sens de la coordonné curviligne
φ. Il est donc d’usage d’effectuer les calculs mathématiques à l’aide de la base holonomique, mais
de les interpréter physiquement en transformant les résultats dans la base standard à l’aide de
l’equation (2.9). Nous avons donc besoin de comprendre comment la base holonomique est liée à
la base standard.
40 Chapitre 2. COORDONNEES CURVILIGNES
tandis que la relation entre les composantes du vecteur de déplacement dans les deux bases est
dr i
dξ i = √ (2.17)
gii
Cet élément de ligne coïncidera avec la définition (équation (2.2)) seulement si nous identifions
les termes comme suit
√ dr i
ei = gii ξ̂i dξ i = √ . (2.19)
gii
Par exemple, le vecteur déplacement en coordonnées polaires est dr = dρ êρ + ρdφ êφ tandis qu’en
coordonnées sphèriques est dr = dr êr + rdθ êθ + r sin θdφ êφ . Ce n’est pas un peu trop compliqué ?
Exercise 2.2 Soient vi et v i les composants du vecteur v par rapport à la base holonomique et
son dual. De même, soient vî et vî les composants du vecteur v par rapport à la base standard et
son dual. Montrer que les relations suivantes s’appliquent
1
vi = √ v
î
(2.21)
| gii |
q
vi = |gii | vî (2.22)
ou, en utilisant une notation plus compacte, ξ = ξ (ξ0 ). Nous exigeons que ces relations soient
inversibles. En exigeant que la transformation soit une application bijective, nous voulons éviter
2.4 Transformation de coordonnées 41
toute confusion ou indétermination possible dans l’identification des points : un point d’un système
ne doit correspondre qu’à un seul et unique point d’un système de coordonnées différent.
Une condition suffisante pour qu’une fonction d’une seule variable puisse être inversée dans un
voisinage d’un point de son domaine de définition est que sa dérivée soit continue et non nulle à ce
point. Dans le cas des fonctions à plusieurs variables, ce théorème est généralisé comme suit :
Theorem 2.4.1 — Condition suffisante pour l’inversibilité des transformations des coordon-
nées. Supposons que la transformation ξ : V ⊆ R N → R N soit différentiable (c’est-à-dire qu’elle
possède des dérivées partielles uniques par rapport à chaque coordonnée à chaque point P ∈ V).
Supposons, en plus, que en P ∈ V le déterminant jacobien de la transformation ξ = ξ (ξ0 ), c.-à-d.
J[ξ(ξ0 )]P ≡ |∂(ξ)/∂(ξ0 )|P soit nonnul. Alors, la carte est bijective dans le entour de P. De plus, la
trasformation inverse ξ0 = ξ0 (ξ) est aussi differentiable et J[ξ0 (ξ)] = J −1 [ξ(ξ0 )].
La condition J[ξ(ξ0 )]P , 0, est appelée condition de non-dégénérescence. Sans cette condition,
la transformation peut ou non être inversible localement. (Voir Michael Spivak’s, Calculus on
Manifolds pour une demonstration formelle de ce theorème).
Nous avons maintenant besoin d’une prescription sur la façon de convertir un système de
coordonnées en un autre. On pourrait par exemple y parvenir par une simple analyse géométrique.
Considérons les coordonnées polaires {ξ 1 = ρ and ξ 2 = φ} et un système de coordonnées rectilignes
(cartésiennes) orienté de telle manière que les axes polaires coïncident avec l’axe x. D’après la figure
2.5, il est clair que les équations de transformation entre les coordonnées polaires et cartésiennes
sont les suivantes
ρ(x, y) = x 2 + y 2
p
(2.24)
φ(x, y) = arctan y/x
Exercise 2.3 Considérez la transformation de coordonnées donnée par l’equation 2.24. Montrer
que cette transformation est inversible partout sauf à l’origine ρ = 0 et que l’inverse de son
déterminant jacobien est égale au déterminant jacobien de la transformation inverse.
Solution Le determinant jacobien est
∂ρ ∂ρ x y
√ √
∂x ∂y x 2 +y 2 x 2 +y 2
J[ξ(x)] = ∂φ ∂φ = y x
= (x 2 + y 2 )−1/2 (2.25)
∂x ∂y − x 2 +y 2 x 2 +y 2
qui n’est pas dégénéré si x , 0 et y , 0. Il est alors immédiat de voir que la transformation
inverse est explicitement donnée par
x(r, φ) = ρ cos φ
(2.26)
y(r, φ) = ρ sin φ
De manière analogue, on peut vérifier que la relation entre les coordonnées sphériques et
42 Chapitre 2. COORDONNEES CURVILIGNES
Les équations de transformation entre les deux systèmes sont obtenues en résolvant le système
de N × N équations aux dérivées partielles
∂xk ∂x k
gi j = (2.30)
∂ξi ∂ξ j
Proof L’équation (2.29) exprime le fait que la distance entre deux points est une grandeur universelle
indépendante du système de coordonnées particulier utilisé pour la calculer.
Les équations de transformation (2.32) découlent du calcul des différentiels dx(ξ1 , ξ2 , ...., ξ N ),
dy(ξ1 , ξ2 , ..., ξ N ) etc. et de l’insertion du résultat en (2.29). On obtient
!2 !2 !2
∂x ∂y ∂z ∂xi ∂xi
g11 = + + .... = 1 1 (2.31)
∂ξ 1 ∂ξ 1 ∂ξ 1 ∂ξ ∂ξ
∂x ∂x ∂y ∂y ∂z ∂z ∂xi ∂xi
g12 = + 1 2 + 1 2 .... = 1 2
∂ξ ∂ξ
1 2 ∂ξ ∂ξ ∂ξ ∂ξ ∂ξ ∂ξ
...
qui peuvent toutes être exprimées sous une forme plus compacte comme montré dans l’equa-
tion 2.32.
Ce théorème permet de calculer les équations de transformation entre deux systèmes de coordonnées
une fois les coefficients métriques connus. Viceversa, il peut aussi être utilisé pour déduire la valeur
des coefficients métriques associés à un système de coordonnées donné ξ si les équations de
transformation x → ξ sont connues.
Exercise 2.4 Montrer que les équations de transformation (2.26), qui mappent les coordonnées
cartésiennes en coordonnées polaires, vérifient l’ensemble des équations aux dérivées partielles
(2.32). Si vous vous sentez à l’aise avec la résolution de systèmes d’équations aux dérivées
partielles, vous pouvez aussi essayer de dériver les équations (2.26) directement de (2.32).
2.4 Transformation de coordonnées 43
!2 !2
∂x ∂y
= 1− (2.32)
∂ρ ∂ρ
!2 !2
∂x ∂y
= ρ − 2
∂φ ∂φ
!2 !2 !2 !2
∂x ∂x ∂y ∂y
= (2.33)
∂ρ ∂φ ∂ρ ∂φ
!2 !2 !2 !2
ρ ∂y 1 ∂y ρ
+ = (2.35)
R(ρ) ∂ρ Φ(φ) ∂φ
2 R(ρ)Φ(φ)
qui donne R(ρ) = αρ où α est une constante arbitraire. En utilisant ce résultat en (2.35) on obtient
!2
∂y 1 − α2 Φ2
=
∂φ α2
On a donc
y = RΦ = ρ sin(φ + K)
Nous choisissons la constante K de sorte que y = 0 quand φ = 0 qui donne y = ρ sin φ. En utilisant
ce résultat dans l’equation (2.32) on obtient x = ρ cos φ.
Exercise 2.6 Montrer que l’opérateur T ∗ [...] qui transforme la base duale bi (associé à bi ) dans
la base duale b0i (associé à b0 ) est l’inverse de l’opérateur T .
i
Solution : En exploitant le principe de dualité (1.12), nous avons
b0i [b0k ] = δik = (b0i , b0k ) = T ∗im b m, T nk b n = T ∗im (T nk )δmn = T ∗im T mk . (2.39)
2.4 Transformation de coordonnées 45
En effet, en utilisant l’equation (2.9) et l’expression du vecteur position comme fonction composée
des anciennes et des nouvelles coordonnées (r[ξ(ξ0 )]), on obtient
i ∂r[ξ(ξ )] ∂r ∂ξ k ∂ξ k i
0
! ! ∂ξ k
T j = (e , e j ) = e ,
i i 0
= e i
, = e , e k = 0 δ
a
∂ξ j ∂ξ k ∂ξ j ∂ξ j ∂ξ j k
0 0 0
à partir de laquelle l’equation (2.40) suit. Voici donc un autre avantage de travailler avec la base
holonomique : la transformation entre différentes bases peut être calculé immédiatement sans
évaluer de formes sequilinéaires. Il suffit de calculer la matrice jacobienne du changement de
∂ξ i
coordonnées J i j = ∂ξ j0 .
Exercise 2.7 Montrer que la relation entre les vecteurs unitaires sphériques et cartésiens est
Solution Considérons la base cartésienne êi dont les éléments sont { x̂, x̂, x̂} et notons qu’elle
est une base homonymique. Soit e0i la base homonymique sphérique. Il suffit de calculer la
matrice de passage qui transforme la base holonomique cartésienne en la base holonomique
sphérique. En utilisant e0 = T ik êi avec T ik donnée par l’equation (2.40) on trouve
k
i0 ≡ e 0 i , v . On a donc
Proof Les composantes d’un vecteur v ∈ V sont définie comme suit v
0
v i ≡ e 0 i , v = T ∗i j e j , v = (T ij )−1 v ĵ
où nous avons utilisé le fait que la matrice de passage entre deux bases duales est l’inverse de
la matrice de passage T entre les bases de V (voir l’equation (2.39)).
Nous pouvons prendre le théorème précédent comme une définition de ce qu’est un vecteur.
Considérons par exemple trois fonctions de coordonnées spatiales, par exemple f 1 (ξ), f 2 (ξ) et
0 0 0
f 3 (ξ) qui, sous la transformation de coordonnées ξ → ξ0 deviennent f 1 (ξ), f 2 (ξ) and f 3 (ξ). En
général, ils ne représentent pas les composantes d’un vecteur, sauf s’ils se transforment selon
l’équation (2.48).
La transformation spéciale qui transforme une base canonique êi de ξ en la base canonique
ê0 de ξ0 est une matrice qui fait tourner les vecteurs sans changer leur longueur. En autre, elle
i
fait tourner tous les vecteurs de la base du même angle. Elle est ainsi appelé matrice de rotation.
Puisque une base et son dual sont identiques dans le cas de systèmes orthonormaux, la position en
haut ou en bas des indices de la matrice de rotation est sans importance. Nous pouvons donc écrire
(2.37) comme
Proof Un vecteur générique de0 la nouvelle base peut être développé en terms des vecteurs de
l’ancienne base comme ê = R i ê k . Puisque ê est toujours un vecteur unitaire (la rotation ne
k 0
i i
modifie pas la longueur des vecteurs), on en déduit que
T
(ê0i , ê0j ) = δab = R mi R nj (ê m , ê n) = R mi R nj δmn = R mi R m j = Ri m Rm j
Puisque R−1 = RT , nous concluons (voir les équations (2.38) et 2.48)) que la matrice RT qui
transforme les vecteurs de la base canoniques est la même qui transforme aussi les composantes
vectorielles.
Notez qu’une telle limite, parfois aussi dénotée par v0 (t0 ), est toujours un vecteur.
Les propriétés suivantes s’appliquent :
d(u + v) du dv
= + (2.51)
dt dt dt
d df du
( f u) = u+ f (2.52)
dt dt dt
où f est une fonction d’une variable réelle ayant des valeurs réelles. On peut aussi montrer que 4
d du du
u·v = u· +v· (2.53)
dt dt dt
d dv du
u×v = u× +v× (2.54)
dt dt dt
La démonstration de ces propriétés, à partir de la définition (2.50), est simple et laissée comme
exercice.
Exercise 2.8 Montrez que si v = ||v|| est la norme d’un vecteur v(t) alors
dv v dv
= · (2.55)
dt v dt
Déduire aussi que si le vecteur v a une longueur constante, alors pour toute valeur de t, sa dérivée
dvdt est nulle ou perpendiculaire au vecteur v.
Si le vecteur est de classe C k autour d’un point t, c’est-à-dire qu’il admet des dérivées continues
jusqu’à l’ordre k, alors on peut considérer aussi les dérivées successives du vecteur, notamment la
différence entre la valeur du vecteur en t0 et t0 + ∆t peut être exprimée par l’expansion de Taylor
1 2 1
v(t0 + ∆t) − v(t0 ) = dv(t0 ) + d v(t0 ) + .... + dk v(t0 ) + o(∆tk ) (2.56)
2! k!
où dv(t0 ) = v0 (t0 )∆t, d 2 v(t0 ) = v”(t0 )∆t 2 etc. sont les différentiels successives du vecteur v calculées
en t0 .
La question pratique, à ce stade, est de savoir s’il existe une formule générale permettant de
calculer les dérivées des vecteurs géométriques dans le cas général. La réponse est oui. En fait,
il existe de nombreuses façons de calculer la dérivée d’un vecteur géométrique. L’approche la
plus simple, qui est également intuitive, est une approche géométrique. Il exploite le fait que la
dérivée d’un vecteur géométrique de longueur constante, par exemple un vecteur de base êi , est
4. Le produit vectoriel entre deux vecteurs géométriques u×, v = u v sin θk où 0 ≤ θ ≤ π est l’angle entre les vecteurs
et k est un vecteur unitaire qui pointe perpendiculairement au plan défini par les deux vecteurs, dans le sens donné par la
règle de la main droite
48 Chapitre 2. COORDONNEES CURVILIGNES
Figure 2.8 – Gauche : changement dans l’orientation du vecteur unitaire ê1 (seule l’orientation
change, pas la longueur). L’amplitude de la différence, représentée par le vecteur ∆ê a se rapproche,
dans la limite d’un déplacement infiniment petit, de dθ.
un vecteur qui est soit nul soit perpendiculaire à êi . Considérons un champ de vecteurs unitaires
et en particulier deux vecteurs en deux points infiniment proches P et P + dP. Il n’y a que deux
configurations possibles : soit le vecteur en P + dP est parallèl au vecteur en P. soit il est tourné par
rapport au vecteur en P. Supposons que nous voulions calculer la différence dêi = êi (P + ∆P) − êi (P).
Pour effectuer une telle soustraction, nous devons transporter un vecteur de sorte que son origine
coïncide avec l’origine du second. Rappelez-vous : la règle des parallélogrammes nous apprend
comment ajouter ou soustraire des vecteurs seulement s’ils ont une origine commune. Par définition
un transport parallèle, est l’acte de transporter un vecteur sans changer son orientation. Supposons
que le vecteur à P + ∆P, après avoir été transporte parallèlement en P résulte être parallel au vecteur
qui se trouve en P. Dans ce cas la dérivée est nulle. Supposons, au lieu de cela, qu’une fois le
transport parallèle effectué jusqu’à la position P, le vecteur unitaire êi (P + ∆P) form un angle ∆θ k̂i
avec le vecteur êi (P) (voir la figure 2.8.) Ici, k̂i est un vecteur unitaire perpendiculaire au plan
contenant l’angle ∆θ et définit l’axe de rotation du vecteur ˆi
Le vecteur resultant ∆êi ≡ êi (θ + ∆θ) − êi (θ) est perpendiculaire à l’original, et sa longueur,
dans la limite d’un petit angle de rotation est simplement donnée par la longueur de l’arc de la
circonférence de l’unité sous-tendue par la différentielle dθ
∆êi dêi
lim = = k̂i × êi . (2.57)
∆θ→0 ∆θ dθ
Par conséquent, non seulement la dérivée d’un vecteur par rapport à son angle de rotation est
perpendiculaire au vecteur original, mais elle est elle-même un vecteur unitaire. Notez, aussi que le
vecteur résultant est obtenu par rotation de êi dans le sens inverse des aiguilles d’une montre, d’un
angle π/2.
R Dans un espace euclidien, deux vecteurs unitaires appliqués à deux positions différentes de
l’espace peuvent toujours être trasmportés, sans altérer leur orientation, de telle sorte que
leurs “queues” aient la même origine. Cette opération de transport d’un vecteur est moins
triviale dans des espaces courbes, où la notion de transport parallèle d’un vecteur n’est pas
définie de manière univoque et sans ambiguïté à moins que des informations supplémentaires,
telles que la trajectoire suivie par les vecteurs géométriques pendant le transport, ne soient
précisées.
Exercise 2.9 Calculez la dérivéee partielle des vecteurs unitaires de la base polaire canonique
{êρ , êφ } par rapport aux coordonnées {ρ, φ}.
Solution. les vecteurs de base êρ (φ) et êφ (φ) dependent seulement de la coordonnée angulaire
φ : ni la longueur ni l’orientation des vecteurs unitaires ne changent si nous les déplaçons dans le
sens radial. Nous en déduisons donc immédiatement que ∂ρ êρ = 0 and ∂ρ êφ = 0. Afin de calculer
∂φ êρ (φ) = 0, on applique 2.57. L’angle de rotation infinitesimale dθ coïncide avec dφ, en plus le
vecteur unitaire depends uniquement de φ de telle façon que la dérivée partielle coïncidera avec
2.6 Mesures métriques II : éléments de surface et de volume 49
la dérivée totale. Puisque k̂ a est un vecteur unitaire perpendiculaire au plan contenant {êρ et êφ }
on déduit que k̂ a × êρ = êφ . Donc ∂φ êρ (φ) = êφ . De même, on peut vérifier que ∂φ êφ (φ) = −êρ .
Si le déplacement du vecteur a lieu dans un intervalle de temps donné, on peut réécrire l’equation
2.57 comme
dêi
= ωi × êi (2.58)
dt
où ωi = dθdt k̂i est la vitesse de rotation du vecteur êi On peut montrent en effet qu’il existe un nombre
infini de vecteurs ωi qui satisfont à l’équation précédente, tous ceux obtenus en ajoutant à ωi un
vecteur arbitraire parallèle à êi . Par conséquent, la composante de ωi le long du vecteur unitaire êi
est arbitraire.
Avec deux dimensions comme source d’inspiration, généralisons la discussion au cas d’un es-
pace a N dimensions. Nous allons définir une fonction ∆N .(v1 , v2 , ..., vN ) qui accepte N vecteurs (tous
N−dimensionnels) et retourne ce que l’on pourrait appeler le volume, avec signe, N-dimensionnel
généré par ces vecteurs (ce qui signifie que le volume N dimensionnel, comme une surface bidimen-
sionnel, à un signe plus ou moins.) Si vous y pensez, nous devrions exiger exactement les mêmes
propriétés pour ∆N que nous avons demandé pour ∆2 , soit
1) Si deux des vecteurs sont identiques, alors ∆N = 0, c.à-d., ∆N (v1 , ..., u, ..., u, ..., vN ) = 0.
2) Si N − 1 des vecteurs sont fixes alors ∆N est linéaire dans la variable restante.
3) ∆N (ê1 , ê2 , ..., êN ) = 1.
Comme ci-dessus, pour toute fonction ∆N qui satisfait aux propriétés 1 à 3 ci-dessus, l’échange de
deux vecteurs quelconques dans ∆N inverse le signe de ∆N . De plus, on peut prouver que il y a une
et une seule fonction ∆N qui satisfait les propriétés 1 à 3 ci-dessus. On pourrait reconnaître que le
déterminant de la matrice N × N formé à partir des vecteurs v1 , ..., vN satisfait la propriété ci-dessus
et nous fournit une procédure pour calculer le volume N−dimensionnel.
Appliquons ces résultats et découvrons comment calculer le volume élémentaire du parallélo-
tope défini par les lignes de coordonnées. Nous voulons donc calculer l’expression de l’élément
de surface élémentaire (en 2D), de l’élément de volume (en 3D) et de l’élément de N−volume (en
N-dimensions) dans différents systèmes de coordonnées. Considérons un système de coordonnées
générique ξ. Nous avons vu que la différence des coordonnées dξ 1 ne représente pas la distance
mesurée sur la ligne de coordonnées ξ 1 . De même, le produit dξ 1 dξ 2 ne mesure pas la surface du
parallélogramme obtenu en variant les deux coordonnées ξ 1 et ξ 2 selon les coordonnées respectives.
Pour ce faire, nous devons identifier les ‘bords’ du parallélétope dont nous voulons mesurer le
N-volume. Ce sont par définition les vecteurs composants dr1 = dξ 1 e1 , dr2 = dξ 2 e2 etc, dont la
somme donne le déplacement élémentaire dr, qui peut être interprété comme la ‘diagonale’ du
parallélotope. Puisque chaque vecteur dri peut être exprimé comme la combinaison linéaire des
vecteurs d’une base orthonormale,
i ∂r i ∂x ∂y ∂z ∂w
!
dri = dξ i = dξ ê x + i ê y + i ê z + ..... + i êw pas de somme sur l’indice i (2.61)
∂ξ ∂ξ i ∂ξ ∂ξ ∂ξ
où nous avons utilisé le fait que le déterminant d’une matrice est identique au déterminant de sa
transposée, et que le déterminant est multiplié par un scalaire si tous les éléments d’une ligne sont
multiplié par ce scalaire. Le N−volume élémentaire du parallélotope obtenu en découpant l’espace
avec la coordonnée ξ est donc
∂(x)
dNr = dξ 1 dξ 2 dξ 3 ....dξ N (2.63)
∂(ξ)
Le déplacement élémentaire le long d’une ligne de coordonnées peut aussi être exprimé par
√
dr = gii dξ i ξ̂i . Si le système de coordonnées est orthogonal, c.à-d. ξ̂i = êi , alors il est facile de
démontrer que le N−volume des parallèletopes élémentaires définis par les grilles de coordonnées
peut aussi s’exprimer simplement comme suit
√
dNr = g11 g22 g33 ......gNN dξ 1 dξ 2 dξ 3 .......dξ N (2.64)
2.7 Résumé 51
Par exemple, le parallélogramme élémentaire obtenu en découpant un plan avec des coordonnées
polaires est d 2 r = ρdρdφ. Les volumes élémentaires en coordonnées sphériques et cylindriques
sont d 3 r = r 2 sin θ dr dθ dφ and d3 r = ρdρ dφ dz respectivement.
L’ expression 2.64 est juste un cas particulier d’une loi plus générale qui peut être appliquée
même lorsque les systèmes de coordonnées ne sont pas orthogonaux
√
d N r = g dξ 1 dξ 2 dξ 3 .......dξ N (2.65)
2.7 Résumé
Bien que les physiciens recherchent toujours une formulation des lois physiques en terme
d’équations indépendantes des coordonnées, les coordonnées sont importantes si nous voulons
résoudre ces équations ! Souvent, la partie la plus importante de la résolution d’un problème en
physique est le choix du système de coordonnées approprié dans lequel exprimer les équations
fondamentales. Inutile de dire qu’un choix approprié simplifie grandement l’analyse. Nous avons
montré comment construire des systèmes de coordonnées extrêmement utiles a ces fins : le cartésien,
le polaire, le sphérique et le cylindrique. Bien que les systèmes ci-dessus soient de loin les plus
couramment utilisés en physique, la liste n’est pas exhaustive.
Le système de coordonnées lui-même est une structure qui permet d’identifier numériquement
les points d’un espace. Mais la distance entre deux points n’est pas la différence entre leurs
coordonnées ! La structure métrique qui permet de déduire les distances entre les coordonnées est
l’élément de ligne associé à un système de coordonnées donné. Nous avons vu que l’expression
formelle de l’élément de ligne
ds2 = gi j dξi dξ j
dépend du système ξ de coordonnées choisies pour identifier les point d’un espace, bien que la
distance résultante soit une quantité indépendante des coordonnées ; la même quantité quel que soit
le système de coordonnées utilisé pour la calculer dans la pratique.
A chaque système de coordonnées ξ on peut associer une base vectorielle qui décrit, en chaque
point, l’orientation des lignes des coordonnées. On a trouve utile de les classifier en trois types : la
base standard ξ̂i , la base canonique êi et la base holonomique êi . Cette dernière est souvent la plus
utile d’un point de vue du calcul, surtout quand il s’agit de trouver les relations de transformations
entre différentes systèmes de coordonnées.
Enfin, on a exposé une méthode pour déterminer les éléments de surface et de volume dans
n’importe quel système de coordonnées curvilignes. Supposons, par example, que nous devions
intégrer une fonction f sur un domain D ayant deux, trois voir plusieurs dimensions. L’integration
en coordonnées cartésiennes se révélant difficile à effectuer, il est souvent nécessaire de transformer
l’argument de la fonction f dans un système de coordonnées qui simplifie l’intégration. La formule
√
d N r = g dξ 1 dξ 2 dξ 3 .......dξ N (2.66)
nous permet donc d’exprimer l’element de surface ou de volume dans le système de coordonnées ξ
choisi.
2.8 Exercices
52 Chapitre 2. COORDONNEES CURVILIGNES
Exercise 2.12 Considérez l’élément de ligne suivant ds2 = adx2 + bdxdy + cdy2 où a, b et c
sont des coefficients constants. Le système de coordonnées ayant cet élément de ligne est-il
orthogonal ? Montrez que cet élément de ligne peut être écrit comme le produit matriciel suivant
ds2 = dxT gdx où dx est une matrice à une colonne dont les éléments sont {dx, dy, dz}, dxT est sa
transposée et g est une matrice symétrique dont les éléments gi j sont les coefficients métriques
associés aux système de coordonnées. Déterminer gi j et gi j . Existe-t-elle une transformation
de coordonnées x = x(u, v, w), y = y(u, v, w),, z = z(u, v, w) de sorte que l’élément de ligne puisse
être écrit sous la forme ds2 = du2 + dv2 + dw2 ?
x2 y2
+ = 1 (2.70)
a2 cosh2 µ a2 sinh2 µ
x2 y2
− = 1 (2.71)
a2 cos2 ν a2 sin2 ν
où µ est un nombre non negatif et ν ∈ [0, 2π), définissent les système de coordonnées elliptiques.
i) Tracez les lignes de coordonnées µ = const et ν = const de ce système de coordonnées .
ii) Trouvez les équations de transformation x = x(µ, ν) et y = y(µ, ν) entre les coordonnées
cartésiennes {x, y} et les coordonnées elliptiques {µ, ν}.
iii) Pour quelles valeurs de {µ, ν} ces équations de transformation sont-elles inversibles ? Quelles
sont les équations de transformation inverse µ = µ(x, y) and ν = ν(x, y).
iv) Déterminez l’élément de ligne ds2 associé au système de coordonnées {µ, ν}
v) Ce système de coordonnées est-il orthogonal ?
vi) Déterminez la matrice métrique gi j associée au système de coordonnées elliptiques. Quels
sont les éléments de la matrice gi j .
vii) Trouvez la matrice qui transforme la base canonique associée au système cartésien {ê x , ê y }
en la base canonique du système elliptique {êµ , êν }. Cette matrice est-elle orthogonale ?
viii) Exprimez les vecteurs de la base canonique elliptique {êµ , êν } en fonction des vecteurs de la
base canonique cartésienne {ê x , ê y }.
ix) Exprimez le vecteur position dans le système de coordonnées elliptiques
x) Trouvez la base holonomique {eµ , eν } associée au système de coordonnees elliptique et verifiez
si (ei , ei ) = gi j .
xi) Déterminez l’ élément de surface infinitésimal d2 r dans le système de coordonnées elliptiques.
2.8 Exercices 53
Exercise 2.14 Considérons la transformation de coordonnées suivante, qui relie les coordonnées
cartésiennes {x, y} à un nouvel ensemble de coordonnées curvilignes {µ, ν} :
1 2
x= µ − ν2 y = µ ν.
(2.72)
2
a) Tracez les courbes µ = const et ν = const dans le plan [x, y].
b) Ecrivez l’élément de ligne ds 2 en utilisant les coordonnées {µ, ν} et deduire les facteurs
d’échelle associés à ce système de coordonnées.
c) Ce système de coordonnées {µ, ν} est-il orthogonal ?
d) Cette transformation de coordonnées est-elle inversible ? Si oui donnez les relations µ =
µ(x, y) and ν = ν(x, y).
e) Trouvez la matrice qui transforme la base holonomique associèe au système {x, y} en la
base holonomique du système {µ, ν}. Est-elle une matrice de rotation ?
f) Exprimez les vecteurs unitaires êµ et êµ de la base canonique de {µ, ν} en fonction des
vecteurs de la base canonique cartesienne (ê x et êy )
√ √
g) Soient {1/ 2, 1/ 2} les composantes cartésiennes d’un vecteur v. Quelles sont les compo-
santes de v par rapport à la base canonique du système de coordonnées {µ, ν} ?
h) Quelle est l’expression de l’élement de surface d2 r dans le système de coordonnees {µ, ν} ?
d2 r
Exercise 2.15 Exprimez les vecteurs vitesse (a ≡ dr
dt ) et accélération (a ≡ dt2 ) dans le système
de coordonnées cartésiennes, dans le système de coordonnées polaires et dans le système de
coordonnées sphériques.
x = ρ cos φ (2.73)
y = ρ sin φ (2.74)
z = z (2.75)
(i) Trouvez la matrice qui permet de passer de la base canonique du système de coordonnées
cartésiennes à la base canonique du système de coordonnées cylindrique.
Cette matrice est-elle une matrice de rotation ? (ii) Determinez les vecteurs de la base canonique
du système de coordonnées cylindriques en fonction des vecteurs de la base canonique du
système cartésien
Exercise 2.17 1 (i) Déterminez la matrice de rotation qui transforme la base canonique d’un
système de coordonnées cylindrique en la base canonique d’un système de coordonnées sphé-
riques.
(ii) Exprimez les vecteurs de la base canonique du système de coordonnées sphériques en
fonction des vecteurs de la base canonique du système cylindrique.
(iii) Soient (v ρ̂ , v φ̂ , v ẑ ) les composantes d’un vecteur v par rapport à la base canonique du système
de coordonnées cylindriques. Quelles sont les composantes de ce même vecteur par rapport à la
base canonique du système de coordonnées sphériques ?
3. Calcul des Variations
Le calcul des variations est la branche de la physique mathématique concernée par les maxima,
minima ou points d’inflexion des fonctionnels. On attribue souvent à Newton le mérite d’avoir été
le premier à enquêter sur ce genre de problèmes. Le problème qu’il a étudié dans les Principia est
de trouver la forme de la coque d’un navire qui minimise la traînée lorsqu’il se déplace dans l’eau,
ou, en termes plus formels, la forme que prend un solide de révolution lorsqu’il se déplace dans un
fluide homogène à vitesse constante et dans la direction de l’axe de la rotation. Quoi qu’il en soit, les
problèmes qui nécessitent le calcul des variations étaient connus depuis l’antiquité. Mentionnons, à
titre d’exemple, le problème de Didon : dans Énéide de Virgile, la reine Didon de Carthage s’est
vue offrir autant de territoire de la ville de Carthage que une corde faite de peau de taureau aurait pu
entourer. Sachant que la côte de Carthage, sur la Méditerranée, est presque rectiligne, le problème
se réduit à trouver la courbe de longueur fixe reliant deux points d’un segment et entourant la
plus grande surface possible. Parmi les autres problèmes classiques qui nécessitent du calcul des
variation, et qui sont en fait à l’origine du développement de cette discipline, on peut citer le
— le problème de Plateau : un bord étant donnéé, trouver la surface minimale s’appuyant sur ce
bord. Par exemple, un film de savon sur une armature métallique adoptera cette configuration
de surface minimale.
— la brachistochrone de Johann Bernoulli : une masse ponctuelle m glisse sur une courbe à
extrémités fixes. En supposant que l’énergie mécanique E = 12 mv2 + U(x) est constante, il
faut trouver la courbe sur laquelle la descente est la plus rapide
— la caténaire : trouver la forme d’une chaîne lourde suspendue aux extrémités et de longueur
fixe.
Les travaux sur les généralisations de ces problèmes ont finalement conduit, en 1744, à un traité
d’Euler qui systématisa les méthodes de solution. Cette méthode couplait le calcul différentiel avec
des raisonnements géométriques. En 1745, Lagrange, qui était à l’époque un jeun de 19 ans, écriva
à Euler pour décrire une méthode générale qui ne repose pas sur des méthodes géométriques. La
réponse d’Euler a été d’abandonner ses méthodes en faveur de celles de Lagrange, méthodes qu’Eu-
ler appela " calcul des variations ". Ce chapitre portera sur le calcul des variations, essentiellement
tel que présenté par Lagrange dans sa Mécanique Analytique de 1788, qui refond la mécanique en
56 Chapitre 3. Calcul des Variations
termes d’équations différentielles. Lagrange était fier du fait que son livre ne contient pas de figures
ni de diagrammes géométriques, ce qui est en contraste flagrant avec les Principia de Newton, qui
ne contient aucune équation !
Les problèmes de variation impliquent tous de trouver des maxima ou des minima des fonction-
nels, et donc d’introduire une nouvelle sorte de dérivée, la dérivée fonctionnelle. Avant d’atteindre
cet objectif, cependant, on reviendra brièvement sur le problème plus simple de la recherche de
maxima et de minima de fonctions.
Les points ξc où une fonction a un maximum ou un minimum relatif sont appelés collectivement
extrema.
La procédure pour trouver systématiquement les extrema dans le cas d’une fonction d’une
variable (cartésienne) y = f (x) est due à Fermat. L’intuition de Fermat’s a été de comprendre que
les extrema d’une fonction, dans un intervalle ouvert, peuvent être identifiés parmi les points où la
fonction est stationnaire, c’est-à-dire que sa différentielle d f (x) s’annule. En d’autres termes, parmi
les points où la tangente de la courbe f (x) est horizontale. Les points xc qui résolvent l’équation
d f (xc ) = f 0 (xc )dx = 0 (0 ≡ d/dx) sont appelées points critiques ou stationnaires. Cette stratégie
pour trouver les extrema s’appelle donc le méthode de Fermat ou test de la dérivée première. 1 Il
est à noter que la méthode de Fermat fournit seulement une condition nécessaire e à l’existence
d’un extremum. En effet, certains points critiques sont des points d’inflexion (pas un maximum ou
un minimum mais une selle). Rappelons aussi qu’il faut aussi tester si les extrêmes sont situés à des
points où le théorème de Fermat ne s’applique pas, c’est-à-dire à la limite du domaine de definition
de la fonction, ou à des points où la fonction n’est pas dérivable, comme par exemple les points de
discontinuité.
Le critère suffisant pour qu’un point stationnaire soit un extremum est fourni par le test de
la dérivée seconde, c.-à-d.. l’analyse de la valeur de la dérivée seconde de la fonction à un point
critique. Si f 00 (xc ) > 0, alors xc est un minimum relatif (ou absolu). Si f 00 (xc ) < 0, alors xc est un
maximum relatif (ou absolu). Si f 00 (xc ) = 0, le test n’est pas concluant, le point d’inflexion pourrait
être un maximum, un minimum ou aucun, par exemple être une selle.
Exercise 3.1 Pourquoi la dérivée seconde nous renseigne-t-elle sur la nature des points cri-
tiques ? Comment pouvez-vous déterminer la nature du point critique xc si f 00 (xc ) = 0 ?
Solution On développe la fonction en série de Taylor jusqu’au second ordre dans un voisinage
du point critique xc
1 00
f (x x + dx) ≈ f (xc ) + f 0 (xc )dx + f (xc )dx2 + o(dx2 ).
2!
Puisque la dérivée première au point critique est par définition égale à zéro, le signe de la
dérivée seconde déterminera si le point critique est un maximum (dérivée seconde négative) ou
un minimum (dérivée seconde positive). Si la dérivée seconde est égale à zéro, nous devons
1. La méthode a été élaborée par P. Fermat en 1637 et discutée dans la lettre Methodus ad Disquirendam Maximam
et Minimam.
3.1 Maxima et minima relatifs de fonctions 57
étudier le signe des dérivées premières à gauche et à droite du point critique xc . A ce fin on peut
developper la fonction à un ordre supérieur (à deux) et considérer la première dérivée non nulle
en xc . Si le premier ordre non-nul est impair, quelle est la nature du point critique ? et si c’est
pair ?
Les notions de test de la dérivée première et seconde s’appliquent aux fonctions de plusieurs
variables. Considérons un champ scalaire à deux variables ϕ = ϕ(ξ 1 , ξ 2 ). Les points critiques
sont des points dans le plan [ξ 1 , ξ 2 ] où la différentielle totale dϕ de la fonction s’annulle, c.-à-d.
où le plan tangent à la surface ϕ est horizontal. Quel que soit le déplacement infinitésimal dr à
partir du point critique, la fonction ne change pas au premier ordre d’approximation. La condition
dϕ = ∇ϕ · dr = 0 implique que, aux points critiques, ∇ϕ = 0 puisque le déplacement dr est arbitraire.
Nous concluons donc que les points critiques sont les solutions simultanées des deux équations
suivantes
∂1 ϕ = 0
∂2 ϕ = 0.
Solution Les dérivées partielles sont ∂ x ϕ = (−y2 + 1)ϕ et ∂y ϕ = −2yϕ. Puisque l’exposant
ne peut être nul (sauf dans le cas dégénéré), nous concluons que les dérivées partielles sont
simultanément nulles lorsque x = −1 ou x = +1, et y = 0. Les points critiques sont donc (−1, 0)
et (1, 0).
Dans le cas des fonctions de plus de 2 variables ϕ = ϕ(ξ 1 , ξ 2 , ..., ξ N ), le point (ξc1 , ξc2 , ..., ξcN ) est
critique s’il satisfait aux N équations
∂i ϕ(ξ) = 0, i = 1, 2, ..., N
La nature des points critiques peut être déterminée en généralisant le test de la dérivée seconde
au cas des fonctions multi-variables. Pour cela il faut exploiter la notion de matrice hessianne H.
Proche des points critiques, la fonction peut être développée en série de Taylor
1 t
ϕ(ξ) ≈ ϕ(ξc ) + dξ H(ξc )dξ + o(ξ2 )
2!
puisque le gradient de la fonction aux points critiques est nul. Ici dξ est une matrice colonne et dξt
sa transposition, c.-à-d.. une matrice ligne, tandis que la matrice contenant les dérivées secondes
soit diagonale
λ1
λ2
Hi0j = . (3.2)
....
λn
Les n termes λi sur la diagonale sont les valeurs propres de la matrice H0 . Ils sont tous réels parce
que H est une matrice symétrique. En négligeant les termes d’ordre supérieur à deux (o(ξ2 )), nous
avons
n
1 X 0 i 2
ϕ(ξ) ≈ ϕ(ξc ) + λi dξ .
2! i
Cette quantité est toujours positive, donc le point critique est un minimum, si toutes les valeurs
propres sont positives ; Elle est toujours négative, c’est-à-dire le point critique est un maximum,
si toutes les valeurs propres sont négatives. Le terme quadratique est indéfini (c’est-à-dire il peut
prendre à la fois des valeurs positives et négatives) si certaines valeurs propres sont négatives et
les autres positives. Dans ce cas, le point critique est un point de selle, puisque en s’écartant du
point critique, la fonction diminue ou augmente en fonction de la direction prise. Si nous nous
déplaçons dans la direction spécifiée par les vecteurs propres associés aux valeurs propres positives,
la fonction augmente. Si, au lieu de cela, nous nous écartons du point critique selon la direction
des vecteurs propres associés aux valeurs propres négatives, la fonction diminue. Enfin, la nature
du point critique ne peut être déterminée par l’analyse de la matrice hessienne si l’une des valeurs
propres est nulle. Dans ce cas, la forme quadratique pourrait être nulle et nous avons besoin de
termes d’ordre supérieur dans l’expansion de Taylor pour décider du signe de la fonction.
En deux dimensions, il existe une façon plus économique de juger le signe de la fonction. Cette
méthode ne repose pas sur le calcul du signe des valeurs propres de la matrice hessianne mais
sur l’analyse de la valuer de son déterminant et de sa trace aux points critiques. En effet, puisque
D = det(H) = λ1 λ2 et que T = T r(H) = λ1 + λ2 nous pouvons immédiatement conclure que
— si D > 0 et T < 0, la fonction a un maximum relatif.
— si D > 0 et T > 0, la fonction a un minimum relatif.
— si D < 0, la fonction a une selle.
— si D = 0, le test de dérivée seconde n’est pas concluant.
Le critère de Sylvester, non démontré ici, nous permet de simplifier davantage le problème. Au
lieu de tester si la trace est majeure ou inférieure à zéro, il suffit de vérifier si l’élément H11 de la
matrice hessienne est positif ou négatif.
Exercise 3.3 Trouver et classer les points stationnaires (critiques) de
f (x, y) = x3 + y3 − 3xy.
Solution. Les dérivées partielles (par rapport aux coordonnées cartésiennes) de la fonction f
sont les suivantes (3x2 − 3y, 3y2 − 3x). Elles sont nulles si x2 = y et y2 = x, ce qui implique y4 = y,
donc soit y = 0 (et puis x = 0) ou y = 1 (et puis x = 1) puisque c’est la seule solution de y3 = 1.
Nous avons donc deux points fixes : (0, 0) et (1, 1). Nous pouvons déterminer leurs propriétés à
partir de l’inspection de la matrice de Hessienne.
!
6x −3
H= → det(H) = 9(4xy − 1) T r(H) = 6(x + y)
−3 6y
Au point (1, 1), det(H) = 27 > 0 et T r(H) = 12 > 0. Le point est donc un minimum local,
3.2 Multiplicateurs de Lagrange 59
avec f = −1. Le point (0, 0), pour lequel det(H) = −9 < 0, est un point d’inflection, et on a f = 0.
Les valeurs propres et les vecteurs propres de H à ce point fixe sont
La première égalité découle de la définition des points critiques de la fonction f . La seconde, parce
que, à n’importe quel point du chemin, g( x̄, ȳ) = 0. En d’autres termes, ∇ f et ∇g sont orthogonaux
à dr̄. Ceci n’est possible que si les vecteurs ∇ f et ∇g sont parallèles, et donc ∇ f = λ∇g où λ est un
paramètre réel.
On peut ainsi déterminer les points critiques d’une fonction comme les points pour lesquels les
dérivées partielles de la fonction auxiliaire Φ(x, y, λ) = f (x, y) − λg(x, y) sont nulles. 2 L’astuce de
Lagrange était de remarquer que les solutions de 3.3 et 3.4 sont aussi des solutions de d( f − λg) = 0
où λ est un paramètre constant arbitraire. Dans ce cas, l’équation ∂ x ( f − λg)d x̄ + ∂y ( f − λg)dȳ = 0
peut être résolu en exploitant le fait que, étant donné sa nature arbitraire, nous sommes libres de
chercher des valeurs du coefficient λ qui annulent les dérivées partielles, en d’autres termes comme
les points satisfaisants le système suivant de trois équations dans les trois inconnues (x, y, λ)
∂ x Φ(x, y, λ) = 0
∂y Φ(x, y, λ) = 0
(3.5)
∂ Φ(x, y, λ) = 0.
λ
une nouvelle inconnue dans le problème et minimiser cette fonction, appelée fonction auxiliaire,
Φ = f − λg. Le principal avantage de la méthode est qu’elle peut être appliquée lorsque la méthode
directe ne peut être utilisée parce que la contrainte est trop complexe pour permettre une solution
explicite avec la méthode de Fermat.
Compte tenu de l’importance de la technique, explorons ses fondements, au moyen d’une
approche plus géométrique, donc plus intuitive. L’équation de contrainte g(x, y) = 0 définit une
courbe γ (éventuellement fermée) dans le plan [x, y]. Projetons ensuite, dans ce même plan, la
surface z = f (x, y). Pour ce faire, il suffit de considérer les lignes de niveau de la fonction, par
exemple f (x, y) = c1 , f (x, y) = c2 ....etc. Cette construction est montrée dans la figure 3.1. Supposons
maintenant de marcher sur la courbe γ représentante la contrainte dans le plan [x, y]. Ce chemin
traversera en principe les lignes de niveaux. Cependant, il est plutôt intuitif de réaliser qu’aux
points critiques, les courbes de niveaux et la courbe de contrainte sont tangentes. Cela signifie que
les gradients de la courbe de niveau (perpendiculaires à la courbe de niveau) et le gradient de la
courbe de contrainte (également perpendiculaires à la courbe de contrainte) sont parallèles entre
eux lorsqu’ils sont calculés à un point critique, c’est-à-dire que les points critiques sont ceux qui
satisfont l’equation
∇ f = λ∇g.
Exercise 3.4 Un canon tire un projectile. Lorsqu’elle sort du canon, la balle a toujours la même
quantité d’énergie cinétique K, bien que, en fonction de l’orientation du canon, la vitesse aura
différentes composantes. Notons V0x et V0y la vitesse initiale le long des deux axes cartésiens
x et y (respectivement parallel et perpendiculaire au sol.) La balle touche le sol à une distance
V V
d = 2 0xg 0y . Trouver les valeurs V0x et V0y qui maximisent la portèe d.
Solution Il faut trouver les conditions qui maximisent la porte d tout en gardant constante
l’énergie cinétique. Le point critique de la fonction d(V0x V0y ) est aussi le point critique de
V V h i
la fonction auxiliaire Φ = 2 0xg 0y − λ 21 m V0x 2 + V 2 − K . Nous pouvons le déterminer en
0y
resolvant le système d’équations suivant
V0y
2 g − λmV0x = 0
V0y
2 g − λmV0x = 0
(3.6)
m V2 + V2
1
= 2K.
2 0x 0y
√
La solution est V0x = V0y = K/m et λ = 2
mg . La portèe maximale correspondante est donc
d = 2K
mg .
et on détermine les points critiques de la fonction ϕ comme étant ceux qui résolvent les m + n
équations suivantes
∂i Φ = 0 i = 1, 2, .....n
(
(3.7)
∂λ j Φ = 0 j = 1, 2, .....m.
3.2 Multiplicateurs de Lagrange 61
Figure 3.1 – La contrainte g(x, y) = 0 est affichée avec quelques courbes de niveau de la fonction z = f (x, y). Le point
où la courbe de contrainte touche tangentiellement les lignes de niveau est un extremum de la fonction f (x, y).
Exercise 3.5 Trouvez les points critiques de la forme quadratique f (x) = Ai j xi x j (où Ai j est une
matrice symétrique) sur la surface d’une sphère et montrez que les points stationnaires sont les
vecteurs propres normalisés de la matrice Ai j .
Solution Pour x ∈ Rn , nous devons maximiser la formeqquadratique sous la contrainte |x|2 = 1.
Nous pourrions résoudre la contrainte ; par exemple xn = 1 − x12 − ... − xn−1
2 , mais cette solution
choisit arbitrairement xn comme spécial, et elle introduit aussi des non-linéarités qui ne sont pas
intrinsèques au problème. Il est plus simple de résoudre le problème en utilisant la méthode des
multiplicateurs de Lagrange. Nous devons donc trouver les valeurs stationnaires de la fonction
auxiliaire
Φ(x, λ) = Ai j xi x j − λ(|x|2 − 1)
Les points fixes de cette fonction sont obtenus en calculant les dérivées suivantes
∂Φ j
= δk Ai j xi + δik Ai j x j = 2Ak j x j
∂x k
et
∂ j
λx x j = 2λxk .
∂xk
On trouve
A jk x j = λxk (3.8)
xi x i
= 1. (3.9)
62 Chapitre 3. Calcul des Variations
Les quantités qui minimisent nos problèmes sont les vecteurs propres normalisés de la matrice
A. On peut donc interpréter le multiplicateur de Lagrange à chaque point fixe comme la valeur
propre correspondante. De plus, à un point fixe, nous avons
f ≡ Ai j xi x j = λx j x j = λ
donc les valeurs propres de la matrice A sont les valeurs de la forme quadratique f à ses points
fixes. Si nous supposons que toutes les valeurs propres sont positives, alors f a un minimum, et
son minimum absolu sera la valeur propre minimale, c’est-à-dire la valeur la plus petite possible
des multiplicateurs de Lagrange.
3.3 Fonctionnels
Le calcul des variations est essentiellement une extension du calcul différentiel au cas où les
grandeurs indépendantes (degrés des libertés) ne sont pas des nombres simples, c.-à-d. des variables
x, mais des fonctions y(x). Plutôt que de chercher les points x qui extrémisent une fonction f (x),
nous recherchons les fonctions y(x) qui extrémisent le fonctionnel J[y], une bête mathématique
qui “avale" des fonctions y(x) et renvoi un nombre. Nous avons déjà rencontré ces structures
mathématiques dans le chapitre 1, et nous avons également vu qu’elles vivent dans un espace
vectoriel spécial appelé espace duale. Dans la plupart des cas d’intérêt, le fonctionnel J[y] est une
intégrale sur la variable indépendante x d’une fonction f (x, y(x), y0 (x), y00 (x).......), les exposant
indiquant les dérivées successives par rapport au paramètre x. Nous intégrons entre les valeurs fixes
x0 et x1 pour obtenir un nombre différent J[y] pour chaque courbe y(x). Le problème variationnel
consiste à trouver la courbe y(x), qui rend stationnaire l’intégrale J. Ces fonctions spécifiques sont
appelées fonctions stationnaires.
où f dépend de la valeur de y(x) et de ses dérivés (en nombre fini). De tellesRfonctions sont dites
x
locales en x. 3 Commençons par considérer une fonctionnel de la forme J[y] = x 1 f (x, y, y0 )dx avec
0
f dépendent seulement de x, y et y0 . Considérons alors une courbe qui diffère de très peu de y(x).
où est un paramètre arbitraire, infiniment petit et independant de x, ainsi que η est une fonction
arbitraire de x, telle que η(x) = ∂y/∂. Nous imposons que lorsque le paramètre de variation
s’annule, nous retrouvons la courbe originale, i.e. y(x, 0) ≡ y(x). Nous définissons ainsi la variation
d’une courbe y comme étant δy(x) ≡ η(x), où
∂
δ≡ .
∂
est appelé operatuer variationnel. Au lieu d’utiliser cette notation quelque peu lourde, les physiciens
préfèrent représenter la famille des courbes obtenues en variant la courbe originale y(x) en utilisant
la notation plus courte, et quelque peu trompeuse, y(x) → y(x) + δy(x). Il faut donc bien comprendre
3. Etant pointilleux, il faudrait indiquer par J[y0 , x0 , y1 , x1 ] le fonctionnel 3.10. Cette notation souligne le fait que le
fonctionnel est un nombre qui dépend de l’état initial et final x1 et x2 et des valeurs de la fonction y à ces points. Il est de
pratique courante, cependant, de n’expliciter que la dépendance du fonctionnel par rapport à la fonction qui est variée.
3.3 Fonctionnels 63
que δy(x) n’est pas la différentielle de la fonction y(x), qui mesure le changement de la fonction y
quand la variable indépendante x passe de x à x + ∆x. Au lieu de cela, la variation de la fonction est
prise à chaque valeur fixe de x, et son amplitude est contrôlée par le paramètre qui est indépendant
de x.
La variation résultante du fonctionnel S sera à l’ordre principal, la suivante
Z x1
J[y + δy] − J[y] = f x, y + δy, y0 + δ(y)0 − f x, y, y0 dx
(3.11)
x0
∂f ∂ f dy
Z x1 ( !)
= δy δy + 0 δ dx + o(δy) (3.12)
x0 ∂y ∂y dx
∂ f dδy ∂ f
Z x1 ( )
= δy + dx + o(δy) (3.13)
x0 ∂y dx ∂y0
# x Z x1
∂f 1 ∂f d ∂f
" ( )
≈ δy 0 + δy(x) − dx (3.14)
∂y x0 x0 ∂y dx ∂y0
où on a utiliser le faits que l’operateur δ et d/dx, agissant sur des variables différentes, commutent,
c.-à-d. δ(dy/dx) = d/dx(δy).
Si δy(x0 ) = δy(x1 ) = 0 (conséquence du fait quu η(x0 ) = η(x1 ) = 0) la fonction y(x) est dite avoir
des conditions aux limites fixes où, plus simplement, des extrémités fixes. Pour de telles variations,
la partie intégrée [...] xx10 disparaît. Si nous définissons la variation du fonctionnel (J ) comme la
partie d’ordre o(δy) de la quantité J[y + δy] − J[y], et nous l’indiquent avec le symbole δJ, nous
avons
δJ
Z x1 !
δJ[y] ≡ δy(x) dx (3.15)
x0 δy(x)
où la fonction
δJ ∂f d ∂f
= − (3.16)
δy(x) ∂y dx ∂y0
est appellée la derivée fonctionnelle (où de Fréchet) de J[y] par rapport à la fonction y(x).
Exercise 3.6 Montrer que la dérivée fonctionnelle de 3.10 est
δJ ∂f d ∂f d2 ∂ f d3 ∂ f dn ∂ f
= − + 2 00 − 3 (3) + .......(−1)n n ( . (3.17)
δy(x) ∂y dξ ∂y dy ∂y
0 dy ∂y dy ∂y n)
doit s’annuler pour tous les ∆ξ i . La condition nécessaire et suffisante pour cela est que tous les
dérivées partielles ∂ϕ/∂ξ i , i = 1, ....n soient égales à zéro. Par analogie, nous nous attendons à
ce qu’un fonctionnel J[y] soit stationnaire sous des variations (à extrémités fixes) de la fonction
64 Chapitre 3. Calcul des Variations
y(x) → y(x) + δy(x), lorsque la dérivée fonctionnelle δS /δy(x) s’annule pour tous x. En d’autres
termes, lorsque
∂f d ∂f
− = 0, x0 < x < x1 .
∂y dx ∂y0
Cette condition différentielle est appelée équation d’Euler-Lagrange. La salution y(x) qui rende
stationnaire le fonctionnel est appellee courbe stationnaire.
Que δJ/δy(x) ≡ 0 soit une condition suffisante pour que δJ soit zéro est clair d’après sa définition
(voir 3.15). Pour s’assurer que c’est une condition nécessaire, nous devons faire appel au fait que f
soit de classe C ∞ (continue avec toutes le dérivées continues, ou, en jargon anglais, une fonction
smooth). Considérons une fonction y(x) qui rend J[y] stationnaire mais telle que δJ/δy(x) est non
nul pour x2 ∈ [x0 , x1 ]. Puisque f (x, y, y0 ) est une fonction smooth, la dérivée fonctionnelle δJ/δy(x)
est aussi une fonction smooth de y. Par conséquent, par continuité, elle aura le même signe tout au
long d’un intervalle ouvert contenant x2 . En prenant δy(x) = η(x) comme étant zéro en dehors de
cet intervalle, et avec signe à l’intérieur, on obtient une variation δJ non nulle – en contradiction
avec l’hypothèste de départ. Nous voyons donc pourquoi il était essentielR d’intégrer par parties afin
d’enlever la dérivée de δy : quand y est fixé aux extrémités, nous avons (δy)0 dx = 0, et donc nous
ne pouvons trouver un (δy)0 qui est zéro partout en dehors d’un intervalle et d’un signe défini à
l’intérieur de celui-ci.
Lorsque la fonction dépend de plus d’une fonction y, alors la condition de stationnarité sous
toutes les variations possibles nécessite une équation
∂f d ∂f
− =0
∂yi dx ∂y0i
Nous recherchons donc le profil y(x) qui rend l’énergie potentielle de surface V[y]– ou, de façon
équivalente, la surface A[y]–minimale. Comme un tel profil y(x) est une courbe stationnaire, nous
le recherchons en mettant la dérivée fonctionnelle δA/δy(x) à zéro. L’équation d’Euler-Lagrange
résultante est la suivante
d yy0
q
1 + y − p
02 = 0
dx 1 + y0,2
et après avoir pris la dérivé par rapport à x nous obtenons
y02 yy00 yy02 y00
q
1 + y02 − p − p + = 0.
1 + y02 (1 + y )
02 3/2
1 + y02
Après la collecte des termes, cela devient
1 yy00
− =0
1 + y02 (1 + y )
02 3/2)
p
L’équation différentielle semble encore difficile à résoudre. Pour simplifier davantage, nous multi-
plions par y0 afin d’ obtenir
y0 yy0 y00 d y
0= p =
−
1 + y02 (1 + y )
02 3/2
dx 1 + y02
p
où k est une constante arbitraire. L’équation différentielle précédente peut être reformulée comme
suit
r
dy y2
= −1
dx k2
qui devient, après séparation des variables,
Z Z
dy
dx = q .
y2
k2
− 1
et, de l’énergie potentielle de la chaîne entre les deux poulies, donnée par
Z +L Z +L Z +L q
dm(x)gy(x) = µg y(x)dl = µg y(x) 1 + y02 dy (3.19)
−L −L −L
La brachistochrone.
Ce problème a été initialement posé (mais pas correctement résolu) par Galileo. Apparemment
inconscient des efforts de Galileo, ce problème a été reproposé quelques années plus tard (1696)
par Johann Bernoulli comme un défi pour les mathématiciens européens. Il demanda quelle forme
devrait prendre un fil avec les extrémités en P = (0, 0) et Q = (a, b) pour qu’un anneau glisse sans
frottement (en partant de la condition de repos) le long du fil dans le temps le plus court possible
(Figure 3.5). Le nom du problème vient du grec : βραχιστoς signifie plus court et χρoνoς c’est le
temps. Le problème a circulé dans toute l’Europe et, en peu de temps, une solution fut proposée
par Leibniz et une par de l’Hôpital. Lorsqu’on lui présenta une troisième solution apparemment
anonyme, Johann fit sa fameuse remarque : "Tanquam ex unguem leonem" (Je reconnais le lion
à sa griffe), ce qui signifie qu’il avait reconnu que l’auteur était Isaac Newton. Johann a donné
une solution lui-même, mais celle de son frère Jacob Bernoulli était supérieure et Johann a essayé
de la faire passer pour la sienne. Ce n’était pas atypique. Johann a plus tard modifiée la date de
publication de son livre sur l’hydraulique pour faire croire qu’il avait la priorité dans ce domaine
sur son propre fils, Daniel Bernoulli !
Pour résoudre le problème, nous devons trouver le chemin qui réduit au minimum
1 + y02
Z T Z a Z a p
dl(x)
T= dt = = dx
0 0 v(x) 0 v(x)
Nous savons que l’énergie mécanique du cordon à chaque position x
1
E(x) = mv2 (x) − mgy(x)
2
est constante. A partir des conditions initiales, nous constatons que l’énergie mécanique est nulle,
nous déduisons que la vitesse de l’anneau est v(x) = 2gy(x). En conséquence, nous devons
p
R Un cycloïde est la courbe tracée par la valve d’une roue de bicyclette lorsque la roue roule
le long d’une trajectoire droite sans patiner. Le cycloïde a été étudié et nommé par Galilée,
et Johann Bernouilli est crédité de la découverte, publiée en 1697, que c’est un courbe
brachistochrone. Huygens avait précédemment montré, en 1673, qu’il s’agit aussi d’une
courbe tautochrone (la courbe telle que le temps pris pour que l’anneau passe du repos à Q
est indépendant du choix de la position initiale P).
Comment savions-nous que nous pouvions simplifier à la fois le problème du film de savon et
celui de la brachistochrone en multipliant l’équation d’Euler-Lagrange par y0 ? La réponse est qu’il
y a un principe général qui nous dit quand et comment nous pouvons faire une telle simplification.
Nous avons été en mesure de simplifier une équation différentielle apparemment difficile à résoudre
parce que le fonctionnel
R avait une symétrie. L’astuce de multiplier par y0 fonctionne lorsque la
fonction f dans f dx est de la forme f (y, y0 ), c.-à-d. n’a pas de dépendance explicite de x. Dans
ce cas, le dernier terme en
d f ∂ f 0 ∂ f 00 ∂ f
= y + 0y +
dx ∂y ∂y ∂x
3.5 Variation des fonctionnels contraintes 71
d 0 ∂f ∂f d ∂f ∂f ∂f
!
y 0 − f = y00 0 + y0 − y0 − y00 0
dx ∂y ∂y dx ∂y 0 ∂y ∂y
∂ ∂
!
d f f
= y0 − (3.24)
dx ∂y0 ∂y0
∂f
k = y0 −f
∂y0
est donc une constante (indépendante de x) appellèe inté́grale première de l’équation d’Euler-
Lagrange. Par exemple, dans le cas d’un film de savon (voir la fonction 3.18)
∂f y(y0 )2 y
q
k = y0 − f = − y 1 + (y0 )2 = − p
∂y0 1+y 1 + (y0 )2
p
02
et cela est nul si l’équation d’Euler-Lagrange est satisfaite pour chaque yi . Notez que, si la fonction
f est indépendante de x il n’y a qu’une seule intégrale, peu importe le nombre de yi ’s apparaissants
dans son argument.
Nous souhaitons trouver le f.d.p qui maximise l’entropie pour une énergie moyenne donnée.
Z
hEi = f HdΓ.
Γ
De plus, nous ne pouvons pas varier f librement car nous devons préserver à la fois l’énergie et la
normalisation
Z
f dΓ = 1
Γ
requise pour toute distribution de probabilités. Nous introduisons donc deux multiplicateurs de
Lagrange, −(α + 1) et β, pour tenir compte des contraintes de normalisation et d’énergie, et
recherchons les courbes stationnaires du fonctionnel auxiliaire .
Z
Φ[ f ] = {− f ln f + (α + 1) f − β f H} dΓ − (α + 1) + βhEi.
Γ
f = eα−βH(q,p)
Z x1 I
A[y] = y2 (x) − y1 (x) dx =
y(x)dx
x0
3.5 Variation des fonctionnels contraintes 73
Les courbes stationnaires sont celles qui laissent le fonctionnel inchangée (au moins au premier
ordre) quand on fait varier infinitesimalement la fonction y et le paramètre λ. Puisque le fonctionnel
ne dépend pas de x, il existe une intégrale première, donnée par
∂ fλ λ
k = y0 − fλ = p − y.
y0 1 + (y02 )
Cela conduit à
λ2
(y0 )2 =
(y − k)2 − 1
p
dont la solution est y = k ± λ2 − (x − c)2 où c est une constante, donc
(x − c)2 + (y − k)2 = λ2
qui est un cercle de rayon λ qui est fixé par l’équation obtenue en variant la fonction 3.27 par
rapport à λ ; cela donne la contrainte originale que la circonférence est l, donc λ = l/2π.
Le problème de Sturm - Liouville
Un autre problème variationnel contraint important est une version fonctionnelle du problème
de la minimisation d’une forme quadratique soumise à une condition de normalisation. Soient
p0 (x), p2 (x) et w(x) des fonctions réelles de x, définies pour α ≤ x ≤ β, de sorte que p0 et w soient
positifs pour α < x < β, et considérons les fonctionnels de la fonction réelle y(x) :
Z βn o Z β
F[y] = p0 (x)(y ) + p2 (x)y dx G[y] =
0 2 2
w(x)y2 dx
α α
Le problème est de trouver la fonction y qui minimise F[y] à la condition que G[y] = 1, étant
donné que y(x) est fixé à x = α et x = β. La première tâche consiste à trouver les courbes stationnaires
pour ce problème, ce qui peut être fait en trouvant les fonctions qui rendent stationnaires le
fonctionnel auxiliaire
quand on donne une petite variation à la fonction y(x), et au paramètre λ. Nous obtenons
Z β
β
δF = 2 δy (−p0 y0 )0 + p2 y dx − 2[δyρy0 ]α
α
et
Z β
δG = 2 δywydx.
α
74 Chapitre 3. Calcul des Variations
Le terme δF est nul en raison des conditions limites (extrémités fixes), donc l’équation d’Euler-
Lagrange devient
Ly(x) = λw(x)y(x)
en permettant à la fois le chemin y(x) et les points finaux y(x1 ) et y(x2 ) de varier. La variation de la
fonction est alors
Z x2
y0 (x2 ) y0 (x1 ) d y0
δl[y] = δy(x2 ) p − δy(x1 ) p δy p
− dx
1 + (y0 )2 1 + (y0 )2 x1 dx 1 + (y0 )2
Cela implique y0 = const, c’est-à-dire que la piste doit être une ligne droite.
ii) Les coefficients de δy(x1 ) et δy(x2 ) sont nuls. Pour cela, nous avons besoin que
y0 (x1 ) = y0 (x2 ) = 0.
Les information contenu dans la variation des extrémités sont donc très utiles pour déterminent les
conditions qui doivent être imposées à la solution de l’équation différentielle. Dans le cas présent,
ils exigent que nous construisions le chemin de fer perpendiculairement à la côte, et nous traversons
donc directement l’isthme.
3.7 Maxima et minima des fonctionnels 75
où
∂f ∂f ∂f d ∂f
Z ( ) Z ( )
δJ[y] = dx δy + 0 (δy) = dx
0
− δy
∂y ∂y ∂y dx ∂y0
et
∂2 f 2 ∂2 f ∂2 f
Z ( )
1
δ J=
2
dx δy + 2 δyδy + 02 (δy ) .
0 0 2
2 ∂y2 ∂y∂y0 ∂y
∂2 f d ∂2 f ∂2 f
Z (" # )
1
δ J[y, δy] =
2
dx − δy + 02 (δy ) .
2 0 2
2 ∂y2 dx ∂y∂y0 ∂y
Dans le cas d’une expansion de fonctions de second ordre, si le terme quadratique Hi j dxi dx j
est positif pour tous les x alors la fonction est convexe et donc tout point stationnaire de f sera un
minimum. Un résultat analogue s’applique aux fonctionnels J[y] : Si δ2 J[y, δy] ≥ 0 pour toutes les
fonctions δy et toutes les fonctions y satisfaisant aux conditions limites appropriées alors J[y] a un
76 Chapitre 3. Calcul des Variations
Exercise 3.7 En 1662 Fermat utilisa son principe de ‘moindre temps’ pour montrer que lors-
qu’un rayon lumineux traverse une frontière d’un milieu transparent à un autre, les angles
d’incidence et de réfraction sont tels que
sin θ1 sin θ2
=
v1 v2
où vi est la vitesse de la lumière dans le milieu i. C’est la fameuse deuxième loi de Snell-
Descartes (loi de de réfraction). Démontrez cette loi à partir du principe de Fermat.
Solution Considérons tout d’abord la propagation d’un rayon lumineux à l’intérieur d’un
seul milieux avec indice de réfraction n = const. Considérons que le rayon se propage dans le
plan vertical x − z (z est la hauteur au-dessus de l’axe x.) Nous devons donc trouver le chemin
z(x) qui minimise le fonctionnel 3.28
ni x f p
Z
T [z] = 1 + (z0 )2 dx.
c xi
Si on appelle θ l’angle formé par la droite tangente à la courbe z(x) et l’axe z on a que z0 =
dz/dx = 1/ tan θ. Donc le chemin est tel que n sin θ = const. La courbe z(x) telle que sa tangente
en chaque point x ne change jamais d’orientation est une droite. Donc dans un milieu avec
indice de refraction constante la lumière se propage de façon rectiligne. Si on imagine d’avoir
un système optique avec deux milieux avec indices n1 et n2 on déduit immédiatement que dans
chaque milieu la solution sera ni sin θi = ki où k1 et k2 sont des constants a−priori différents. En
imposant une condition physique assez raisonnable, c.à-d. que le chemin ne soit pas discontinue
sur la frontière entre le deux milieux, et donc que en ce points les solutions coincident on obtient
la lois de refraction n1 sin θ1 = n2 sin θ2 .
Inspiré par les travaux de Fermat en optique, Maupertuis suggéra que la mécanique pourrait
être basée de la même façon sur un principe de minimum, le principe de moindre action, où l’action
serait le produit de la quantité de mouvement p = mv et de la distance (ce qui signifie que l’action a
des dimensions de moment angulaire). Il était vague sur les détails, mais Euler avait déjà découvert
que le mouvement d’un corps d’énergie totale constante
1
E = mv2 + U(x)
2
minimiserait l’intégrale S = pdl. En résolvant l’équation ci-dessus pour v, cela signifie que nous
R
Pour le mouvement d’un projectile près de la surface √ de la Terre, nous devrions prendre U = mgz, z
est la hauteur au-dessus de l’axe x (le sol), et dl = dx2 + dz2 . Le trajet du projectile z(x) sera donc
78 Chapitre 3. Calcul des Variations
b a − k2
(z0 )2 = (z0 − z) z0 = .
k2 b
En prenant la racine carrée, nous concluons que
√
d √ b b
z0 − z ± x → z = z0 − (x − x0 )2
dx 2k 4k2
où x0 est une autre constante d’intégration. Le chemin d’un projectile soumis à l’accélération vers
le bas g due à la gravité près de la surface de la Terre est donc une parabole. A x = x0 le projectile
atteint une hauteur maximale z = z0 .
d ∂L ∂L
− =0
dt ∂q̇i ∂qi
Tout à fait remarquable - étant donné que la dérivation de Lagrange ne contient aucune mention
de maxima ou de minima - Hamilton a reconnu que c’est précisément la condition qui rend l’ action
Z t1
S [q] = L(t, qi , q̇i )dt (3.29)
t0
stationnaire par rapport aux variations de la trajectoire qi (t) qui laissent les points initial et final
du trajet fixes. En d’autres termes, un système mécanique se déplace de manière à ce que l’action
S [q], définie comme l’intégrale sur la fonction lagrangienne, soit stationnaire.
Au XIXe siècle, personne d’autre n’a porté grande attention au principe de Hamilton parce que
les principes variationnels avaient été teintés au XVIIIe siècle par l’association d’idées théologiques
douteuses. 4 Le principe de Hamilton a été longtemps considéré seulement comme un moyen
astucieux d’arriver aux équations différentielles du mouvement. Ce verdict a été renversé au XXe
siècle, en partie à cause du théorème de Noether, publié en 1918, reliant les symétries de l’action
aux lois de conservation, et la pertinence croissante de la notion de symétrie, d’abord dans la
théorie de la relativité et, plus tard, dans la mécanique quantique, et en partie parce que le principe
de Hamilton apparaît naturellement dans la formulation de Feynman de la théorie quantique des
champs. Donc, avec un peu d’emphase nous pouvons désormais vraiment affirmer que 3.29 est
l’équation à une ligne qui résume toute la physique ! Le but des physiciens étant celui de trouver le
Lagrangian qui décrit le système physique d’intérêt.
Nous allons maintenant présenter quelques exemples qui illustrent les avantages pratique de
l’approche de Lagrange, ainsi qu’un piège subtil.
Coordonnées Generalisées
La machine d’Atwood est un dispositif, inventé en 1784 mais toujours bien pratique, utilisé
dans le salles de TP de nos universités pour démontrer les lois du mouvement de Newton et pour
mesurer g. Il se compose de deux poids reliés par une chaîne légère de longueur l qui passe sur une
poulie légère et sans friction (voir figure 3.7).
L’approche élémentaire consiste à écrire une équation de mouvement pour chacun des deux
poids
m1 ÿ1 = m1 g − T
m2 ÿ2 = m2 g − T.
On prend ensuite en compte la contrainte ẏ1 = −ẏ2 et on élimine ÿ2 en faveur de ÿ1
m1 ÿ1 = m1 g − T
−m2 ÿ1 = m2 g − T. (3.30)
Notons que dans la solution finale n’apparaissent plus ni les forces exercées par les contraintes, ni
une des deux coordonnées (dans notre cas, la coordonnée y2 )
Voyons maintenant la méthode de Lagrange, qui, de le debut, se franchit de ces grandeurs
physiques non nécessaires à la solution du problème. La mécanique lagrangienne part de l’idée
4. Ce principe d’action minimale (bien qu’on devrait l’appeler à juste titre le principe d’action stationnaire) a
tellement impressionné ses découvreurs qu’ils ont cru avoir découvert le principe unificateur de l’univers. Maupertuis,
pour sa part, a essayé de fonder une preuve de l’existence de Dieu sur ce principe. Bien popularisé a aussi été la
suggestion de Leibnitz, parodiée par Voltaire dans Candide, que nous vivons dans ‘le meilleur des mondes possibles’.
80 Chapitre 3. Calcul des Variations
qu’en prenant en compte les contraintes dès le début on peut réduire le nombre de coordonnées
nécessaires pour décrire le mouvement. L’ensemble irréductible de coordonnées qui en résulte
est appelé ensemble des coordonnées généralisées. Ensuite, Lagrange constate que le travail des
forces des contraintes (supposées sans friction)est toujours nul, et donc ne contribue pas au bilan
l’énergetique du système, On peut donc exprimer potentielle du système, en considérant uniquement
le travail fait par le poids. On a donc l’énergie cinétique T = 12 m1 ẏ21 + 12 m2 ẏ22 et l’énergie potentielle
du systeme V = −m1 gy1 − m2 gy2 (nous avons choisi le niveau zéro à la position de la poulie). Il
faut maintenant exprimer ces grandeurs en termes des coordonnées généralisées. Le système est
soumis à des contraintes telles que q ≡ y1 = l − y2 , où l est la longueur de la chaîne, de sorte que le
lagrangien du système prend la forme
1
L(q, q̇) = T − V = (m1 + m2 )q̇2 − (m2 − m1 )gq.
2
On obtient ainsi une seule équation de mouvement, pour le seul degré de liberté du système
d ∂L ∂L
!
− =0 → (m1 + m2 )q̈ = (m1 − m2 )g.
dt ∂q̇ ∂q
L’avantage de la méthode lagrangienne est que les forces de contrainte, qui ne font pas de
travail, n’apparaissent jamais dans le formalisme. L’inconvénient est exactement le même : si nous
avons besoin de trouver les forces de contrainte – en l’occurrence la tension dans la corde –, nous
ne pouvons pas utiliser uniquement cette méthode d’analyse.
Covariance des equations d’Euler-Lagrange
La mécanique lagrangienne fournit un moyen pratique de dériver les équations du mouvement
dans n’importe quel système de coordonnées. En d’autres termes, les équations d’Euler-Lagrange
ont toujours la même forme dans n’importe quel système de coordonnées !
Considérons un problème de force centrale dans un plan, c.-à-d. un système soumis à la force
radiale Fρ = −∂ρ V(ρ). La solution de ce problème avec la méthode de Newton se base sur le calcul
de l’accélération en coordonnées polaires. L’équation de Newton devient ainsi
1
L = m ρ̇2 + ρ2 φ̇2 − V(ρ). (3.33)
2
La forme des équations d’Euler-Lagrange est inchangée, la même que celle que nous utilisons pour
les coordonnées cartésiennes
d ∂L ∂L
!
− = 0 → mρ̈ − mρθ̇2 + ∂ρ V = 0 (3.34)
dt ∂ρ̇ ∂ρ
d ∂L ∂L
!
d 2
− = 0→ mρ φ̇ = 0. (3.35)
dt ∂φ̇ ∂φ dt
Puisque le Lagrangien est indépendant du temps, il existe une intégrale première du mouvement
donnée par
∂L ∂L
k = ρ̇ + φ̇ − L (3.36)
∂ρ̇ ∂φ̇
1 2 2 2
= m ρ̇ + ρ φ̇ + V(ρ) (3.37)
2
qui est l’énergie mécanique. Ainsi, la constance de l’intégrale première indique que l’énergie
mécanique est conservée. Notons que la conservation du moment cinétique est une conséquence
directe d’une autre symétrie du Lagrangien, c’est-à-dire du fait qu’il ne dépend pas explicitement
de la coordonnée généralisée φ.
R On pourrait se rendre compte, sans s’être donné la peine de le dériver des équations de
Lagrange, que l’invariance de rotation garantit que le moment angulaire l = mρ2 φ̇ est constant.
Cela fait, il est presque irrésistible d’essayer de court-circuiter une partie du travail en
branchant cette information dans 3.33 afin d’éliminer la variable φ̇ en faveur de la constante l.
Si nous essayons ceci, nous obtenons
1 l
L = mρ̇2 + − V(ρ)
2 2mρ2
Nous pouvons maintenant écrire directement l’équation de Lagrange pour ρ, qui est
l2
mρ̈ + = −∂ρ V
mρ̇3
Malheureusement ceci a le mauvais signe avant le terme l2 /mρ3 ! La leçon est que nous
devons être très prudents lorsque nous utilisons les conséquences d’un principe variationnel
pour modifier ce principe. C’est possible, et en mécanique, cela mène au Routhien ou, dans
un langage plus moderne, à la fonction réduite de Hamilton, mais cela nécessite l’utilisation
d’une transformation de Legendre. Le lecteur devrait consulter un livre sur la mécanique pour
plus de détails.
peut être rendue explicite en exploitant une stratégie due à Emmy Noether. Elle a montré comment
procéder directement de l’intégrale d’action S [q] à la quantité conservée sans avoir à manipuler les
équations différentielles du mouvement. En effet, le théorème de Noether est l’un des plus subtils et
magnifiques aperçus du comportement des systèmes physiques. Il nous dit non seulement quand il
y a une quantité conservée. Étant un théorème constructif, il nous enseigne aussi comment trouver
l’expression mathématique de la quantité conservée.
Soit q(t) la coordonnée généralisée d’un système décrit par l’action S [q(t)]. Une transformation
q(t) → q(t) + f (t) est une symétrie du système si S [q(t) + f (t)] = S [q(t)] pour tout q(t). Les symétries
sont des directions dans l’espace des coordonnées generalisées q dans lesquelles l’action ne change
pas. Les symétries les plus intéressantes, d’un point de vue physique, sont celles infinitésimales.
Considérons une variation infinitésimale de la coordonnée généralisée q(t) → q0 (t) = q(t) +
f (q, q̇, t) où est un petit paramètre constant.
Definition 3.10.1 — Symétrie infinitesimale. La variation δ s q ≡ f (q, q̇, t) dans une coordonnée
généralisée est une symétrie infinitésimale du système si, pour tout q(t) arbitraire, pas nécessai-
rement solution des équations du mouvement du système, l’action du système change, tout au
plus, par un terme trivial, c.-à-d. un term constant. En formule
En d’autres termes, une symétrie est une transformation qui fait varier le lagrangien du système
tout au plus par une dérivée temporelle totale
dK
δL[q, δ s q] = . (3.40)
dt
En effet,
Z t1
dK
δS [q, δ s q] = dt = K|tt10 = const. (3.41)
t0 dt
Notons aussi que q(t) est une fonction totalement arbitraire, pas nécessairement la fonction solution
de l’equation de mouvement du système.
Considérons maintenant q̄(t), la solution des équations des mouvements du système, c.-à-d. la
fonction qui rend stationnaire l’action S , et donnons à cette quantité la variation arbitraire δq(t) ≡ f ,
en imposant que cette variation ne s’annule pas, en principe, aux extrémités t0 et t1 . En conséquence
∂L ∂L
Z t1 !
δS [q̄, δq] = dt δq + δq̇
t0 ∂q ∂q̇
∂L d ∂L d ∂L
Z t1 ! Z t1
= dt − δq + dt δq. (3.42)
t0 ∂q dt ∂ q̇ t0 dt ∂q̇
Puisque, par hypothèse, q̄(t) satisfait aux équations d’Euler-Lagrange, on obtient
d ∂L
Z t1
δS [q̄, δq] = dt δq (3.43)
t0 dt ∂q̇
Les deux variations 3.41 et 3.43 produisent de termes de surface (membres de droite dans ces
deux equations) dont la signification est très différente. Le premier est un terme de surface parce
que δ s q ne s’annule pas aux extrémités d’integration mais satisfait l’équation 3.40, tandis que 3.43
est un terme de surface parce que q̄ satisfait à l’équation de mouvement d’Euler-Lagrange. Notez
que q(t) dans 3.41 est totalement arbitraire, alors que dans 3.43 c’est δq à être arbitraire. Si on
remplace q par q̄ dans 3.41 et δq par δ s q dans 3.43 les membres de gauche de ces deux équations
3.10 Théorème de Noether 83
sont égaux. En soustrayant, les membres de gauche s’annulent, et du côté droit on obtient la loi de
conservation,
dQ ∂L
=0 Q= δ s q − K. (3.44)
dt ∂q̇
C’est le théorème de Noether. Étant donné une symétrie δ s q, il existe une grandeur physique Q
associèe à la symétrie – appelée charge de Noether - qui est conservée.
Deux mises en garde s’imposent. D’abord K n’est pas une fonction arbitraire, mais, une fois
qu’une transformation de symétrie est donnée, elle doit être calculée en résolvant équation 3.40.
On a considéré les symétries comme étant des variations dans les coordonnée généralisées qui
laissent l’action invariante (ou qui la changement au plus d’un terme constante). Cependant on
pourrait bien imaginer de vouloir étudier comment l’action se transforme suite à un changement de
la variable indépendante (généralement le temps ou l’espace). On peut montrer que tout translation
constante de la variable indépendante du lagrangien peut être réinterprété en terme d’un variation
bien specifique de la coordonnée généralisée q(t). Prenons par exemple le Lagrangien L(q(t), q̇(t), t)
et operons la translation temporelle suivante t → t0 = t − où est un petit paramètre constant. Ceci
équivaut à un changement de la coordonnée temporelle de sorte que la nouvelle origine du temps
t0 soit fixée à l’instant t = dans l’ancien système de coordonnées. De toute évidence, puisque
q(t) est un scalaire, sa valeur ne peut pas dépendre du système de coordonnées choisi pour décrire
le système physique, donc q0 (t0 ) = q(t). Cela implique q0 (t − ) = q(t) et donc q0 (t) = q(t + ). Au
premier ordre dans le paramètre nous obtenons q0 (t) ≈ q(t) + q̇(t). On peut donc interpreter le
changement (constate) de la variable temporelle d’une façon nouvelle : tout se passe comme si la
variable temporelle n’avait pas été modifiée ! C’est uniquement la coordonnée généralisée q(t) qui
s’est deformée comme suit δq(t) ≡ q̇(t). Notons aussi que puisque δ s q(t) ≡ q0 (t) − q(t) représenté la
différence de deux fonctions évaluées en même temps, il s’ensuit directement que δ dtd q(t) = dtd δq(t).
En conclusion, nous avons déguisé une translation de la coordonnée temporelle t0 = t − en une
déformation de la fonction q(t) de sorte que la variation résultante du lagrangien L(q(t), q̇(t), t) est
∂L ∂L
δL = q̇ + q̈. (3.45)
∂q ∂q̇
Nous pouvons donc considérer désormais des translations x0 = x − dans la variable indépendante
x d’un lagrangien comme étant complètement equivalents à des variations du type δ s q = dq dx dans
la coordonnée généralisée q(x). On peut donc étendre l’etude des symétrie de l’action à en incluant
les changements dans la variable indépendante.
Mettons en action le théorème de Noether. Considérons d’abord l’action 3.33 décrivante la
dynamique d’un point évoluant dans un champ de force centrale. Puisque la variation φ(t) → φ0 (t) =
φ(t) + ne change pas le lagrangien (δL = 0) on en déduit que δ s φ = est une symétrie de l’action
et que K = 0. La quantité conservée est donc
∂L
Q= δ s φ − K ∝ mρ2 φ̇,
∂φ̇
le moment angulaire du système. Par conséquent, si une coordonnée généralisée q n’apparaît pas
explicitement dans le Lagrangien, on dit dans ce cas que la coordonnée est cyclique, le momentum
conjugué associé, définit comme pq ≡ ∂L∂q̇ est conservée.
Comme illustration supplémentaire de la puissance du théorème de Noether, considérons un
système physique décrit par le lagrangien L(q(t), q̇(t), t). et considérons la translation t0 = t − de la
variable temporelle On sait que ce ceci équivaut à considérer une variation δ s q(t) = q̇(t) dans la
coordonnée généralisée q(t). La variation résultante dans le Lagrangien est
∂L ∂L
!
δL = q̇ + q̈ .
∂q ∂q̇
84 Chapitre 3. Calcul des Variations
La translation temporelle n’est une symétrie du système que si 3.40 tient. Puisque la dérivée
temporelle totale du Lagrangien est de
dL ∂L ∂L ∂L
= q̇ + q̈ +
dt ∂q ∂q̇ ∂t
l’équation 3.40 est satisfaite si le lagrangien ne dépend pas explicitement du temps. En effet, dans ce
cas une solution est K = L. La quantité conservée associée à l’invariance par translation temporelle
est la suivante
∂L ∂L
Q= δsφ − K ∝ q̇ − L.
∂q̇ ∂q̇
Nous avons déjà vu dans la section 3.4 que lorsque le lagrangien ne dépend pas explicitement de la
variable indépendante, la charge conservée est de manière générale appelée une intégrale première
du système. Dans le cas particulier où la variable indépendante est le temps, l’intégrale première
est l’énergie.
où η̇i = ∂η i
∂t et nous avons fait attention à ne pas compter deux fois l’énergie potentielle d’une paire
d’atomes en interaction. Nous pouvons reformuler notre lagrangien comme
1X
"
m 2 η − η 2 # X
i+1 i
L= ∆x η̇ − k∆x = ∆x Li
2 i ∆x i ∆x i
3.11 Principe variationnel appliqué aux champs 85
Prenons maintenant la limite du continuum et étudions comment les différentes variables dyna-
miques se comportent dans la limite ∆x → 0. Manifestement m/∆x → ρA, de plus on définit
i.e. l’index entier i utilisé pour étiqueter les atomes ponctuels devient la coordonnée du continuum
x (oui, dans le continuum, il n’y a pas de séparations interatomiques !) Au lieu du déplacement
discret ηi nous avons maintenant le champ de déplacement η(x, t) qui nous informe sur la position
au temps t de l’atome qui, au repos, était situé à x. Enfin, notez que
∂2 η 1 ∂2 η
− =0 (3.47)
∂x2 c2s ∂t2
où nous avons mis à zéro les conditions limites en supposant que p la variation du champ δη(x, t)
s’annule sur la frontière du domaine d’intégration, et où c s = Y/ρ est une constante, avec la
dimension d’une vitesse. Il s’agit de l’équation d’onde décrivante la propagation dans l’espace et
dans le temps d’une perturbation mono-dimensionnelle dont le front d’onde voyage avec la vitesse
cs.
5. Le module de Young est le rapport (approximativement) constant, dans les matériaux élastiques, entre la contrainte
(en anglais stress) σ = F/A (où F est la force normale à la surface A) et la déformation (en anglais strain) ∆L/L0 ,
c’est-à-dire le changement relatif de longueur par rapport à la longueur à repos L0 .
86 Chapitre 3. Calcul des Variations
Exercise 3.8 Montrer que la même équation d’onde 3.47 aurait pu être dérivée en prenant la
limite du continuum de la loi de Newton du mouvement 3.46.
Solution L’équation newtonienne du mouvement d’un atome donné étiqueté par i (see ??)
est
qui, une fois inséré dans l’équation de Newton, donne ηi (t) = η(x, t) et ηi±1 = η(x ± ∆x). En
développant ces fonctions en série de Taylor jusqu’au second ordre nous obtenons
∂η 1 ∂2 η 2
ηi+1 → η(x + ∆x, t) ≈ η(x, t) + ∆x + ∆x
∂x 2 ∂x2
∂η 1 ∂2 η 2
ηi−1 → η(x − ∆x, t) ≈ η(x, t) − ∆x + ∆x
∂x 2 ∂x2
qui, une fois inséré dans l’équation de Newton, donne
∂2 η ∂2 η 2
!
m 2 =k ∆x
∂t ∂x2
Plongeons maintenant un peu dans le formalisme et voyons quelle forme prend l’équation
d’Euler-Lagrange dans un systèmes continu. Supposons, en toute généralité, qu’on nous donne
une action fonctionnelle S [ϕ] en fonction d’un champ ϕ(ξµ ) et de ses derivées premières ∂µ ϕ. Ici,
comme d’habitude, ξµ , µ = 0, 1, ..., n, sont les coordonnées d’un espace avec (n + 1)-dimensions. Il
s’avère pratique de prendre ξ0 ≡ t et les autre coordonnées comme identifiants des point de l’espace.
Supposons en outre que
Z Z
S [ϕ] = Ldt = L(ξµ , ϕ, ∂µ ϕ) dn+1 ξ
et l’intégration est effectuée par rapport au coordonnées spatiales. Donnons maintenant une variation
arbitraire au champ ϕ(ξµ ) → ϕ0 (ξµ ) = ϕ(ξµ ) + δϕ 6 et calculons la variation de premier ordre de
l’action comme suit
∂L ∂L
Z ( )
δS = δϕ(ξ) + ∂µ δϕ(ξ) dn+1 ξ
∂ϕ(ξ) ∂∂µ ϕ(ξ)
∂L ∂L
Z ( !)
= − ∂µ δϕ(ξ)dn+1 ξ. (3.48)
∂ϕ(ξ) ∂∂µ ϕ(ξ)
En passant de la première à la deuxième ligne, nous avons utilisé la forme multidimensionnelle du
théorème de la divergence
Z Z
µ n+1
∂µ A d ξ = Aµ nµ dS
Ω ∂Ω
∂ϕ
6. Comme d’habitude, la variation doit être conçue comme suit δϕ = µ ∂ µ en effet, nous pouvons représenter ϕ0 (ξµ )
∂ϕ
comme ϕ0 (ξµ ) ≡ ϕ(ξµ , µ ) = ϕ(ξµ , 0) + µ ∂ µ où ϕ(ξµ , 0) ≡ ϕ(ξµ ).
3.11 Principe variationnel appliqué aux champs 87
∂L ∂L
∂i − =0
∂∂i η ∂η
qui, une fois appliqué à la densité Lagrangienne donnée, impliques
∂L ∂L ∂L
∂t + ∂x 0 − = ρη̈ − Yη00 = 0.
∂η̇ ∂η ∂η
L’énergie cinétique d’un petit élément de corde avec masse dm(x) = µ(x)dx, identifié, par la
coordonnée x, est dT = 12 (µdx) v2y où
Nous pouvons donc interpréter l’intégrande comme une densité lagrangienne L. La variation de
l’action est
Z T Z Ln o
δS = µẏδy
˙ − κy0 (δy)0 dxdt
0 0
Z TZ L
= κy − µÿ δy(x, t)dxdt
00
(3.50)
0 0
Pour atteindre la deuxième ligne j’ai intégré par parties, et, parce que les extrémités sont fixes, et
donc δy = 0 à x = 0 et L, il n’y a pas de termes de surface. En exigeant que δS = 0 pour toutes les
variations autorisées δy, on obtient, ensuit, l’équation du mouvement
∂2 y 1 ∂2 y
− = 0. (3.51)
∂x2 v2 ∂t2
C’estpl’équation décrivante des ondes transversales se propageant dans la corde avec une vitesse
v = T/µ.
Enfin, nous notons que puisque la densité lagrangienne ne dépend pas explicitement du temps,
le système continu doit admettre une intégrale première du mouvement. En écrivant l’intégrale
première pour ce système continu, nous devons remplacer la somme des indices discrets par une
intégrale :
X ∂L Z (
δL
)
E= q̇i −L → dx ẏ(x) −L
i
∂q̇i δẏ(x, t)
La dérivée fonctionnelle par rapport à ẏ est obtenue en faisant varier le lagrangien par rapport à la
fonction ẏ et en imposant, comme toujours, que
L
δL
Z
δS = dxδẏ(x, t) = 0.
0 δẏ(x, t)
On obtient
δL
= µẏ
δẏ
qui conduit à
Z L ( )
1 2 1 0 2
I= dx µẏ + T y .
0 2 2
qui, comme prévu, est l’énergie totale, cinétique plus potentielle, de la corde.
3.11 Principe variationnel appliqué aux champs 89
La ficelle coulissante
Supposons, maintenant, que notre corde de guitare de tension T ne soit pas fixée aux extrémités
(donc ce n’est plus une corde de guitare ! ) Ses extrémités spatiales sont libres de glisser vers le
haut et vers le bas. Le lagrangien de ce système sera toujours du type que nous avons rencontré
dans le problème de la corde de guitare (eq. 3.49). Ce qui est différent maintenant, c’est la façon
dont nous traitons les conditions aux limites. Une fois que l’on fait varier l’action, on obtient
Z tf Z L
δS [y, δy] = T y − µÿ δy(x, t)dxdt
00
t0 0
Z L Z tf
t
+ [ρẏδy]t0f dx + [T y0 δy]0L dt (3.52)
0 t0
Le principe de moindre action nous dit que l’équation de mouvement de la corde coulissante suit
en imposant que l’action soit stationnaire sous des variations très spécifiques de y(x, t), celles qui
s’annulent aux instant initial t0 et final t f ( δy(x, t0 ) = δy(x, t f ) = 0). Notez que ce principe n’exige
pas que δy(x, t) s’annule aussi aux extrémités de la corde, en x = 0 et x = L.. Dans ce problème
spécifique, la configuration du système est telle que l’on ne peut pas supposer que la variation soit
nulle aux extrémités spatiales de la corde. Par conséquent, seul le deuxième terme de l’équation
précédente est égal à zéro et il ne nous reste plus que
Z tf Z L
δS [y, δy] = T y − µÿ δy(x, t)dxdt
00
t0 0
Z tf Z tf
+ 0
T y (L, t)δy(L, t)dt − T y0 (0, t)δy(0, t)dt (3.53)
t0 t0
Puisque les variations δ(x, t) sont arbitraires, l’équation de mouvement ne suit que si on met à
zéro séparément les arguments des trois intégrales. On obtient donc toujours l’équation d’onde 3.51
90 Chapitre 3. Calcul des Variations
mais, maintenant, les conditions aux limites, qui proviennent des variations aux extrémités, sont les
suivantes
y0 (L, t) = y0 (0, t) = 0.
Il s’agit des conditions aux limites physiquement correctes, qui doivent être utilisées pour résoudre
l’equation différentielle du mouvement 3.51.
3.12 Exercises
Exercise 3.10 Une boîte à chaussures a des côtés de longueur (x, y) et de hauteur z. Étant
donné que son volume est de L3 /2 pour L fixe, trouvez les dimensions (x, y, z) de la boîte qui
minimisent sa surface. Ce problème peut être résolu directement, en résolvant la contrainte,
ou indirectement, en utilisant la méthode des multiplicateurs de Lagrange. Faites-le avec une
méthode et contrôlez votre réponse avec l’autre stratégie de solution.
Exercise 3.11 Nous voulons construire un réservoir d’eau ayant un volume V = (1/2)m3 et nous
voudrions utiliser moins de matériel que possible. Quelle forme donner à la boîte pour minimiser
sa surface ?
Exercise 3.12 Une compagnie aérienne accepte les bagages ayant la forme d’un parallélépipède,
seulement si la somme de la longueur et du périmètre latérale est, au plus, 130 cm (le périmètre
latérale est la longueur autour du colis dans un plan perpendiculaire à la dimension maximale
c.-à-d. à la longueur du colis). Quel est le volume maximale d’un bagage que cette compagnie
peut expédier ?
Exercise 3.13 En utilisant les multiplicateurs de Lagrange, trouvez la distance la plus courte
entre le point (x0 , y0 , z0 ) et le plan ax + by + cz = d.
Exercise 3.14 Un fabricant fabrique deux modèles d’un article, la version standard et celle de
luxe. Le prix de fabrication des deux modèles est 40$ et 60$. Un étude de marché estime que
si le prix du modèle standard est de x dollars et le prix du modèlle luxe est de y dollars, alors
le fabricant vendra 500(y − x) articles standard et 45000 + 500(x − 2a) articles deluxe chaque
année. Comment le prix de vente des articles doit-il être fixé pour maximiser le profit ?
Exercise 3.15 Considérons une particule quantique de masse m dans une boîte à forme de
parallélépipéde rectangulaire avec côtés a, b et c. L’énergie de l’état fondamental de la particule
est donnée par :
h2 1
!
1 1
E= + + .
8m a2 b2 c2
Exercise 3.17 Montrer qu’une droite est la courbe de moindre longueur, appelée géodésique,
entre deux points du plan euclidien.
Exercise 3.18 Trouvez le chemin géodésique (le plus court) reliant deux points sur une sphère.
Exercise 3.19 On dit souvent que Galilée pensait que la courbe qui décrit une chaîne suspendue
était parabolique et que la courbe suivie d’une chaîne n’est pas une parabole a été prouvée
par Joachim Jungius (1587-1657). Plus tard, en 1691, Leibniz, Huygens et Johan Bernoulli
en déduisirent la forme exacte, qui s’appelle maintenant caténaire du latin catena qui signifie
chaîne. Trouvez la forme de la courbe qu’une chaîne ou un câble suspendu de masse uniforme
prend sous son propre poids lorsqu’il n’est soutenu qu’à ses extrémités.
Exercise 3.20 Le lagrangien decrivant une particule de charge q en mouvement dans un champ
électromagnétique est
1
L[x, ẋ] = m ẋ2 − qϕ + q ẋ · A(x)
2
Montrer que les équations d’Euler-Lagrange conduisent à l’équation de mouvement suivante
m ẍ = q (E + ẋ · B)
où
∂A
E = −∇ϕ − B = ∇∧ A
∂t
Exercise 3.21 L’action qui décrit le comportement d’un ensemble de particules ponctuelles
massives libres qui ne peuvent se déplacer que selon l’axe x est la suivante
Z X
1
S [x] = dt mk ẋk2 .
k
2
Dans le cadre des transformations de Galilei, les coordonnées spatiales et temporelle sont
modifiées comme suit
x0 (t) = x(t) − vt
t0 = t
où v est une vitesse constante (et petite par rapport à la lumière) le long de l’axe x. Montrez que
la transformation de Galilee, c.-à-d. le déplacement δ s x(t) = −vt, est une symétrie du système, et
trouvez la charge de Noether résultante.
Exercise 3.22 Déterminer l’action S qui décrit la dynamique d’un pendule simple de longueur L
composé d’une chaîne de masse négligeable m et d’un masse ponctuelle m (négliger toute source
de friction). Trouvez les équations des mouvements du système et, s’il existe, une intégrale
première du mouvement.
92 Chapitre 3. Calcul des Variations
Figure 3.10 – Tige élastique utilisée comme colonne pour soutenir une masse M.
Exercise 3.23 Déterminer l’action S qui décrit la dynamique du système oscillant masse-
ressort représenté en figure 3.9 (négliger toute source de friction). Trouvez les équations des
mouvements et, le cas échéant, une intégrale première du mouvement.
Exercise 3.24 Tiges élastiques. L’énergie élastique par unité de longueur d’une tige d’acier
pliée est donnée par 12 Y I/R2 . Ici R est le rayon de courbure dû à la flexion, Y est le module de
Young de l’acier et I est le moment d’inertie de la section transversale de la tige autour d’un
axe à travers son centroïde. a) Considérons une tige de longueur L selon l’axe z. Si on pose
une masse au dessus de la tige, celle-ci va légèrement fléchier dans le plan y, z c.-à-d. la tige se
déforme légèrement avec les deux extrémités restant sur l’axe z et les autres points ne s’éloigner
pas trop de l’axe des z. Montrent que l’énergie élastique de la tige peut être approchée comme
suit
Z L
1
U[y] = Y L(y00 )2 dz
0 2
où y0 = dy/dz. b) La tige est utilisée comme colonne qui supporte une charge de compression
Mg dirigée le long de l’axe verticale z (voir la figure 3.10). Montrer que lorsque la tige fléchie
l’énergie totale, y compris l’énergie potentielle gravitationnelle de la masse de chargement M,
peut être approchée par
Z L( )
1 00 2 1
Y[y] = 0 2
Y I(y ) − Mg(y ) dz.
0 2 2
Exercise 3.25 La forme d’une peau de tambour déformée est décrite par la fonction h(x, y), qui
donne la hauteur à laquelle le point (x, y) ∈ D (D représente l’ensemble des points dé́crivants la
3.12 Exercises 93
où hi = ∂i h et où
1 + h2x h x hy
!
gi j = . (3.54)
h x hy 1 + h2y
q
L’élément de surface est par définition dS = det(g)dxdy ≈ 1 + h2x + h2y dxdy (puisque
p
les déformations h sont petites, nous avons négligé les termes de deuxième ordre.) Avec une
intégration sur le domaine D nous arrivons au résultat. Considérons la variation h(x, y) →
h(x, y) + δh(x, y). Cela nous donne
, et donc
"
h x ∇ x δh + hy ∇y δh
δA[h] = dxdy q .
D 1 + h2x + h2y
"
hx hy
δA = − δh +
dxdy ∇ ∇
x
q
y q
1 + h2x + h2y 1 + h2 + h2
D
x y
94 Chapitre 3. Calcul des Variations
plus les termes de surface. Pour traiter correctement les conditions aux extrémités, nous devons
nous demander si nous devons imposer des conditions à la frontière de la région D. Toute surface
minimale satisfera l’equation différentielle non linéaire.
hx hy
+ ∇y q = 0.
∇ x q
1 + h x + hy
2 2 1 + h x + hy
2 2
Si nous pouvons ignorer les non-linéarités au motif que |∇h| << 1, alors l’équation décrivante la
surface minimale devient h xx + hyy = 0, qui est l’équation de Laplace. Une solution évidente de
l’équation est
h(xy) = Ax + By + C
Exercise 3.26 Quelle est l’équation fondamentale de la physique que nous obtenons si nous
posons égale à zero la variation de l’action suivante ?
h̄2
Z " #
h̄
S= 3
d xdt ∇ψ · ∇ψ + Vψ ψ +
∗ ∗
ψψ − ψψ ,
∗ ∗
2m 2πi
Dans ce chapitre, nous voulons jeter un regard neuf sur un vieux sujet : les fonctions ! Nous
voulons reconsidérer les fonctions f dans une nouvelle perspective, en les considérant comme des
vecteurs. Manifestement pas des vecteurs géométriques, mais des éléments d’un espace vectoriel
(bien que nous n’utiliserons pas le caractère gras pour le souligner). En effet, l’ensemble F [a, b]
de toutes les fonctions réelles f (x) définies dans l’intervalle [a, b] satisfait à tous les axiomes de
l’espace vectoriel. 1 On peut donc penser aux nombre f calculé pour x ∈ [a, b] comme un composant
du vecteur f . Puisqu’il y a une infinité de composants indépendants – un pour chaque point x –
l’espace des fonctions est typiquement de dimensions infinies.
Cet espace de fonctions est trop grand pour être utile et nous nous limiterons donc à des
sous-espaces intéressants pour les physiciens. Il s’agit généralement d’espaces qui contiennent
des fonctions avec de propriétés intéressantes, telles que la continuité ou la différentiabilité. Il y a
une notation assez standard pour ces espaces. Par exemple l’espace C n [a, b] des fonctions avec n
dérivées continues dans l’intervalle [a, b]. Pour des fonctions smooth, celles qui ont une infinité de
dérivées continues nous écrivons donc C ∞ [a, b]. Ou l’espace des fonctions analytiques, celles dont
l’expansion de Taylor converge effectivement vers la fonction, qui est indiqué par C ω [a, b]. Dans
ce chapitre, nous allons rencontrer d’autres espaces de fonctions très intéressants et utiles tels que
les espaces normés, les espaces L p , les espaces muni d’une forme sesquilineaire (inner product en
anglais), les espaces de Banach et de Hilbert, que vous connaissez probablement depuis vos cours
de mécanique quantique.
R
La convergence d’une suite de fonctions fn vers une fonction limite f n’est pas un concept
aussi simple que la convergence d’une suite de nombres xn vers une limite x. La convergence
signifie que la distance entre la fonction fn et la fonction limite f devient de plus en plus
petite à mesure que n augmente. Bien que les physiciens n’aient normalement pas les mêmes
responsabilités intellectuelles que les mathématiciens, nous devrions au moins avoir à l’esprit
ce que nous voulons dire lorsque nous écrivons fn → f . Il y a trois définitions courantes de
convergence :
1. Convergence ponctuelle : si, pour chaque x dans son domaine de définition D, l’en-
semble des nombres fn (x) converge vers f (x), la suite converge ponctuellement, et nous
indiquons ce fait par la notation fn → f .
2. Convergence Uniforme : si la séparation maximale 2
S up| fn (x) − f |
x∈D
va à zéro quand n → ∞.
3. Convergence en moyenne : si
Z
| fn (x) − f (x)| dx
D
va à zéro quand n → ∞.
Exercise 4.1 Considérons la suite fn = xn (n = 1, 2, ....) et D = [0, 1). Ici, la notation signifie que
le point x = 0 est inclus dans l’intervalle, mais le point 1 est exclu.
a) Lorsque n devient grand, la séquence converge-t-elle ? Avec quel type de convergence ? b)
Quel type de convergence avons-nous si le domaine est D = [0, 1]
S up|xn − 0| = 1
x∈D
b) Les deux crochets signifient maintenant que x = 0 et x = 1 doivent être inclus dans
l’intervalle. Dans ce cas, nous avons pas de convergence ponctuelle (la limite n’est pas unique)
et donc pas de convergence uniforme (ce qui est une exigence plus forte). Mais xn → 0 dans la
moyenne.
Nous allons maintenant passer en revue certains des espaces de fonctions les plus importants
rencontrés en physique avant d’introduire le sujet central de ce chapitre qui sont une suite spéciale
de fonctions fn appelée polynômes orthogonaux.
Figure 4.1 – Dans les images suivantes, les deux fonctions sont très différentes sur les ensembles de mesure du zéro.
Ils ont différente sup-norme, mais la même norme L2 .
Une norme en C[a, b] pourrait par exemple être établie en définissant la sup-norme.
|| f ||c ≡ S up | f (t)|.
a≤t≤b
Vous pouvez vérifier que cette définition satisfait aux axiomes 1.1.10. Cependant, il s’avère que
cette quantité est d’importance marginale en physique. Une norme plus utile est la norme L p .
Definition 4.1.1 — Espace normé L. L’espace normé L p [a, b], pour tout 1 ≤ p < ∞ est l’espace
des fonctions f dans l’intervalle [a, b] pour lequel la norme L p , définie comme suit
Z b !1/p
p
|| f || p ≡ | f (x)| dx (4.1)
a
est finie.
Par exemple, L2 [a, b] est l’espace normé des fonctions de carré intégrable dans l’intervalle [a, b].
Nous avons défini ||| f || p comme norme. En effet on peut montrer (bien que ce ne soit pas
trivial à faire) que les normes L p satisfont aux axiomes 1.1.10. Cependant, certains aspects subtils
méritent d’être soulignés. Il est possible, en effet, qu’une fonction ait ||| f ||| p = 0 sans que f soit
identiquement zéro – une fonction qui s’annule partout sauf pour un ensemble fini de points, par
exemple. Cette fonction pathologique viole le premier axiome de notre liste 1.1.10, mais nous
contournons le problème en déclarant simplement que ces fonctions sont des fonctions nulles. Cela
signifie que les éléments des espaces L p ne sont pas vraiment des fonctions, mais seulement des
classes d’équivalence de fonctions – deux fonctions étant considérées comme identiques si elles
diffèrent par une fonction de longueur nulle (voir Figure 4.1). Il est clair que ces espaces ne sont
pas destinés à être utilisés lorsque quelque chose de significatif dépend de la valeur de la fonction à
un point précis. Ils sont utiles en physique, cependant, parce que nous ne pouvons jamais mesurer
une quantité à une position exacte dans l’espace ou dans le temps. Nous mesurons habituellement
une sorte de moyenne locale.
La norme permet de définir un nouveau type de convergence, appelé convergence en norme.
98 Chapitre 4. FONCTIONS ORTHOGONALES
Puisque || fn − f || mesure la distance entre les éléments vectoriels fn et f dans un espace normé (voir
1.2) on peut dire que la convergence en norme implique que les distances entre les éléments de la
suite et la fonction f tendent vers zéro.
Une propriété importante qui peut être associée à des espaces normés et qui enrichit leur
structure est celle de la complétude. Ce nouveau concept repose sur sur la notion de suite de
Cauchy. 3
Definition 4.1.3 — Suite de Cauchy. Une suite fn dans un espace vectoriel normé est dite de
Cauchy si pour n’importe quel > 0 on peut trouver un N (independent de ) tel que ∀n, m > N
on a || fm − fn || < .
Cette définition peut être vaguement paraphrasée pour dire que les éléments d’une suite de Cauchy
se rapprochent uniformément et arbitrairement les uns des autres comme n → ∞. Considérons, par
exemple, l’espace vectoriel normé Q des nombres rationnels avec la distance mesurée de la manière
habituelle comme suit ||q1 − q2 || ≡ |q1 − q2 |. La suite q0 = 1.0,√q1 = 1.4, q2 = 1.41, q3 = 1.414, .......
√ de 2, satisfait |qn − qm | < 10
consistant en des approximations décimales successives −min(n,m) et
donc est une suite de Cauchy. Pythagore a montré que 2 est irrationnel, cependant, et donc cette
suite de nombres rationnels n’a pas de limite en Q. Donc Q n’est pas un espace complet. L’espace
R des nombres réels est construit en remplissant les ‘trous’ entre les rationnels, et en complétant
ainsi Q.
Dans un espace métrique, toute suite convergente est de Cauchy. La réciproque n’est vraie que
dans un espace complet, comme on verra maintenant, en donnant la definition d”espace complet de
fonctions normées.
Definition 4.1.4 — Espace de Banach. Un espace vectoriel normé de fonctions est complet
par rapport à sa norme si chaque suite de Cauchy converge effectivement vers un élément de
l’espace. Un espace vectoriel normé et complet s’appelle un espace de Banach.
Si nous interprétons les normes comme des intégrales de Lebesgue, alors le L p [a, b] n’est pas
seulement un espace normé, mais aussi un espace normé complet, et donc un espace de Banach. Le
‘L’ en L p honore Henri Lebesgue. Les espaces de Banach sont nommés d’après Stefan Banach, qui
a été l’un des fondateurs de l’analyse fonctionnelle.
Exercise 4.2 Dans l’intervalle [−1, 1] considérer la fonction discontinue
0 −1 ≤ x < 0
f (x) =
(4.2)
1 0 < x ≤ 1
On peut montrer que la suite est de Cauchy (démontrez-le !). On peut aussi démontrer qu’elle
3. L’uniformité dans la définition est importante : il ne suffit pas que la différence des termes consécutifs d’une suite
tende vers 0 pour que cette suite soit de Cauchy. Par exemple, la suite Hn des sommes partielles de la série harmonique
vérifie Hn+1 − Hn = 1/(n + 1) → 0 mais Hn n’est pas de Cauchy.
4.1 Espaces de fonctions 99
donc une suite de fonction continue converge vers une fonction discontinue.
L’exemple précédent montre qu’une suite de Cauchy de fonctions continues peut en général
converger vers une suite discontinue. Par conséquent, le sous-espace de L2 [a, b] ne contenant que
des fonctions continues, c’est-à-dire des éléments de C 0 [a, b] n’est pas un espace complet. L’espace
de Banach L2 [a, b] peut donc être interprété comme étant l’achèvement de l’espace des fonctions
continues.
Les espaces muni d’une forme sesquilinéaire, que nous avons déjà rencontrés dans la section
1.1.4, sont des exemples importants d’espaces normés. Ce sont des espaces de fonctions dans
lesquels on peut définir un fonctionnel ( f, g) qui ‘avale’ deux éléments f et g de l’espace vectoriel
et retourne un scalaire qui satisfait aux axiomes definissants une forme sesquilinéaire 1.1.12. Il y a
plus d’une façon de définir ces fonctionnels. Un example important de forme sesquilinéaire est le
produit scalaire, défini par
Z b
( f, g) = f¯(x)g(x)g(x)dx ≡ h f |gi
a
où nous avons introduit la convention de Dirac, dite des ‘bra-kets’, pour indiquer que la forme
sesquilinéaire qu’on considère est le produit scalaire. Notez que le produit scalaire défini ci-dessus
entre les éléments d’un espace de fonctions est la généralisation la plus simple du produit scalaire
u · v défini entre les vecteurs géométriques u et v.
L’intérêt des espaces munis d’une forme sesquilinéaire
p est que nous pouvons toujours définir
une norme pour leurs éléments. En effet la quantité ( f, f ) satisfait à toutes les propriétés de la
norme. En particulier, nous indiquerons simplement par le symbole ||...|| la norme induite par le
produit scalaire
p
|| f || ≡ h f | f i (4.5)
On peut immédiatement voir que la norme induite par le produit scalaire coïncide avec la norme
d’un espace normé L2 . En effet
Z b !1/2
|| f || ≡ 2
| f (x)| dx ≡ || f ||2 . (4.6)
a
Nous sommes donc naturellement amenés à considérer les espaces fonctionnels dotés d’une
forme sesquilinéaire comme ayant un statut particulier parmi tous les espaces vectoriels nor-
més.
Definition 4.1.5 — Espace de Hilbert. Un espace de fonctions muni d’une forme sesquilinéaire
qui est complet par rapport à la norme induite par cette forme, est appelé espace de Hilbert.
Par conséquent, tout espace de Hilbert est aussi un espace de Banach, mais pas l’inverse.
Dans les espaces de fonctions dotés d’une forme sesquilinéaire nous pouvons étudier un concept
aussi fondamental que celui de l’orthogonalité entre fonctions. En fait, puisque les fonctions sont
des vecteurs, nous aimerions pouvoir les développer sous forme de combinaisons linéaires d’une
certaine base, qui, dans les espaces de fonctions, doivent nécessairement être d’autres fonctions.
100 Chapitre 4. FONCTIONS ORTHOGONALES
Les vecteurs géométriques d’un espace V3 peuvent être décomposés en termes de trois vecteurs
de base. Mais de combien de fonctions, se comportant comme une base, avons-nous besoin pour
representer une fonction générique f (x) ? Je vais aborder cette question dans la prochaine section.
?
f (x) = fN (x) ≡ a0 b0 (x) + a1 b1 (x) + ....... + aN bN (x) ≡ an bn (x) n = 0, 1, 2, ......N (4.7)
où an , les composantes (constantes) de la fonction f (x) dans la base donnée bn (x), sont données par
le produit scalaire
Z b
c ≡ hb | f (x)i =
n n
en (x) f (x)dx
a
Ce que nous devons examiner est si fN donné par l’expansion 4.7 coïncide effectivement avec la
fonction f (x). Pour ce faire, nous devons prouver que l’ensemble bn (x) constitue effectivement une
base pour l’espace de fonction. Nous avons déjà expliqué pourquoi une base orthonormale un (x) est
habituellement le choix privilégié lorsque nous voulons représenter un vecteur : simplement parce
que la base et son duale coïncident et, par conséquent, les coefficients de combination linéaires an
peuvent être simplement déterminés par le biais du produit scalaire de la fonction avec l’élément
de base un (x). Pour aller plus loin, nous devons maintenant clarifier ce que nous entendons quand
nous disons qu’un ensemble de fonctions est orthonormal dans un intervalle donné [a, b].
Definition 4.2.1 — Ensemble orthonormal de fonctions. Un ensemble de fonctions un (x) est
orthonormal dans l’intervalle [a, b] par rapport au produit scalaire si
Z b
hun (x)|um (x)i = un (x)um (x)dx = δnm (4.8)
a
Sauf indication contraire, nous supposerons que l’orthonormalité est induite par le produit scalaire
et nous allons simplement parler d’orthonormalité des fonctions. Par exemple l’ensemble des
fonctions
√
un = 2 sin nπx n = 1, 2, 3..... (4.9)
appelée fonctions sinusoïdales, est orthonormale dans l’espace de Hilbert L2 [0, 1] puisque
Z 1
2 sin(nπx) sin(mπx)dx = δnm .
0
Le problème qu’il nous reste à résoudre est maintenant de savoir si l’ensemble des fonctions
un est une base. Un instant de réflexion montre que la formule d’expansion 4.7 ne tient pas en
général pour un ensemble fini de fonctions orthogonales un (x) dans l’intervalle [a, b]. Supposons
que nous développons une fonction f (x) , 0 et que f (x) est orthogonale à chaque fonction un (x).
4.2 Bases orthonormales des fonctions 101
Rb
Le coefficients an = hun | f (x)i = a un (x) f (x)dx seraient tous 0 dans ce cas, alors que f (x) n’est pas
zéro par définition ! Afin de pouvoir développer une fonction arbitraire f (x) définie sur [a, b], il
doit y avoir suffisamment de fonctions un (x) dans l’ensemble de sorte que si hun (x)| f (x)i = 0 pour
tous n, alors f est nécessairement la fonction nulle. En d’autres termes, nous avons besoin d’un tel
ensemble un (x) pour former une base de l’espace. Et un espace de dimension infinie tel que celui
des fonctions, nécessite d’un nombre infini de vecteurs de base !
Ainsi, un ensemble orthonormal, pour être d’une certaine utilité, doit être complet. Notez que
la complétude d’un ensemble de vecteurs de base n’a rien à voir avec la notion de complétude de
l’espace évoquée plus haut ;
Definition 4.2.2 — Complétude d’un ensemble orthonormal de fonctions. Un ensemble ortho-
normal de fonctions un (x) est complet dans un intervalle [a, b] si c’est une base de l’espace de
Hilbert L2 [a, b], c.à.d. si une fonction f de L2 [a, b] a une expansion convergente
où
Z b
c = hu | f i =
n n
un (x) f (x)dx (4.11)
a
La série est appelée série de Fourier, tandis que les cn sont des paramètres constants appelés
coefficients de Fourier.
Notez que nous avons exploité le fait que, pour la base orthonormale, la base duale un coïncide avec
un . 4 Notez également que la convergence signifie que la séquence des sommes partielles fN = cn un
pour n = 0, 1, 2...N est convergente dans le sens de la norme L2 [a, b], c.-à-d.
Pas tous les éléments d’un espace de fonctions peuvent pas être représentés dans une base ! Afin de
pouvoir être décomposée sur une base complète, une fonction doit appartenir à l’espace de Hilbert
Rb
L2 [a, b], c’est-à-dire a | f (x)|2 dx doit être fini. Bien qu’un calcul (souvent) simple suffise à prouver
si un ensemble un est orthogonal, la complétude de l’ensemble est beaucoup plus difficile à prouver.
Exercise 4.3 Montrer que la base duale un (x) coïncide avec un (x) si les fonctions un (x) sont
orthonormales.
Solution. Puisque les fonctions un (x) forment un ensemble orthonormal nous obtenons
Z b
hum |un i = um (x)un (x)dx = δnm .
a
4. Une subtilité doit être discutée correctement. Le fait que le composant d’un vecteur peut être calculé à l’aide d’un
produit scalaire est une conséquence du théorème de Riesz-Fréchet démontré dans 1.2.3 pour les espaces vectoriels avec
dimension finie. Dans les espaces de Hilbert, qui sont généralement de dimensions infinis, le théorème de Riesz-Fréchet
ne tient que si le fonctionnel linéaire ϕ(...) agissant sur les fonctions f est borné c.-à-d. il existe un M > 0 tel que, pour
tout f
|ϕ( f )| ≤ M || f ||2
102 Chapitre 4. FONCTIONS ORTHOGONALES
et comme la position des indices sur le delta de Kronecker n’a aucune importance, nous
concluons, en comparant les expressions précédentes que les fonctions um (x) sont identiques à
um (x).
A titre d’exemple, développons la fonction f = 1 dans l’intervalle [0, 1] en termes des fonctions
R1
sinusoïdales 4.9. Puisque 0 | f (x)|2 dx = 1 est fini, la fonction f (x) peut être représentée comme une
somme convergente des un . Puisque la base est orthonormale les coefficients d’expansion cn sont
Z 1√
0 √ n pair
cn = (un , f ) = 2 sin(nπx)dx =
(4.14)
0 2 2 n impair
nπ
Donc
∞
X 4
f (x) = sin [(2n + 1)πx] , in L2 [0, 1]
n=0
(2n + 1)π
Il est important de comprendre que la somme converge dans l’intervalle fermé [0, 1] seulement dans
le sens de L2 . La série ne converge pas de façon ponctuelle vers l’unité à x = 0 ou x = 1 - chaque
terme est nul à ces points. Il n’est pas surprenant qu’un ensemble de fonctions qui s’annulent aux
bornes de l’intervalle puisse être utilisé pour representer une fonction qui ne s’annule pas aux
extrémités, car l’espace de Hilbert L[2 a, b] est défini comme l’achèvement de l’espace des fonctions
continues. Le sous-espace défini par la fonction continue qui s’annulent aux extrémités n’est pas
complet, tandis que l’espace de Hilbert est complet.
R Comme le montre l’exemple, une suite de Cauchy de fonctions continues un qui s’annulent
aux extrémités d’un intervalle peut converger vers une fonction continue qui ne s’annule pas à
ces extrémités. Toute somme finie de fonctions continues un qui s’annulent aux extrémités est
également une fonction continue qui s’annule aux extrémités. Le ‘sous-espace’ défini par ces
sommes finies n’est donc pas complet. L’ensemble des fonctions continues un qui s’annulent
aux extrémités sont des membres de l’espace de Hilbert, tout comme les nombres rationnels
sont aussi de nombres réels : une somme finie de rationnels est un nombre rationnel, mais
une somme infinie de rationnels n’est en général pas un nombre rationnel et nous pouvons
obtenir tout nombre réel comme limite d’une suite de nombres rationnels. Les rationnels Q
sont donc un sous-ensemble dense des réels, et, comme expliqué précédemment, les réels
sont obtenus en complétant l’ensemble des rationnels en ajoutant à cet ensemble ses points
limites. Dans le même sens, l’ensemble des fonctions continues qui s’annulent aux extrémités
est un sous-ensemble dense de tout l’espace de Hilbert et l’espace de Hilbert tout entier est
obtenu en ajoutant les fonctions limites.
il en suit que nous pouvons également exprimer la condition de complétude comme l’affirmation
selon laquelle
∞
X
un (x0 )un (x)dx = δ(x − x0 ). (4.15)
n=0
4.2 Bases orthonormales des fonctions 103
Un ensemble un est complet si l’on peut exprimer le delta de Dirac (voir le chapitre suivante) en
termes de un (les coefficients de l’expansion sont simplement le conjugué des fonctions un ).
Quelle est l’imprécision attendue si nous développons f en utilisant seulement un ensemble fini
de fonctions orthonormales ? En d’autres termes, quelle est la différence entre f et fN = an un où
n = 0, 1, 2...N ? Une mesure appropriée de l’erreur est donnée par la distance entre f et fN définie
comme suit
Dans la dernière ligne, nous avons utilisé l’orthonormalité des un . Nous pouvons réécrire la fonction
d’erreur comme suit
σ2N = || f ||2 + han − hun | f i|an − hun | f ii − hun | f ihun | f i
ou, equivalentement,
σ2N = || f ||2 + ||an − cn ||2 − cn cn
où les coefficients cn ≡ hun | f i sont en principe différents des coefficients d’expansion an puisque
l’ensemble fini un . ne constitue pas une base de l’espace de Hilbert. Nous cherchons à minimiser
l’erreur par un choix approprié de coefficients an . L’erreur plus petit qu’on puisse commettre est
σ2N = || f ||2 − cn cn (4.17)
et nous atteignons cette limite en mettant chacun des ||an − cn || à zéro, c’est-à-dire en prenant
an = hun | f i. Ainsi, les coefficients de Fourier sont toujours le choix optimal même lorsque l’on
approche une fonction par le biais d’une suite finie des sommes partielles !
104 Chapitre 4. FONCTIONS ORTHOGONALES
R
Supposons que nous ayons une collection non orthogonale de fonctions gn , n = 1, ..., N, et que
PN
nous ayons trouvé la meilleure approximation n=1 an gn (x) à f (x). Supposons maintenant
qu’on nous donne un gN+1 à ajouter à notre collection. On peut alors chercher une approxi-
PN+1 0
mation améliorée n=1 an gn (x). en incluant cette nouvelle fonction – mais trouver cette
meilleure adéquation implique, généralement, d’ajuster tous les an , et pas seulement d’essayer
de trouver la bonne valeur de aN+1 . Le grand avantage de l’approximation par fonctions
orthogonales est que, en ajoutant un autre membre à la famille des fonctions orthonormales,
nous pouvons améliorer la précision du ‘fit’ en ajustant seulement le coefficient du nouveau
terme. Nous n’avons pas à perturber les coefficients obtenus précédemment.
Theorem 4.2.1 — Théorème de Parseval. Si f est décomposé en termes d’un ensemble complet
de fonctions orthonormales, alors,
∞
X
|| f || =
2
cn cn = |cn |2 (4.18)
n=0
Proof La démonstration est simple. Dans la limite N → ∞ la série converge en moyenne vers la
fonction, donc
lim || f − fN ||2 = 0 (4.19)
N→∞
et donc l’erreur σ2N tends à zero. Les résultats découlent de la mise à zéro du terme de gauche
en 4.17.
Le théorème de Parseval est souvent utilisé à l’envers, comme définition d’un ensemble complet de
fonctions orthonormales. Comprenons ce point important plus en profondeur. Comme nous l’avons
mentionné dans une remarque précédente, un ensemble de points S est un sous-ensemble dense
d’un espace T si un point donné x ∈ T est la limite d’une suite de points en S , c’est-à-dire qu’il
y a des éléments de S se rapprochant arbitrairement de x. Par exemple, l’ensemble des nombres
rationnels Q est un sous-ensemble dense de R. En utilisant ce langage, nous disons qu’un ensemble
de fonctions orthonormales {un (x)} est complet si l’ensemble de toutes les combinaisons linéaires
finies de un est un sous-ensemble dense de l’espace de Hilbert entier. Ceci garantit que, en prenant
N suffisamment grand, notre meilleure approximation fN se rapprochera arbitrairement de notre
fonction cible f (x). Puisque la meilleure approximation contenant tous les un jusqu’à uN est la
somme partielle d’ordre N de la série de Fourier, cela montre que la série de Fourier converge
effectivement vers f .
Par exemple, considérons les coefficients de l’expansion de Fourier de la fonction f (x) = 1
donnée dans 4.14. Puisque || f ||2 = 1 on en déduit, en utilisant le théorème de Parseval, que
∞
X 1
π2 = 8 (4.20)
n=0
(2n + 1)2
sont appelés polynômes orthogonaux dans l’intervalle [a, b] par rapport au produit scalaire.
Pour les construire nous considérons une base bi (x) formée par les puissances monomiales
{1, x, x2 , x2 , x3 , x4 .......xN } qui couvrent l’espace de polynômes d’ordre N. En effet, tout polynôme
d’ordre N est construit comme une combinaison linéaire de cette base. Cependant, bien que simple
cette base n’est pas orthonormale. Il est immédiatement clair que – le bi formant une base – nous
pouvons exprimer n’importe quel autre polynôme q(x) d’ordre N comme une combinaison linéaire
de bi .
q(x) = ai bi (x) i = 0, 1, 2, ...N
mais il n’est pas simple de calculer la valeur des coefficients ai , car cela nécessite la connaissance
de la base polynomiale duale bn (x). On peut simplifier le problème en orthogonalisant la base, par
exemple dans l’intervalle [−1, 1]. Nous pouvons le faire, par exemple, au moyen de la procédure de
Gram − S chmidt.
P0 (x) = b0
P0 hP0 |b1 i
P1 (x) = b1 −
hP0 |P0 i
P0 hP0 |b2 i P1 hP1 |b2 i
P2 (x) = b2 − −
hP0 |P0 i hP1 |P1 i
.....
N−1
X Pi hPi |bn i
Pn (x) = bn − (4.21)
i=0
hPi |Pi i
(4.22)
Par cette procédure, je trouve
P0 (x) = 1
h1|xi
P1 (x) = x − 1 = x−0 = x
h1|1i
h1|x2 i hx|x2 i 2/3 1
P2 (x) = b2 − 1 −x = x2 − − 0 = x2 −
h1|1i hx|xi 2 3
3
P3 (x) = x3 − x
5
6 3
P4 (x) = x4 − x2 +
7 5
..... (4.23)
(4.24)
On peut facilement vérifier que les Pn obtenus sont orthogonaux dans l’intervalle [−1, 1], c.-à-d. ils
vérifient la condition
Z 1
hPn |Pm i = 0 f or n , m. (4.25)
−1
Cependant, ces polynômes ne sont pas normalisés. Il suffit pour cela de diviser chaque polynôme
Pn par sa norme ||Pn ||
Pn
pn = .
||Pn ||
Notez que n’importe quel polynôme q(x) de degré N peut être développé en termes de poly-
nômes orthonormaux p0 , p1 , ...pN
q(x) = ci pi (x)
106 Chapitre 4. FONCTIONS ORTHOGONALES
où les coefficients ci sont les coefficients de Fourier de l’expansion et sont donnés par hpi (x)|q(x)i.
Maintenant, la question urgente est de savoir si un ensemble de polynômes orthonormaux
(continus) est complet, afin de pouvoir developper n’importe quelle fonction de L2 en termes de
ces polynômes. La complétude d’une famille de polynômes orthogonaux sur un intervalle fini est
garantie par le théorème d’approximation de Weierstrass qui affirme que pour toute fonction réelle
continue f (x) sur [a, b], et pour tout > 0, il existe un polynôme p(x) tel que | f (x) − p(x)| < pour
tout x ∈ [a, b]. Cela signifie que les polynômes sont denses dans l’espace des fonctions continues
équipées de la sup-norme ||...||∞ . La contrainte | f (x) − p(x)| < implique que
Z b Z b
| f (x) − p(x)| dx ≤
2 2
dx
a a
les polynômes constituent également un sous-ensemble dense de l’espace des fonctions continues
au sens de la convergence L2 [a, b]. Puisque l’espace de Hilbert L2 [a, b] est défini comme étant
l’achèvement de l’espace des fonctions continues, les fonctions continues sont automatiquement
denses en L2 [a, b]. Maintenant, l’inégalité triangulaire nous dit qu’un sous-ensemble dense d’un en-
semble dense est dense dans l’ensemble le plus large, donc les polynômes sont eaux-mêmes denses
dans L2 [a, b]. Les polynômes orthogonaux normalisés constituent donc un ensemble orthonormal
complet et peuvent être utilisés pour developper toutes fonctions de L2 .
Les polynômes orthogonaux ont un certain nombre d’autres propriétés fascinantes.
Proof Ceci peut être démontré en notant que nous pouvons developper n’importe quel polynôme
dans la base orthogonale Pn comme suit
et en observant que
hPn+1 |qi = bn hPn+1 |Pn i + bn−1 hPn+1 |Pn−1 i + ........ + b0 hPn+1 |P0 i = 0
Proof Puisque h1|Pn i = 0, la fonction Pn doit changer de signe, et il existe donc au moins un zéro de
Pn en (a, b). Soient x0 , x1 , ...., xk en (a, b) les zéros d’une multiplicité impaire de Pn ; c.-à-d.
x0 , x1 , ...., xk sont les points où Pn change de signe. Si k = n − 1, le théorème est démontré,
puisque {xi }n−1 i=0 sont les n racines simples de Pn . Si k < n − 1, on considère le polynôme
hpn+1 |qi = 0.
4.3 Polynômes orthonormaux 107
D’autre part, le produit Pn (x)q(x) ne peut pas changer de signe sur (a, b) puisque chaque
changement de signe dans Pn (x) est annulé par un changement correspondant dans q(x). Il
s’ensuit que
hpn+1 |qi , 0
Theorem 4.3.3 Tous les ensembles de polynômes orthogonaux Pn obéissent à une relation de
récurrence à trois termes.
Proof Considérons le polynôme αk+1 Pk+1 − xPk = q(x). Pour un choix judicieux du paramètre
αk+1 , q(x) sera un polynôme d’ordre ≤ k. Nous pouvons developper ce polynôme q comme
combinaison linéaire de la base Pn comme suit
k−2
X
αk+1 Pk+1 − xPk = βk Pk + γk−1 Pk−1 + δ j P j.
j=0
Prenons maintenant le produit scalaire de cette équation avec P j où j < k − 1. Nous obtenons
−hP j |xPk i = δ j hP j |P j i.
Mais le terme gauche est nul, en effet hP j |xPk i = hxP j |Pk i et xP j est un polynôme d’ordre
< k de sorte que le produit scalaire s’annule. Nous concluons donc que δ j = 0 pour tout j.
Nous sommes maintenant en mesure de donner une définition formelle de ce qu’est une classe
de polynômes orthonormaux. L’orthogonalité d’un ensemble de fonctions est une propriété qui
dépend d’un intervalle et du choix de la forme sesquilineaire utilisée pour enforcer l’orthogonalité.
Jusqu’à présent, nous ne considérions l’orthogonalité que par rapport au produit scalaire. Cependant
on peut élargir la classe des polynômes orthogonaux, c’est-à-dire les fonctions satisfaisant à la
propriété (Pm , Pn ) = 0, par le biais de la définition suivante.
Definition 4.3.1 — Polynômes orthogonaux. Les polynômes orthogonaux associés à un interval
Rb
[a, b], un poids positif w(x) tel que l’integrale a
w(x)dx est finie, et le produit scalaire pondéré
dans l’espace de Hilber Lw2 [a, b]
Z b
h f |giw ≡ w(x) f (x)g(x)dx (4.26)
a
pour tout entier n ≥ 0, qui satisfont à la convention de normalisation Pn (1) = 1. On rencontre cette
équation lors de la résolution de l’équation de Laplace en coordonnées sphériques. Par conséquent,
vous le verrez surgissant dans des problèmes de gravitation, d’électromagnétisme, de mécanique
quantique ou de conduction thermique qui présentent une symétrie sphérique.
Notons que toute équation différentielle du second ordre de la forme p0 (x)y00 (x) + p1 (x)y0 (x) +
p2 (x, n)y(x) = 0, où n est un paramètre, peut toujours être réécrite dans la forme de Sturm-Liouville
1
(w(x)p0 (x)y(x)0 )0 + p2 (x, n)y = 0
w(x)
où
Z
1 p1
w= exp dx. (4.29)
p0 p0
la forme Surm-Liouville est particulièrement adaptée pour comprendre les propriétés des solutions
y(x), notamment pour vérifier leur orthogonalité éventuelle.
Theorem 4.3.4 — Orthogonalité des solutions de l’équation differentielle de Sturm-Liouville.
Si un ensemble de fonctions yn satisfait à l’équation de Sturm-Liouville et w ou p0 , s’annulent
aux extrémités de l’intervalle [a, b], alors les fonctions yn sont orthogonales dans cet intervalle
par rapport au poids w.
Si w ou p0 s’annulent aux bornes, le dernier terme du côté droit disparaît. Puisque le premier
est trivialement nul, nous concluons que l’ensemble yn des solutions doit être orthogonal en
[a, b].
D’après le théorème (4.3.4), les solutions Pn , de l’équation différentielle de Legendre sont orthogo-
nales dans l’intervalle [−1, 1] par rapport à la fonction de poids w = 1. Ceci est garanti par le fait
que le terme p0 = (1 − x2 ) s’annule à ces bornes.
4.3 Polynômes orthonormaux 109
P0 = 1
P1 (x) = x
(2n + 1)Pn+1 (x) = (2n + 1)xPn (x) − nPn−1 (x) n ≥ 1. (4.30)
Ils ne sont pas normalisés, en effet on peut vérifier que leur produit scalaire pondéré hPn |Pm iw
est
Z 1
2
Pn (x)Pm (x)dx = δmn .
−1 2n + 1
Les premiers polynômes de Legendre sont les suivants
P0 = 1
P1 (x) = x
1 2
P2 (x) = 3x − 1
2
1 3
P3 (x) = 5x − 3x
2
1 4
P4 (x) = 35x − 30x2 + 3
8
...
N
n n+k−1
X ! !
Pn (x) = 2 n 2 xk . (4.31)
k=0
k n
Notez que nous avons déjà obtenu les polynômes de Legendre en orthogonalisant, avec la
méthode de Gram-Schmidt la base {1, x, x2 , x3 , x3 ......} dans l’intervalle [−1, 1] avec le poids w(x) = 1.
Les résultats 4.24 et 4.31 ne diffèrent que par une constante de redimensionnement globale. En
effet, en imposant la condition P(1) = 1 on peut rendre (??) identiques à (4.31).
Les polynômes orthogonaux peuvent également être obtenus par leur fonction génératrice. Une
fonction génératrice G est un moyen d’encoder dans une structure compacte une suite infinie de
fonctions Pn (x) en les traitant comme les coefficients d’une série de puissance dans la variable t.
C’est une fonction de deux variables (x et t), qui peut être exprimées comme suit
∞
X
G(x, t) = Pn (x)tn .
n=0
Solution
a) En développant en série de Taylor autour de t = 0 la fonction (1 − t)−1 on obtient
∞
1 X
= 1 + t + t + t + ...... =
2 3
tn
1−t n=0
qui est la série géométrique. Les coefficients de la série de puissances sont la suite que nous
recherchons, on déduit donc que G(t) = (1 − t)−1 est leur fonction de génératrice.
110 Chapitre 4. FONCTIONS ORTHOGONALES
Exercise 4.5 Calculez les premiers polynômes de Legendre en utilisant leur fonction génératrice.
Solution. La formule binomiale (négative)
∞ ∞ ∞
j n+ j−1 j Γ(n + j)
! !
1 X −n j X X
= y = (−1) y = (−1) j yj (4.33)
1 + y)n j
j j
j j
Γ( j + 1)Γ(n)
1 1 ( + 1) 2
1 1
( + 1)( 12 + 2) 2
1 1
√ = 1 − (t2 − 2tx) + 2 2 (t − 2tx)2 − 2 2 (t − 2tx)3
1 − 2tx + t 2 2 2! 3!
ou
3 135
1 t2
√ = 1 − + tx + 4 (t4 − 4xt3 + 4x2 t2 ) − 2 2 2 (t2 − 2tx)3 ....
1 − 2tx + t2 2 2! 3!
Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
2−n dn 2 2
Pn (x) = x −1 . (4.34)
n! dxn
∞ ∞
Γ( j + 1/2)
!
1 X −1/2 h 2 j
i X
√ = (−1)(2tx − t ) = (−1) j (−1) j (2tx − t2 ) j
1 − 2xt − t2 j=0
j j=0
j!Γ(1/2)
∞ j
Γ( j + 1/2) X j
X !
= (2tx) j−m (−t2 )m
j=0
j!Γ(1/2) m=0
m
j
∞ X
X (2 j)! j!
= (−1)m (2x) j−m t j+m
j=0 m=0
22 j ( j!)2 m!( j − m)!
j
∞ X
X (2 j)! (2x) j−m j+m
= (−1)m t
j=0 m=0
22 j ( j!) m!( j − m)!
(4.35)
√
où nous utilisons les résultats de l’exercice 4.17, notamment que Γ(1/2) = π et Γ( j + 1/2) =
√ (2 j)!
π 22 j j! . En réarrangeant l’ordre de sommation on obtient
∞ [n/2]
1 X X (2n − 2m)! (2x)n−2m k
√ = (−1)m 2n−2m t
1 − 2xt − t2 n=0 m=0
2 (n − m)! m!(n − 2m)!
∞ [n/2]
X X (2n − 2m)! xn−2m
= (−1)m n tk
n=0 m=0
2 (n − m)! m!(n − 2m)!
(4.36)
P∞ n
où [n/2] désigne la partie entière. Puisque cette dernière expression doit être égale à n=0 Pn (x)t
on en déduit que
[n/2]
X (2n − 2m)! xn−2m
Pn (x) = (−1)m .
m=0
2n (n − m)! m!(n − 2m)!
Exercise 4.7 En utilisant la fonction génératrice, démontrer que la formule de récurrence à trois
termes des polynômes de Legendre est (4.30).
∂G x−t
= ,
∂t (1 − 2xt + t2 )3/2
d’où nous déduisons
∂G
(1 − 2xt + t2 ) = (x − t)G
∂t
et donc
∞
X ∞
X
(1 − 2xt + t2 ) nPn (x)tn−1 = (x − t) Pn (x)tn .
n=0 n=0
de sorte qu’en combinant ce résultat avec le précédent, on obtient une formule récursive utile
pour les dérivés premiè̀res des polynômes de Legendre
règle le comportement radial de la fonction d’onde d’un atome à un électron (notamment l’atome
d’hydrogène).
4.3 Polynômes orthonormaux 113
L0 = 1
L1 (x) = 1 − x
(n + 1)Ln+1 (x) = (2n + 1 − x)Ln (x) − nLn−1 (x) (4.37)
(4.38)
Les polynômes de Laguerre sont normalisés, en effet on peut vérifier que leur produit scalaire
pondéré hLn |Lm iw est
Z 1
e−x Ln (x)Lm (x)dx = δmn
−1
L0 = 1
L1 (x) = x
1 2
L2 (x) = x − 4x + 2
2
1 3
L3 (x) = −x + 9x2 − 18x + 6
6
1 4
L4 (x) = x − 16x3 + 72x2 − 96x + 24
24
.....
n
n (−1)k k
X !
Ln (x) = x. (4.39)
k=0
k k!
Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
e x dn −x n
Ln (x) = e x . (4.41)
n! dxn
pour n ∈ N.
Cette équation différentielle, qui peut être réécrite sous la forme de Sturm-Liouville comme suit
2 2
[e−x Hn0 (x)]0 + 2ne−x Hn (x) = 0.
Definition 4.3.4 — Polynômes d’Hermite. Les polynômes d’Hermite sont un ensemble complet
2
de polynômes orthogonaux associés à l’intervalle [−∞, ∞], le poids w(x) = e−x et générés par
la formule de récurrence à trois termes
H0 = 1
H1 (x) = 2x
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) (4.42)
Les polynômes d’Hermite ne sont pas normalisés, en effet on peut vérifier que leur produit
scalaire pondéré hHn |Hm iw est
Z ∞
2 √
e−x Hn (x)Hm (x)dx = π2n n!δmn
−∞
H0 = 1
H1 (x) = 2x
H2 (x) = 4x2 − 2
H3 (x) = 8x3 − 12x
H4 (x) = 16x4 − 48x2 + 12
..... (4.43)
Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
2 dn −x2
Hn (x) = (−1)n e x e . (4.45)
dxn
pour tout entier n ≥ 0, qui satisfont à la convention de normalisation T n (1) = 1. Cette équation peut
être réécrit sous la forme de Sturm-Liouville comme suit
p n2
[ 1 − x2 T n0 ]0 + √ T n = 0.
1 − x2
Ces polynomes, comme ailleurs le polynômes de Tchebychef de seconde espèce, sont particu-
lièrement utiles en analyse numérique pour l’interpolation polynomiale de fonctions.
Definition 4.3.5 — Polynômes de Tchebychef de première espèce. Les polynômes de Tche-
bychef de première espèce sont un ensemble complet de polynômes orthogonaux associés à
l’intervalle [−1, 1], la fonction poids w(x) = (1 − x2 )−1/2 et générés par la formule de récurrence
4.3 Polynômes orthonormaux 115
à trois termes
T0 = 1
T 1 (x) = x
T n+1 (x) = 2xT n (x) − T n−1 (x) (4.46)
Les polynômes de Tchebychef de première espèce ne sont pas normalisés, en effet on peut
vérifier que leur produit scalaire pondéré hT n |T m iw donne
Z ∞
2
e−x Hn (x)Hm (x)dx = tn δmn
−∞
Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
√
(−1)n π dn n−1/2
T n (x) = (1 − x2 )1/2 n 1 − x2 n≥0 (4.49)
2n n − 12 ! dx
pour tout entier n ≥ 0 qui satisfont à la convention de normalisation Un (1) = 1. Cette équation peut
être réécrite sous la forme de Sturm-Liouville comme suit
p
[(1 − x2 )3/2 Un (x)0 ]0 + n(n + 2) 1 − x2 Un (x) = 0.
U0 = 1
U1 (x) = 2x
Un+1 (x) = 2xUn (x) − Un−1 (x) (4.50)
116 Chapitre 4. FONCTIONS ORTHOGONALES
Les polynômes de Tchebychef de seconde espèce ne sont pas normalisés, en effet on peut
vérifier que leur produit scalaire pondéré hUn |Um iw est
π
Z ∞
2
e−x Hn (x)Hm (x)dx = δmn m, n ≥ 0
−∞ 2
Les premiers polynômes de Tchebychef de seconde espèce sont les suivants
U0 = 1
U1 (x) = 2x
U2 (x) = 4x2 − 1
U3 (x) = 8x3 − 4x
U4 (x) = 16x4 − 12x2 + 1
sin((n + 1) arccos(x))
.....Un (x) = (4.51)
sin(arccos(x))
La fonction génératrice des polynômes de Tchebychef de seconde espèce est la suivante
∞
1 X
G(x, t) = = Un (x)tn . (4.52)
1 − 2xt + t 2
n=0
Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
√
(−1)n (n + 1) π dn n+1/2
Un (x) = (1 − x2 )−1/2 n 1 − x2 n ≥ 0. (4.53)
22+1 n + 12 ! dx
4.4 Resumé
Le but de ce chapitre était de présenter les espaces de Hilbert ainsi que d’étudier les propriétés
d’orthogonalité de certains de ses habitants.
L’espace de Hilbert sur le champ des nombres complexes est d’une grande importance en
physique puisqu’il représente l’environnement abstrait dans lequel la mécanique quantique est
développée. Pour arriver aux espaces de Hilbert, nous procédons graduellement, en commençant
par les espaces mathématiquement moins structurés, vers des espaces de plus en plus riches en
structures, en considérant, par ordre de complexité : les espaces vectoriels de fonctions, les espaces
normés, les espaces muni d’une forme sesquilinéaire, et, enfin, les espaces de Hilbert, qui sont
des espaces vectoriels muni d’une forme sesquilinéaire, avec la propriété supplémentaire de la
complétude.
Il faut observer qu’un espace muni d’une forme sesquilinéaire ayant dimensions finies est
toujours complet, et par conséquent c’est toujours un espace de Hilbert. 5 Au lieu de cela, si l’espace
est de dimensions infinies, la complétude n’est pas assurée.
La notion d’espace de Hilbert nous a permis d’explorer les propriétés d’orthogonalité de
ses éléments. Nous avons donc présenté un formalisme assez efficace, la théorie de Fourier, qui
nous permet d’exprimer n’importe quelle fonction à carré intégrable (un élément de l’espace de
Hilbert L2 [a, b]) comme combinaison linéaire d’un ensemble complet de fonctions orthonormales.
Nous avons ensuite passé en revue les propriétés de certaines familles importantes de fonctions
orthogonales qu’on rencontre souvent dans les application physiques, telles que les polynômes de
Legendre, de Laguerre, d’Hermite et le polynômes de Tchebychefs de première et seconde espèce.
5. Une (petite) blague racontée dans les couloirs des labos de physique est la suivante : "Connaissez-vous Hilbert ?
Non ? Alors qu’est-ce que tu fais dans son espace ?
4.5 Exercises 117
4.5 Exercises
+1 2
Exercise 4.8 La suite fn = nx
nx+1 nx + 1 converg-t-elle uniformément sur l’intervalle D = [1, 2]?
Exercise 4.10 Montrer que la suite de fonctions fn (x) = cos(nx) est orthogonale en [−π, π]. Quel
est l’ensemble orthonormal correspondant dans L2 [−π, π] ? Quel est l’argument des cosinus
orthogonaux en [−L, L] ? Cet ensemble est-il complet ? L’ensemble fn (x) =
s’ils doivent être
π
cos (2n + 1) 2 x est-il orthogonal et complet en [0, 1] ?
2π
Exercise 4.11 a) Montrer que l’ensemble des fonctions un (x) = √1 ei L nx sont orthonormales
L
2k
dans tout intervalle de longueur L. b) développez la fonction √1 ei L Lx sur cette base dans
L
l’intervalle [−L/2, L/2] et déterminez ses coefficients de Fourier.
Exercise 4.14 Soit fn (x) un ensemble orthogonal de fonctions sur [a, b] par rapport au produit
scalaire pondéré avec poids w(x) ∈ R. Supposons f ∈ L2 [a, b] et développons cette function sur
la base fn
Cette expansion est appelée une série de Fourier généralisée, car la base n’est pas orthonormale.
Trouver l’expression des coefficients d’expansion an .
Solution. Nous savons que les composantes d’un vecteur par rapport à une base sont données
par
Z b
am = f m (x) f (x)dx
a
118 Chapitre 4. FONCTIONS ORTHOGONALES
où f m est la base duale associée à fm . L’équation précédente peut être obtenue en multipliant les
Rb
deux côtés de f = an fn par f m et en rappelant que, à cause du principe de dualité, a f m fn dx = δm
n.
Afin de déterminer l’ensemble f m (x), nous développons ces fonctions sur une base orthogonale
comme suit
où γmk sont des coefficients constants, et nous imposons que le principe de dualité soit respecté
Z b
δm
n = ( f m
, f n ) = γ mk
( f ,
k nf ) = γ mk
w(x) fk (x) fn (x)dx
a
Rb
mk a k
f (x) fn (x)w(x)dx Z b Z b
= γ Rb | fk (x)| w(x)dx = γ δn
2 mk k
| fk (x)|2 w(x)dx
2
| f (x)| w(x)dx a a
a k
Une autre façon d’arriver à la même solution est la suivante. Commencez par multiplier les
côtés gauche et droit de f = an fn par w(x) fm et intégrez le résultat dans l’intervalle d’orthogona-
lité. Nous obtenons
Z b Z b Rb
n a m
f (x) fn (x)w(x)dx Z b
fm (x) f (x)w(x)dx = a n
fm (x) fn (x)w(x)dx = a R b | fm (x)|2 w(x)dx
a a 2
| f (x)| w(x)dx a
a m
Z b
= a m δmn | fm (x)|2 w(x)dx (4.54)
a
Exercise 4.15 Trouver une représentation en série de la fonction de Heaviside, c.-à-d. la fonction
0
x<0
Θ(x) =
(4.55)
1
x ≥ 0,
4.5 Exercises 119
Puisque l’ensemble des fonctions Pn n’est pas orthonormal, les coefficients de l’expansion ne
sont pas les coefficients de Fourier ! Nous devons plutôt les calculer. En multipliant les côtés
gauche et droit de l’équation ci-dessus par Pm (x) et en intégrant le résultat, nous obtenons
∞ +1 ∞
1
2n + 1 2m + 1
Z X Z X
Θ(x)Pm (x)dx = cn Pn (x)Pm (x)dx = cn δnm = cm
−1 n=0 −1 n=0
2 2
2m + 1 1
Z
cm = Θ(x)Pm (x)dx
2 −1
Puisque la fonction Heaviside est une fonction impaire dans l’intervalle [−1, 1] nous en déduisons
que c2m = 0, puisque les polynômes de Legendre P2m sont pairs. Pour les termes impairs des
polynômes de Legendre nous avons
Z 1 Z 1
c2m+1 = (2m + 1) Θ(x)P2m+1 (x)dx = (2m + 1) P2m+1 (x)dx.
0 0
Exercise 4.17 La fonction gamma est définie par la relation de récurrence fonctionnelle
À l’âge de trente-cinq ans, en 1828, un meunier anglais de Nottingham qui n’etait jamais allé à
l’école, 1 George Green, a écrit un essai sur l’application de l’analyse mathématique aux théories
de l’électricité et du magnétisme.
L’essai commence par des observations introductives soulignant le rôle central de la fonction
potentielle dans le contexte de l’électromagnétisme. Green a inventé le terme ‘potentiel’ pour
désigner les résultats obtenus en additionnant les masses de toutes les particules d’un système,
chacune divisée par sa distance d’un point donné. Les propriétés générales de la fonction potentielle
sont ensuite développées et appliquées à l’électricité et au magnétisme. La formule reliant les
intégrales de surface et de volume, maintenant connue sous le nom de théorème de Green, a été
introduite dans ce travail, de même que le concept de ‘fonctions de Green’.
Les fonctions de Green sont maintenant un outil clé de la physique. Elles sont largement utilisés
en électrodynamique et en théorie des champs quantiques, où les équations différentielles sont
souvent difficiles ou impossibles à résoudre exactement mais peuvent être résolus de manière
perturbative en utilisant les fonctions de Green. Dans les contextes de la théorie des champs, la
fonction de Green est souvent appelée ‘propagateur’ ou fonction de corrélation à deux points
puisqu’elle est liée à la probabilité de mesurer un champ à un point donné étant donné qu’il est
généré en un point différent.
Les fonctions de Green sont un dispositif utilisé pour résoudre des équations linéaires inho-
mogènes ordinaires ou aux dérivées partielles qui sont souvent insolubles par d’autres méthodes.
L’idée est de considérer une équation différentielle telle que
Ly(x) = f (x)
où L est un opérateur différentiel linéaire, c.-à-d. une combinaison linéaire d’opérateurs de dé-
rivation. Nous cherchons donc une solution qui obéit à un ensemble de conditions aux bornes
1. Apparement Green aurait étudié les mathématiques au dernier étage de son moulin, tout seul. Nous n’avons aucune
connaissance de la façon dont Green aurait pu se familiariser avec les mathématiques les plus avancées de son temps, qui
est en effet ce qui s’est passé. Il a été encouragé à fréquenter l’université de Cambridge à l’age de quarante ans d’âge. Il a
obtenu son diplôme (quatrième de son année) en 1837, mais il est mort quelques années plus tard en 1841.
122 Chapitre 5. FONCTIONS DE GREEN
et, au lieu de la chercher en utilisant la méthode de la variation des constantes, développée par
Lagrange, on cherche à inverser l’opérateur différentiel et à écrire la solution du problème comme
y = L−1 f. L’inverse d’un opérateur différentiel n’est pas un objet très bien défini ; des mathématiques
rigoureuses sont nécessaires pour justifier cette construction de façon plus précise. Par conséquent,
la construction des fonctions de Green est une procédure délicate et difficile en général. L’avantage
de la méthode de Green, par rapport à celle de la variation des paramètres, est qu’une fois que
la fonction de Green pour un opérateur différentiel et des conditions aux bornes spécifiques a été
trouvée, la solution pour toutes équations différentielles linéaire non homogène peut être écrite
immédiatement, sous la forme d’une intégrale.
Dans ce chapitre on introduira les fonctions de Green avec une approche piétonne basée sur les
propriétés de la delta de Dirac. En outre, bien que la méthode de Green soit applicable à la solution
des équations aux dérivées partielles, on traitera uniquement de l’utilisation des fonctions de Green
pour résoudre les equations différentielles ordinaires (EDO)
où la somme sur les indices a été remplacée par une intégration sur la variable x0 . Si G L (x, x0 ) est
une fonction ordinaire, alors G(x, x0 ) est appelé fonction de Green ou noyau intégral.
L’essence de la méthode de Green consiste donc à trouver un noyau intégral G L (x, x0 ) en terme
duquel on peut exprimer la solution (satisfaisante toutes les conditions aux bornes données) du
problème différentiel Ly(x) = f (x). Par cette méthode, nous réduisons l’étude des propriétés de
l’opérateur différentiel L à l’étude des propriétés similaires de l’opérateur intégral correspondant G L .
Par exemple, l’opérateur d’identité dans un espace fonctionnel est l’opérateur I tel que Iy(x) = y(x).
Son inverse, qui coïncide avec l’opérateur I lui-même, doit être un opérateur G I (x, x0 ) qui satisfait
(5.1). Nous introduisons un symbole spécial pour l’opérateur d’identité dans un espace fonctionnel,
G I (x, x0 ) = δ(x0 − x), la ‘fonction’ delta de Dirac, et écrivons
Z
δ(x0 − x) f (x0 )dx0 = f (x) (5.2)
Le delta de Dirac, qui n’est pas une fonction ordinaire, 2 , joue le rôle de la matrice identité dans
les espaces fonctionnels, une sorte d’analogue continu du delta de Kronecker. On peut la définir
2. Certaines esprits mathématiquement bien élevées ont, dès le début, pris de fortes objections à cette δ. À l’avant-
garde de ce groupe se trouvait John von Neumann, qui a rejeté la fonction δ comme une ‘fiction’, et a écrit son
monumental Mathematische Grundlagen der Quantenmechanik largement pour démontrer que la mécanique quantique
peut (avec un effort suffisant !) être formulé sans aucune référence à une telle ‘fiction’. La situation changea cependant en
1950, lorsque Laurent Schwartz publia le premier volume de son ouvrage, Théorie des distributions. L’accomplissement
de Schwartz a été de montrer que les δ sont des objets mathématiques d’un type fondamentalement nouveau – les
distributions – qui vivent dans des espaces duales spéciaux toujours à l’ombre d’une intégrale implicite.
5.1 Delta de Dirac 123
Notez que la valeur θ(0) est conventionnelle (et sans conséquence), certains auteurs la mettant à
zéro, d’autres à un. Notre choix est équivalent à la stipulation que la fonction ‘signe’ S (x) ≡ 2θ(x) − 1
(égale à 1 si x > 0 et à −1 si x < 0) est une fonction impaire c’est-à-dire S (0) = 0.
La nature ‘pathologique’ du delta de Dirac est évidente :
Z b
δ(x0 − x)dx0 = θ(b − x) − θ(a − x)
a
implique que seulement si l’intervalle d’intégration [a, b] contient le point x l’intégrale évalue à un
et non à zéro ! De même, on peut noter que (5.3) implique formellement
d
δ(x − x0 ) = θ(x − x0 ).
dx
On est souvent temptés d’ interpréter le δ comme quelque chose qui est nul partout sauf à x0 = x où,
pour rendre l’intégrale finie et égale à 1, le delta diverge. Ceci n’est qu’une representation formelle :
nous traitons le δ comme une fonction bien que ce ne soit pas le cas ! Nous pensons souvent à
δ(x) comme étant la limite d’une suite de fonctions dont les graphiques deviennent de plus en plus
étroits alors que leur hauteur augmente pour garder l’aire sous la courbe fixée à l’unité. Un exemple
serait la fonction rectangulaire δ (x) centré à x = 0 dont la taille selon l’axe x est et dont la hauteur
est 1/. La norme L2 de δ ,
Z ∞ Z /2
1 1
||δ || =
2
|δ (x)| dx =
2
dx =
−∞ −/2
2
tend vers l’infini comme → 0, donc δ ne peut pas converger à aucune fonction dans L2 . 3
R Au lieu de la représentation intégrale, commune mais purement formelle, les auteurs à l’esprit
mathématique utilisent la notation
ˆ x [ f ] = f (x)
delta (5.4)
étant entendu que δ̂[ f ] = f (0) et que f est une element d’un bien specifique espace des
ˆ
fonctions T appellé espace des fonction test. Cette notation soulignent le fait que le delta[...]
n’est pas une fonction ordinaire de l’espace de fonction T , mais un fonctionnel, un citoyen
du dual de T . L’expression précédente représente l’appariement de l’élément f de l’espace T
avec l’élément δ̂ de son dual, c.-à-d. l’espace T ∗ . Quand on agit sur une fonction f (x) ∈ T ,
le δ̂ x évalue la fonction f à la position x et renvoie le nombre f (x). La relation 5.4 ne doit
pas être considérée comme une forme sesquilinéaire (δ, f ) (où δ est l’element de T qui est
isomorphique à δ̂) car une des propriétés intéressantes des espaces T à dimensions infinies,
tels que par exemple L2 , est que les elements de leur dual T ∗ ne pouvaient pas être identifiées,
comme dans les cas à dimensions finies, avec les éléments de T , ce qui conduit naturellement
3. La simple pic divergent en zero n’est pas la seule façon de ‘visualiser’ une fonction delta. Il y a beaucoup de
contre-exemples au fait souvent affirmé que δ(x) = 0 pour tout x , 0. Voir, par exemple, la figure 4.2.
124 Chapitre 5. FONCTIONS DE GREEN
à séparer les notions d’espace vectoriel et son dual. En effet, le théorème de Riesz-Fréchet
ne s’applique pas directement aux espaces avec dimensions infinies. Le théorème de Riesz-
Fréchet affirme que tout fonctionnel linéaire continu F[...] agissant sur des éléments de
l’espace de Hilbert H (F[...] : H → R) peut être écrit comme F[ f ] = (l, f ) où l est la fonction
de H qui représente le fonctionnel F. Cependant, le delta n’est pas un fonctionnel continue
lorsqu’il agit sur une élément f de l’espace de Hilbert L2 . Un petit changement arbitraire
f → f + ∆ f peut produire un changement arbitrairement grand de f (0). Ainsi l’espace dual
de L2 ne peut pas accommoder le delta.
Une autre façon de comprendre cela est de se rappeler que nous considérons deux fonctions
de L2 comme étant les mêmes lorsque || f1 − f2 ||| = 0. Cette distance sera nulle même si
f1 et f2 diffèrent l’un de l’autre sur un ensemble dénombrable de points. Comme nous
l’avons remarqué plus tôt, cela signifie que les éléments de L2 ne sont pas vraiment des
fonctions - ils n’ont pas de valeur assignée à chaque point. Il ne s’agit plutôt que de classes
d’équivalence de fonctions. Puisque f (0) n’est pas défini, toute tentative d’interprétation de
l’énoncé δ(x) f (x)dx = f (0) pour f un élément arbitraire de L2 est nécessairement voué à
R
l’échec. Les fonctions continues, cependant, ont des valeurs bien définies à chaque point.
Si nous prenons l’espace T comme étant celui constitué de toutes les fonctions continues,
mais pas forcement différentiables, alors T inclura le δ, mais pas sa ’dérivée’ δ0 (x), car cela
nous oblige à évaluer f 0 (0). Si nous demandons que les fonctions de test soient une fois
différentiables, alors T inclura δ0 (x) mais pas δ00 (x), etc. Cet argument nous indique donc que
les fonctions de test sont donc des fonctions smooth (infiniment différentiables) qui tendent
rapidement à zéro à l’infini. La classe de fonction que nous pouvons choisir pour T dépend du
problème rencontré. Un espace populaire de fonctions de test est celui composé de fonctions
C ∞ de support compact – ce qui signifie que chaque fonction est identique à zéro en dehors
d’un intervalle fini. Ce n’est que si nous voulons prouver des théorèmes qu’une spécification
précise de T est essentielle. Pour la plupart des calculs de physique, une différentiabilité
infinie et une décroissance assez rapide à l’infini est tout ce dont nous avons besoin.
Nous avons formellement défini la fonction de Green associée à L x comme étant le noyau de
l’intégrale
Z b
y(x) = G L (x, x0 ) f (x0 )dx0 . (5.6)
a
qui permet de trouver une solution particulière y(x) de l’équation (5.5). Notons que si l’on souhaite
trouver la solution générale complète de (5.5), il faut ajouter la solution yc (x) de l’équation
complémentaire (ou équation homogene) L x yc (x) = 0 (5.6).
R La fonction de Green est souvent interprétée comme une fonction de propagation, reliant
une perturbation ou ‘signal d’entrée’ f (x0 ) imprimé en x0 à la ‘réponse’ y(x) ressentie en
x. On peut gagner de l’intuition physique sur ces mathématiques en suivant les intuitions
originales de Green lui-même. Green remarqua que la solution de l’équation de Poisson
∇2 φ(x) = ρ(x), qui décrit le potentiel électrostatique généré par une distribution de charge
donnée ρ(x), peut être obtenu par superposition des potentiels générés par une population
de charges ponctuelles ; c’est-à-dire que le problème général peut être réduit au problème
particulier
∇2 φ(x, x0 ) = δ(x0 − x)
où maintenant la fonction δ− est utilisée pour décrire une charge ponctuelle positionnée au
point x. Suivant cette vision inspirante, au lieu de résoudre un problème linéaire inhomogène
5.2 Propriétés de la fonction de Green 125
L x y(x) = f (x), nous recherchons la fonction G(x, x0 ) qui satisfait le problème spécial associé
L xG(x, x0 ) = δ(x0 − x). G(x, x0 ) peut être considéré physiquement comme la réponse d’un
système à une impulsion unitaire à x0 = x. La solution du problème original sera simplement
une superposition pondérée des solutions du problème spéciale, où le poids est le terme non
homogène f (x) de l’équation différentielle.
Nous devons maintenant découvrir comment calculer G L (x, x0 ) en pratique. Puisque G L est
l’inverse de L, nous pouvons écrire formellement
Il est facile de comprendre que cela a un sens en multipliant chaque côté de la relation précédente
par f (x0 ) et en l’intégrant. Nous obtenons
Z b Z b
L xG L (x, x ) f (x )dx =
0 0 0
δ(x0 − x) f (x0 )dx0 = f (x)
a a
et, donc,
Z b
Lx G L (x, x0 ) f (x0 )dx0 = f (x).
a
x0 + " Z x0 +
d2G(x, x0 ) dG(x, x0 )
Z #
lim p0 + p1 + p2G(x, x ) dx = lim
0
δ(x0 − x)dx (5.8)
→0 x0 − dx2 dx →0 x0 −
Nous remarquons que la limite de l’intégrale sur le côté droit de (5.8) est
Z x0 +
δ(x0 − x)dx = lim θ((x0 + ) − x) − θ((x0 − ) − x) = 1
lim
→0 x0 − →0
ainsi, en intégrant les termes du côté gauche de 5.8 par parties deux fois et en imposant la condition
de continuité à G, l’équation 5.8 devient
# x=x0 +
dG(x, x0 )
"
lim p0 (x) =1
→0 dx x=x0 −
126 Chapitre 5. FONCTIONS DE GREEN
Nous concluons donc que le terme dG/dx0 doit être discontinu à x = x0 , et sa valeur limite pour
→ 0 doit être 1/p0 (x).
On peut généraliser le résultat précédent à n’importe quel opérateur différentiel linéaire L
d’ordre n et conclure que la fonction de Green associée à l’opérateur doit avoir les propriétés
détaillées ci-dessous.
c1 (x0 )y1 (x) + c2 (x0 )y2 (x)
x < x0
G(x, x0 ) =
d1 (x0 )y1 (x) + c2 (x0 )y2 (x)
x > x0
où les paramètres c1 , c2 , d1 , d2 dépendent du paramètre x0 et y1 (x), y2 (x) sont deux solutions indé-
pendantes de l’équation différentielle homogène de second ordre L xG(x) = 0, (équation complé-
mentaire). La fonction de Green peut être exprimée de manière équivalente comme suit
G(x, x0 ) = (c1G1 (x) + c2G2 (x)) θ(x0 − x) + (d1G1 (x) + d2G2 (x)) θ(x − x0 ).
Ensuite, nous imposons les deux conditions aux bornes. Ceci fixe deux des paramètres par rapport
aux deux autres. Troisièmement, nous imposons la continuité dans la variable x de G(x, x0 ) au point
x = x0 . Ceci fixe l’un des deux paramètres restants. Enfin, on exige que dG
dx augmente de 1/p0 (x) à
x = x . Cette condition sur la variation de la dérivée fixe la dernière constante et nous permet de
0
loin du point critique x = x0 . Supposons que y1 (x) soit une solution de L x y = 0 pour x < x0 , c.-à-d. du
côté gauche de l’intervalle [a, b]. De même y2 (x) devrait résoudre L x y = 0 pour x > x0 , c’est-à-dire
du côté droit. La fonction de Green doit donc être de la forme suivante
G(x, x0 ) = c1 (x0 )y1 (x) + c2 (x0 )y2 (x) θ(x0 − x) + d1 (x0 )y1 (x) + d2 (x0 )y2 (x) θ(x − x0 ).
(5.9)
Un moyen simple d’incorporer les conditions aux bornes homogènes dans la solution finale du
problème (5.6) est d’imposer que la fonction de Green satisfait aux mêmes conditions
G0 (a, x0 ) − AG(a, x0 ) = 0
G0 (b, x0 ) − BG(b, x0 ) = 0.
G(x, x0 ) = c1 (x0 )y1 (x) θ(x0 − x) + d2 (x0 )y2 (x) θ(x − x0 ). (5.11)
La continuité à x = x0 implique
y2 (x0 )
c1 (x0 ) = d2 (x0 ) ,
y1 (x0 )
y2 (x0 ) 0 0
!
0
d2 (x ) y02 (x0 ) − y (x ) =1
y1 (x0 ) 1
y1 (x0 )
d2 (x0 ) =
W(x0 )
et, donc,
y2 (x0 )
c1 (x0 ) =
W(x0 )
où W(x0 ) = y1 (x0 )y02 (x0 ) − y2 (x0 )y01 (x0 ) est le Wronskian. Nous concluons que
qui montre que la fonction de Green est symétrique (G(x, x0 ) = G(x0 , x)), comme il se doit ! La
solution à notre problème est donc
x b
y1 (x0 )y2 (x) y2 (x0 )y1 (x)
Z Z
y(x) = f (x0 )dx0 + f (x0 )dx0 .
a W(x0 ) x W(x0 )
128 Chapitre 5. FONCTIONS DE GREEN
d2
!
− k E x = J(x)
2
dx2
où la constante k est donnée par k2 = gω2 /c2 avec c la vitesse de la lumière, ω la fréquence angulaire
de la lumière, et g une constante appelée coefficient de gain. Comme la cavité est entourée de
miroirs conducteurs, les conditions aux bornes sont homogènes :
Ez (0) = 0
Ez (L) = 0.
Notre tâche est de trouver la solution générale pour le champ électrique entre les miroirs. A cette
fin nous considérons l’équation de Green
d2
!
− k G(x, x0 ) = δ(x0 − x)
2
dx2
et le résoudre loin du point critique x = x0 , en obtenant
G(x, x0 ) = c1 ekx + c2 e−kx θ(x0 − x) + d1 ekx + d2 e−kx θ(x − x0 ). (5.13)
Les conditions limites G(0, x0 ) = G(L, x0 ) = 0 imposent les contraintes suivantes aux coefficients :
c1 + c2 = 0
d1 e + d2 e−kL = 0.
kL
En résolvant les systèmes de deux équations dans les deux inconnues c1 et d1 on obtient
sinh[k(x0 − L)]
c1 = −
2k sinh(kL)
sinh(kx0 )
d1 = −e−kL
2k sinh(kL)
5.3 Calcul de la fonction de Green I : la méthode d’intégration directe 129
La fonction de Green de l’opérateur d2 /dx2 +k2 +k2 satisfaisant aux conditions aux bornes G(0, x0 ) =
G(L, x0 ) = 0 est
sinh[k(L − x0 )] sinh(kx) 0 sinh[k(L − x)] sinh(kx0 )
G(x, x0 ) = θ(x − x) + θ(x − x0 )
k sinh(kL) k sinh(kL)
et le champ électrique permanent qui en résulte est donc
Z L
Ez (x) = G(x, x0 )J(x0 )dx0
0
ou
x L
sinh[k(L − x)] sinh(kx0 ) 0 0 sinh[k(L − x0 )] sinh(kx) 0 0
Z Z
Ez (x) = J(x )dx + J(x )dx .
0 k sinh(kL) x k sinh(kL)
d2 x(t) F(t)
F(t) = m a(t) ≡ .
dt2 m
Supposons que le mouvement a lieu dans l’intervalle de temps t1 ≤ t ≤ t ≤ t2 et que les conditions
aux bornes sont les suivantes
x(t1 ) = 0
x(t2 ) = 0.
Ce qu’il y a de beau avec la fonction de Green, c’est qu’elle nous donne immédiatement la solution
du problème au niveau formel
Z t2
x(t) = G(t, t0 )a(t0 )dt0 .
t1
d2
G(t, t0 ) = δ(t0 − t)
dt2
loin du point critique t = t0 , en obtenant
Nous devons maintenant imposer les restrictions pertinentes sur G(t, t0 ) afin de déterminer les
fonctions c1 (t0 ), c2 (t0 ) etc. La première est que G(t, t0 ) devrait lui-même obéir aux conditions aux
limites homogènes G(t1 , t0 ) = G(t2 , t0 ) = 0.
c1 (t0 ) + c2 (t0 )t1 = 0
d1 (t0 ) + d2 (t0 )t2 = 0.
En résolvant par rapport à c2 (t0 ) et d2 (t0 ) et en utilisant les résultats en (5.14) on obtient
c1 d1
G(t, t0 ) = (t1 − t)θ(t0 − t) + (t2 − t)θ(t − t0 ).
t1 t2
130 Chapitre 5. FONCTIONS DE GREEN
Exercise 5.1 Utilisez la méthode de la fonction de Green pour résoudre le problème suivant
d2 y(t)
+ y(t) = cosect (5.15)
dt2
avec les conditions aux bornes y(0) = y(π/2) = 0.
Solution. La fonction de Green G(t, t0 ) doit satisfaire
d2G(t, t0 )
+ G(t, t0 ) = δ(t0 − t) (5.16)
dt2
Il est clair que pour t , t0 le membre de droite de l’équation précédente est zéro, et il nous
reste à trouver la solution générale à l’équation homogène, c’est-à-dire la fonction complémen-
taire. Celle ci consiste en une superposition linéaire de sin t et cos t. Notamment on s’attend deux
différentes superpositions de chaque côté de t = t0 , puisque la dérivée première doit comporter
une discontinuité. Par conséquent,
G(t, t0 ) = c1 (t0 ) sin t + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
Les conditions aux bornes G(0, t0 ) = G(π/2, t0 ) = 0 imposent les contraintes c2 (t0 ) = d1 (t0 ) = 0 et
donc on a
En imposant la continuité à t = t0 avec les contraintes que dG/dt ait un bond de amplitude
unitaire à ce point, on obtient
On a donc
Par conséquent, la solution à (5.15) qui obéit aux conditions aux bornes y(0) = y(π/2) = 0 est
Z π/2 Z t Z π/2
y(t) = G(t, t )cosect dt = −
0 0 0 0 0 0
cos t sin t cosect dt − sin t cos t0 cosect0 dt0
0 0 t
= −t cos t + sin t log(sin t) (5.18)
Ainsi, par exemple, la solution de d2 y/dt2 + y = f (t), avec y(0) = y(π/2) = 0, est donnée
immédiatement par
Z π/2 Z t Z π/2
y(t) = G(t, t0 ) f (t0 )dt0 = − cos t sin t0 f (t0 )dx0 − sin t cos t0 f (t0 )dt0
0 0 x
Par exemple, vous pouvez vérifier que si f (t) = sin 2t, alors on a y(t) = (− sin 2t)/3, une
solution facilement vérifiable par substitution directe.
Exercise 5.2 Considérons à nouveau l’EDO résolue dans l’exercice 5.1, mais avec des condi-
tions aux bornes différentes. Résolvez maintenant
d2 y
+ y = f (x)
dx2
avec les données initiales y(0) = y0 (0) = 0.
Solution. La fonction de Green satisfait à l’équation différentielle (5.16) et sera de la forme
G(t, t0 ) = c1 (t0 ) sin x + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
Cependant, nous avons maintenant besoin de G(t, t0 ) pour respecter les conditions limites
G(0, t0 ) = G0 (0, t0 ) = 0. Puisque le mouvement a lieu dans l’intervalle de temps 0 ≤ t ≤ ∞ nous
déduisons que c1 (t0 ) = c2 (t0 ) = 0. Donc nous avons
L’application des conditions de continuité sur G(t, t0 ), et de discontinuité pour sa dérivée, nous
donnent
et donc
et la solution générale qui obéit aux conditions limites y(0) = y0 (0) = 0 est
Z ∞ Z t
y(t) = G(t, t ) f (t )dt =
0 0 0
sin(t − t0 ) f (t0 )dt0 .
0 0
En comparant les résultats de cet exercice avec ceux de (5.1) nous voyons, comme prévu, que
les fonctions de Green associées au même opérateur différentiel, mais à des conditions au bornes
différentes, sont en général différent.
5.4 Causalité
Considérons une équation différentielle inhomogène dont la variable indépendante est le temps.
Supposons en outre que nous ne spécifions pas de conditions initiales ni de conditions aux bornes. 4
A titre d’exemple, considérons l’équation différentielle rencontrée dans les problèmes (5.1) et (5.2)
d2 y
+ y = f (t)
dt2
et appliquons la méthode de la fonction de Green pour la résoudre. Nous avons déjà vu que la
solution de
∂2G(t, t0 )
+ G(t, t0 ) = δ(t − t0 ) (5.20)
∂t2
peut être exprimée comme
G(t, t0 ) = c1 (t0 ) sin t + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
4. Ou que les données initiales et aux bornes ne sont pas suffisantes pour déterminer de manière univoque la fonction
de Green.
5.4 Causalité 133
Exercise 5.3 Vérifiez que (5.22) résout y00 (x) + y = δ(t0 − t). Solution. On a
∂2
θ(t − t0 ) sin(t − t0 ) = δ0 (t − t0 ) sin(t − t0 ) + 2δ(t − t0 ) cos(t − t0 ) − θ(t − t0 ) sin(t − t0 )
∂t 2
∂2
θ(t − t0 ) sin(t − t0 ) = δ0 (t − t0 ) − θ(t − t0 ) sin(t − t0 )
∂t 2
de sorte que
∂2
G(t, t0 ) = − (c2 cos t + c1 sin t) − θ(t − t0 ) sin(t − t0 ) + δ(t − t0 ) = −G(t, t0 ) + δ(t − t0 ).
∂t2
ou
et
Z
y p (t) = G(t, t0 ) f (t0 )dt0 .
Puisque (5.20) est une équation différentielle de second ordre dans la variable t, la solution
(5.22) contient deux fonctions indéterminées du paramètre t0 (c(t0 ) et c2 (t0 )). Nous n’avons pas de
données initiales ou aux bornes pour éliminer cette dégénérescence. Toutefois, comme il s’agit d’un
problème physique bien posé, nous pouvons rechercher des considérations physiques qui aident à
éliminer l’indétermination mathématique. Pour ce faire, nous invoquons le principe de causalité,
l’affirmation selon laquelle les effets ne peuvent précéder les causes !
Considérez le problème y00 (t) + y(t) = f (t). Physiquement, cela correspond à une force dé-
pendante du temps f (t) qui excite un système élastique. La perturbation y p (x)du mouvement
harmonique est l’effet qui résulte de l’action de la force externe f (t) (la cause). Il est clair qu’il
ne peut y avoir aucune perturbation avant que la force ne soit appliquée ! De même, aucune per-
turbation au temps t ne peut être induite par une force appliquée au temps t0 > t. Nous pouvons
incorporer cette considération, assez raisonnable, dans notre formalisme en disant que
G(t, t0 ) = 0 si t < t0
puisque la réponse d’un système (y p ) au temps t ne peut pas dépendre de la valeur de la source à un
moment successif.
Si nous imposons le principe de causalité, nous déduisons immédiatement que c1 = c2 = 0 et
que
Notons que la fonction de Green prend maintenant une dépendance fonctionnelle spécifique
de la différence t − t0 . Une fois le principe de causalité pris en compte, les effets dépendront
uniquement de l’intervalle de temps écoulé à partir d’un certain moment. On voit ici la signature
de l’homogénéité du temps : que l’on commence une expérience à midi ou à l’heure du goûter ne
change pas le résultat observé après une heure !
Le signe + indique que la fonction de Green est causale ou, comme on l’appelle souvent, la
fonction de Green retardée, c’est-à-dire une fonction qui est nulle. chaque fois que t − t0 < 0. 5
et donc
" Z +∞ # Z ∞
1 1 0
Lx 0
Ĝ(k, x )e −ikx
dk = eik(x −x) dk,
2π −∞ 2π −∞
5. Nous définissons de manière similaire la fonction de Green avancée (ou fonction de Green anticausale) qui
s’annule pour tous les t > t0 .. En imposant que l’équation (5.22) s’annule pour t > t0 nous obtenons c1 = − cos t0 et
d1 = sin t0 qui résulte en
On peut dire que si G+ propage les effets d’une cause dans le futur, G− les propage dans le passé. Notons aussi que
G− (t − t0 ) = G+ (t0 − t)
qui exprime la symétrie par inversion temporelle d’un système mécanique (non soumis à des effets dissipatifs, comme
celui considéré dans notre exemple).
5.5 Calcul de la fonction de Green II : la méthode de la transformée de Fourier 135
d2
!
2m
2
+ k0 ψ(x) = 2 V(x)ψ(x)
2
dx h̄
avec k0 = 2mE/h̄2 .
Selon (5.24), la transformée de Fourier de la fonction de Green est
0
eikx
Ĝ(k, x ) = 2 2
0
k0 − k
La fonction de Green est maintenant formellement définie par la transformée inverse
Z ∞ 0
1 e−ik(x−x )
G(x, x ) =
0
dk.
2π −∞ (k0 − k)(k0 + k)
Cette intégrale peut être résolue en utilisant l’intégration de contour dans le plan complexe, voir
l’exercice 5.9.
Exercise 5.4 Considérons un oscillateur harmonique amorti soumis à une force externe arbi-
traire, c.-à-d. une particule de masse m dont l’equation de mouvement est
d2 x dx F(t)
2
+ 2γ + ω20 x =
dt dt m
où γ est le coefficient d’amortissement, et ω0 est la fréquence propre de l’oscillateur. Notre
objectif est de déterminerle mouvement x(t) à l’aide de la fonction de Green.
Solution.
Considérons l’équation pour la fonction de Green
d2 x dx
2
+ 2γ + ω20 x = δ(t0 − t).
dt dt
Pour la résoudre, nous utilisons la transformée de Fourier. Supposons pour l’instant que la
transformée de Fourier de G(t, t0 ) par rapport à t soit convergente. Nous supposerons également
que l’oscillateur n’est pas amorti de manière critique, c’est-à-dire ω0 , γ.
136 Chapitre 5. FONCTIONS DE GREEN
Ceci peut être évalué par l’intégration dans le plan complexe. La fonction intégrande a deux
pôles, tous deux situés dans le plan complexe négatif. Pour t < t0 , le lemme de Jordan nous oblige
à fermer le contour dans le demi-plan supérieur ; ceci n’entoure aucun pôle, donc l’intégrale est
nulle. Pour t > t0 , il faut fermer le contour dans le demi-plan inférieur, en enfermant les deux
pôles. Les résidus sont
0
e−iω+ (t−t )
Resω+ =
ω+ − ω−
0
e−iω− (t−t )
Resω− =
ω− − ω+
On a donc
0 0 #
e−iω+ (t−t ) e−iω− (t−t )
"
G(t, t ) = i
0
+ θ(t − t0 )
ω+ − ω− ω− − ω+
5.6 Exercises
Exercise 5.5 Résoudre, à l’aide de la fonction Green, l’équation différentielle
dy(t)
− Q(t)y(t) = f (t)
dt
avec la condition initiale y(0) = 0.
5.6 Exercises 137
d2 y(x)
− = f (x)
dx2
avec les conditions limites y(0) = y(1) = 0.
Exercise 5.7 L’équation de mouvement pour un oscillateur harmonique (avec les termes de
force et d’amortissement) peut être écrite comme suit
ẍ + 2 ẋ + (1 + k2 )x = f (t),
d2 y
+ = f (x)
dx2 4
avec les conditions limites y(0) = y(π) = 0, est donné par
1 1
−2 cos 2 x sin 2 x0
0 ≤ x0 ≤ x
G(x, x ) =
0
(5.25)
−2 sin 1 x cos 10
2 x x ≤ x0 ≤ π.
∞ 0
e−ik(x−x )
Z
1
G(x, x ) =
0
dk.
2π −∞ (k0 − k)(k0 + k)
E I
Intégrale première . . . . . . . . . . . . . . . . . . . . . . . 70
Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Le théorème de Riesz-Fréchet . . . . . . . . . . . . 17
Points critiques . . . . . . . . . . . . . . . . . . . . . . . . . 56
Points stationnaires . . . . . . . . . . . . . . . . . . . . . . 56
Polynômes de Legendre . . . . . . . . . . . . . . . . 109
Polynômes d’Hermite . . . . . . . . . . . . . . . . . . 114
Polynômes de Laguerre . . . . . . . . . . . . . . . . . 113
Polynômes de Tchebychef de première espèce
114
Polynômes de Tchebychef de seconde espèce
115
Polynômes orthonormaux . . . . . . . . . . . . . . . 104
Principe de dualité . . . . . . . . . . . . . . . . . . . . . . 15
Principe de Fermat . . . . . . . . . . . . . . . . . . . . . . 76
Produit scalaire entre vecteurs . . . . . . . . . . . . 11
Scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Symétrie infinitésimale . . . . . . . . . . . . . . . . . . 82
Symbole de Kronecker . . . . . . . . . . . . . . . . . . 18
Symbole de Levi-Civita . . . . . . . . . . . . . . . . . . 13
Théorème de Noether . . . . . . . . . . . . . . . . . . . . 81
Théorème de Parseval . . . . . . . . . . . . . . . . . . 104
Transformation linéaire . . . . . . . . . . . . . . . . . . . 7