You are on page 1of 139

Mathematique pour la Physique

Christian Marinoni
Copyright c 2019 Christian Marinoni


Table des matières

1 ESPACES VECTORIELS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1 Espaces vectoriels 5
1.1.1 Espaces vectoriels linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Espace dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Espace vectoriel normé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.4 Espaces Euclidiens ou Hernitiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Représentation des vecteurs et opérateurs dans une base 12
1.2.1 Le théorème de Riesz-Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Changemen de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.3 Le statut particulier des bases orthonormales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4 Métrique associée à une base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Résumé 26
1.4 Exercices 27

2 COORDONNEES CURVILIGNES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1 Systèmes de coordonnées 30
2.2 Mesures métriques I : éléments de ligne 32
2.3 Bases associées à un système de coordonnées 36
2.3.1 La base holonomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Transformation de coordonnées 40
2.4.1 Coordonnées et invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.2 Matrice de passage entre systèmes de coordonnées . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Transformation des composantes vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5 Dérivées de vecteurs géométriques 46
2.6 Mesures métriques II : éléments de surface et de volume 49
4

2.7 Résumé 51
2.8 Exercices 51

3 Calcul des Variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55


3.1 Maxima et minima relatifs de fonctions 56
3.2 Multiplicateurs de Lagrange 59
3.3 Fonctionnels 62
3.3.1 L’opérateur variation et la dérivée fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3.2 Equation d’Euler-Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.3 Problèmes variationnels classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4 Intégrale première de l’équation d’Euler-Lagrange 70
3.5 Variation des fonctionnels contraintes 71
3.6 Fonctionnels avec extrémités libres 74
3.7 Maxima et minima des fonctionnels 75
3.8 Principe de Fermat 76
3.9 Principe de la moindre action 78
3.10 Théorème de Noether 81
3.11 Principe variationnel appliqué aux champs 84
3.12 Exercises 90

4 FONCTIONS ORTHOGONALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.1 Espaces de fonctions 96
4.2 Bases orthonormales des fonctions 100
4.3 Polynômes orthonormaux 104
4.3.1 Polynômes de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.3.2 Polynômes de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3.3 Polynômes d’Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.3.4 Polynômes de Tchebychef de première espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.5 Polynômes de Tchebychef de seconde espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.4 Resumé 116
4.5 Exercises 117

5 FONCTIONS DE GREEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121


5.1 Delta de Dirac 122
5.2 Propriétés de la fonction de Green 124
5.3 Calcul de la fonction de Green I : la méthode d’intégration directe 126
5.3.1 Ondes stationnaires électromagnétiques en 1D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.3.2 Loi du mouvement de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.4 Causalité 132
5.5 Calcul de la fonction de Green II : la méthode de la transformée de Fourier 134
5.5.1 Équation Schrödinger indépendante du temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.6 Exercises 136

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
1. ESPACES VECTORIELS

Dans cette première leçon, nous examinerons la structure et les propriétés des espaces vectoriels.
Nous verrons que l’espace vectoriel est une construction abstraite qui permet d’unifier un ensemble
apparemment distinct d’objets. Nous reconnaîtrons que des classes disparates d’éléments tels que
la classe des matrices, la classe des fonctions continues, la classe des vecteurs géométriques de
l’espace et bien d’autres partagent la même propriétée sous-jacente : les elements de ces classes
satisfont à une liste commune d’axiomes et ils ont donc le droit d’être appelées habitants d’un
même type d’espace, l’espace vectoriel. Nous verrons aussi que nous pouvons opérer avec des
opérations algébriques sur les éléments d’un espace vectoriel, nous pouvons les transformer dans
des nouveaux éléments et éventuellement comprendre quand deux espaces sont identiques en
forme et propriétés. On pourra éventuellement définir des opérations permettant de quantifier la
‘taille’ d’un élément d’un espace vectoriel, de trouver la distance entre deux éléments et en général
d’établir une métrique qui aide à saisir toutes les propriétés géométriques de l’espace.

1.1 Espaces vectoriels


On commencera notre etude en définissant ce que nous entendons par espace.
Definition 1.1.1 — Espace. Un espace est un ensemble S d’éléments appelés points.

Un ensemble est riens d’autre qu’une collection d’éléments distincts satisfaisants à des propriétés
données. Ces propriétés permettent de distinguer les éléments qui appartiennent ou non à l’ensemble.
Une structure minimale dont nous voudrions qu’un espace soit muni est un moyen d’établir des
relations entre des points appartenant à un ensemble et des points appartenant à un autre ensemble.
L’outil le plus évident que nous pouvons introduire pour atteindre cet objectif est le concept de
fonction. Une fonction est un moyen d’associer à chaque élément d’un espace (domaine) D un et
un seul élément d’un espace différent appelé codomaine T .
Definition 1.1.2 — Fonction. Une fonction φ : D → T entre deux ensembles D et T , appelés
respectivement domaine et codomaine, est une loi qui associe, de manière unique, à chaque
point du domaine, quelques points du codomaine T . Nous appelons image le sous-ensemble de
6 Chapitre 1. ESPACES VECTORIELS

points du codomaine qui sont associés aux éléments du domaine.


Si chaque point du codaimaine T est connecté par φ a au plus un point du domaine, la fonction
est injective (one-to-one en anglais). Si chaque point de T est connecté à au moins un point du
domaine la fonction est surjective (onto en anglais). S’il y a donc des points du codomaine laissés
sans connexion, alors la fonction n’est pas surjective, et si un point du codomaine est l’image de
plus de un élément du domaine, la fonction n’est pas injective. Si une fonction est à la fois injective
et surjective, on dit qu’elle est bijective.
Un espace muni d’une opération binaire entre ses élément s’appelle une algèbre. Parmis les
algèbres remarquables on notera les groupes.
Definition 1.1.3 Un groupe (G, ∗) est un ensemble G muni d’une opération binaire qui combine
deux éléments a et b en G et qui satisfait aux axiomes suivants :
fermeture : ∀ a, b ∈ G a ∗ b ∈ G,
associativité : ∀ a, b, c ∈ G (a ∗ b) ∗ c = a ∗ (b ∗ c),
élément neutre : ∃ e | e ∗ a = a ∗ e = a,
élément inverse : ∀a ∈ G, ∃ a−1 ∈ G | a ∗ a−1 = a−1 ∗ a = e.
Si, en plus, l’axiome de commutativité est aussi satisfait (∀a, b ∈ G, a ∗ b = b ∗ a), alors le groupe
est appelé abélien.

Il est intéressant de noter que des structures plus riches peuvent être définies en introduisant des
opérations multiples entre les éléments d’un espace. Par exemple, les anneaux et les champs sont
des examples de structures algébriques plus complexes que les groupes. Notamment, un champ
(S, +, ·) est un ensemble S muni de deux opérations, appelées addition et multiplication, ayant la
structure de groupe abélien sous addition et multiplication, et tel que l’opération ‘·’ est distributive
sur l’opération ‘+’. Les éléments d’un champ sont appelés scalaires. L’ensemble des nombres réels
a la structure algébrique d’un champ. Encore plus riches en propriétés sont les espaces vectoriels,
pour lesquels de multiples opérations peuvent être aussi définies.
Definition 1.1.4 — Espace vectoriel (ou linéaire). Un espace vectoriel V sur un champ K est
un quadruplet (V, K, ⊕, ) comprenant un espace V, le champ K et deux opérations
v-somme ⊕ : V × V → V
s-multiplication : K × V → V
satisfaisant aux huit axiomes suivants
C ⊕ Commutatif : v ⊕ w = w ⊕ v
A⊕ Associatif : (u ⊕ v) ⊕ w = u ⊕ (v ⊕ w)
N ⊕ Élément neutre ⊕ : ∃ e | e ⊕ v = v
I ⊕ Élément inverse : ∀ v ∈ V ∃ −v | v ⊕ (−v) = e
A Associatif : (λµ) v = λ(µ v)
D Distributif p/r aux scalaires : (λ + µ) v = λ v ⊕ µ v
D Distributive p/r aux vecteurs : λ (v ⊕ w) = λ v ⊕ λ w
N Élément neutre : ∀ v ∈ V ∃ 1 ∈ K | 1 v = v

Les éléments de V sont appelés vecteurs, puisque leurs propriétés sont analogues à celles
satisfaites par les vecteurs géométriques (segments orientés) de l’espace R3 . Nous les indiquerons
en caractère gras. Par exemple v est un élément d’un espace vectoriel. Notons aussi que si K est le
champ des nombres réels ou complexes, nous dirons simplement espace vectoriel réel ou espace
vectoriel complexe.
L’espace VN sur les réels R contenant des vecteurs géométriques, c-à-d tous les segments
orientés reliants les points de RN , muni de la v-somme définie via la règle du parallélogramme, et
la s-multiplication λ v qui défini un vecteur ayant la même direction de u si λ > 0, la direction
opposée si λ < 0, et la longueur zéro si λ = 0, est un espace vectoriel.
1.1 Espaces vectoriels 7

L’espace RN lui-même, dont les éléments sont les N-uplet ordonnés de nombres réel est un
espace vectoriel sur R. La v-somme ⊕ de deux éléments de RN , u et v, est définie comme suit
(u1 , u2 , ...., uN ) ⊕ (u1 , u2 , ...., uN ) = (u1 + v1 , u2 + v2 , ...., uN + vN ) tandis que la s-multiplication pour un
scalaire λ ∈ R est définie comme suit : λ (u1 , u2 , ....uN ) = (λ u1 , λ u2 , ...., λ uN ).
L’ensemble Mm,n des matrices avec m lignes et n colonnes dont les elements appartiennent à
K, avec l’opération de v-somme définie comme (A ⊕ B)i j = Ai j + Bi j ainsi que la s-multiplication
définie comme (c A)i j = cAi j est un espace vectoriel sur K.
L’espace FR des fonctions réelles f : D → R transformants le point p ∈ D dans le nombre
réel f (p), avec la v-somme définie comme ( f ⊕ g)(p) = f (p) + g(p) et la s-multiplication définie
comme (λ f )(p) = λ f (p) est un espace vectoriel. Les ensembles de fonctions continues, fonctions
dérivables, fonctions intégrables sont aussi des exemples d’espaces vectoriels. L’espace linéaire et
l’espaces dual, qu’on va bientôt introduire, sont des espaces vectoriels moins évidents, mais tout
aussi importants.

1.1.1 Espaces vectoriels linéaires


Alors qu’une transformation peut être établie entre les éléments de deux espaces quelconques,
la notion plus raffinée de transformation linéaire (ou opérateur linéaire) ne peut être établie qu’entre
les espaces vectoriels.
Definition 1.1.5 — Transformation linéaire. Étant donnés deux espaces vectoriels (U, K, ⊕, )

et (V, K, , ), une application H[..] : U − → V qui agit sur un élément u ∈ U et retourne
l’élément v = H[u], qui appartient à V est linéaire si
— H[u ⊕ v] = H[u]  H[v]
— H[λ u] = λ H[u]

Considérons deux applications linéaires H et K de l’espace vectoriel V à l’espace vectoriel W


et définissons la v−somme ⊕ des applications linéaires et la s−multiplicationb d’une application
linéaire par un scalaire comme (H ⊕ K)[v] = H[v] + K[v] et (λ H)[v] = λH[v] respectivement,
pour tous les vecteurs v de V et pour tous les scalaire λ appartenants aux champ K.
On peut facilement montrer que les applications linéaires sont elles-mêmes des éléments d’un
espace vectoriel, c’est-à-dire des vecteurs.
Definition 1.1.6 — Espace vectoriel linéaire. L’ensemble de toutes les transformations linéaires
i=0 d’un espace vectoriel U à un espace vectoriel V est un nouvel espace vectoriel H̃ =
{Hi }∞

{Hi : U − → V} appelé espace vectoriel linéaire. Ses éléments ont la propriété de transformer les
vecteurs en d’autres vecteurs.

Par conséquent, si nous avons deux espaces vectoriels, nous pouvons toujours en construire un
nouveau, l’ensemble de toutes les opérateurs linéaires entre ces deux espaces vectoriels.
Une transformation linéaire entre deux espaces vectoriels est un exemple d’homomorphisme,
c.-à-d. d’une opération qui préserve la structure algébrique des deux espaces.
Definition 1.1.7 — Homomorphisme. Une transformation f : A → B entre l’espace A, muni
de l’opération binaire ∗, et l’espace B, muni de l’opération binaire ?, est un homomorphisms si
f (a ∗ b) = f (a) ? f (b).

Par exemple, puisque am+n = am an pour tous les entiers m et n, la fonction f : Z → R, où f (n) ≡ an ,
satisfait f (m + n) = f (m) f (n). Par conséquent, f est un homomorphisme de l’ensemble additif Z à
l’ensemble multiplicatif R.

Considérons la transformation linéaire H : V − → W. Si V = W, alors H est appelée endomor-
phisme. Si H est bijective, on l’appelera isomorphisme.
8 Chapitre 1. ESPACES VECTORIELS

Le noyau (ker) d’une transformation linéaire est la structure mathématique qui quantifie si
l’application est injective.
Definition 1.1.8 — Kernel. Soient U et V des espaces vectoriels sur le champ K et soit H une
transformation linéaire de U à V. Le noyau de H, ker H, est l’ensemble de tous les vecteurs u
en U pour lesquels H[u] = 0V , où 0V est le vecteur nul en V.


Theorem 1.1.1 Une transformation linéaire H[...] : U −
→ V est injective si et seulement si
kerH = {0U }, où 0U est le vecteur nul en U.

Proof Nous démontrons d’abord que deux vecteurs u et v de U n’ont la même image que s’ils
appartiennent au ker, c’est-à-dire u − v ∈ ker H. En effet, si H[u] = H[v] alors H[u − v] = 0,
ainsi u − v ∈ ker H. Inversement, si u − v ∈ ker H alors H[u] = H[v]. La transformation est
injective si et seulement si u = v. Donc ker H = {0U }.

Si une transformation H est surjective alors son image est égale au codomaine. Les théorèmes
suivants aident à déterminer si une application est injective ou surjective.

Theorem 1.1.2 — Le théorème Image-ker. Etant donnée la transformation lineaire H : V −
→W
entre deux espaces vectoriels à dimensions finies, la dimension (Dim) de l’image plus celle du
noyau est égale à celle du domaine :

Dim(V) = Dim(ker H) + Dim(Im H)

1.1.2 Espace dual


Un ensemble spécial d’opérateurs linéaires est celui composé des transformations linéaires
où le codomaine est l’espace vectoriel R. Dans ce cas, au lieu de parler d’opérateurs linéaires, on
utilise plutôt le terme fonctionnels linéaires. Ceux-ci sont donc des opérateurs qui agissent sur un
vecteur et renvoient un scalaire.
Puisque les fonctionnels linéaires sont une classe spécifique de transformations linéaires, ils
sont eux-mêmes des éléments d’un espace vectoriel.
Definition 1.1.9 — Espace dual. L’ensemble de toutes les transformations linéaires d’un espace
vectoriel V à l’espace vectoriel des nombres réels R est un nouvel espace vectoriel V ∗ (V, R) =
{F[...] : V→R}
e appelé espace dual associée à V. Ses éléments F[...] sont appelés fonctionnels
linéaires et leur action est représentée comme suit F[u] = λ où u ∈ V et λ ∈ R.

Malgré leur nom, les fonctions linéaires sont des vecteurs, c’est-à-dire des éléments d’un espace
vectoriel ! Ils sont donc souvent appelés vecteurs duals.

Exercise 1.1 Considérons l’intégrale définie, c’est-à-dire la transformation F[...] : I → R


agissant sur les fonctions intégrables p(x) ∈ I dans l’intervalle [a, b] comme suit
Z b
F[p] ≡ dxp(x). (1.1)
a

Montrer qu’il s’agit d’un fonctionnel linéaire et qu’il satisfait aux axiomes de l’espace vectoriel.


1.1.3 Espace vectoriel normé


Si nous rajoutons plus de structure à l’espace vectoriel, nous pouvons essayer de donner un sens
à la notion de ‘taille’ des éléments d’un espace vectoriel. Comme pour les vecteurs géométriques, qui
1.1 Espaces vectoriels 9

sont dotés de longueur, nous voulons pouvoir associer une ‘taille’ aussi à des vecteurs plus abstraits
telles que les elements d’un espace vectoriel. À cette fin, nous définissons une nouvelle structure
mathématique, appelée norme et indiquée par ||...||, qui agit sur les éléments d’un espace vectoriel
et qui mesure la ‘taille’ de l’élément en lui assignant un nombre strictement positif. Cette grandeur
mathématique est définie de façon abstraite par le biais des trois axiomes suivants.
Definition 1.1.10 — Norme d’un vecteur. Étant donné un espace vectoriel (V, K, ⊕, ), une
norme ||...|| est une application ||...|| : V → [0, +∞) avec les propriétés suivantes :
Positivité : ∀ v ∈ V ||v|| ≥ 0 et ||v|| = 0 si et seulement si v = 0
Inégalité triangulaire : ∀ u, v ∈ V ||u + v|| ≤ ||u|| + ||v||
Homogénéité linéaire : ∀λ ∈ K ||λ v|| = |λ|||v||.

Les espaces vectoriels pour lesquels nous pouvons définir une norme sont appelés espaces vectoriels
normés. Il y a clairement plus d’une façon de mesurer la ‘taille’ d’un vecteur, selon le contexte
spécifique, cependant toute l’opération que l’on peut définir doit satisfaire aux propriétés susmen-
tionnées. Par exemple, on peut vérifier que la norme d’un vecteur géométrique, définie comme

||u|| = u · u (où le symbol · indique le produit scalaire entre vecteurs géométriques, définie comme
u · v ≡ uv cos θ où u et v sont les longueurs des segments orientés de l’espace et θ l’angle entre eux)
vérifie les axiomes de la norme, et donc l’espace VN des vecteurs géométriques est aussi un espace
vectoriel normé.
Exercise 1.2 Soient a et b deux vecteurs arbitraires d’un espace vectoriel réel. Est-ce que la
norme ||a|| est un fonctionnel ? est-ce une application linéaire ? Est-ce un élément d’un espace
vectoriel ? 

La distance est une fonction d qui associe à une paire d’éléments p et q d’un espace S un
nombre réel d(p, q) et qui vérifie les trois axiomes suivants
— d(p, q) ≥ 0 et d(p, q) = 0 si et seulement si p = q
— d(p, q) = d(q, p) pour tout p, q ∈ S.
— d(p, q) ≤ d(p, r) + d(r, q) pour tout p, q, r ∈ S.
Definition 1.1.11 — Espace métrique. Un espace métrique est un ensemble au sein duquel une
notion de distance entre les éléments de l’ensemble est définie.
Dans un espace vectoriel normé, on peut toujours définir la distance entre deux vecteurs comme
suit
d(a, b) ≡ ||b − a||. (1.2)
Il est trivial de vérifier que cette fonction satisfait les propriétés axiomatiques d’une distance. Nous
concluons donc qu’un espace normé est aussi un espace métrique.

1.1.4 Espaces Euclidiens ou Hernitiens


Les espaces vectoriels nous fournissent des notions telles que les sommes et les combinaisons
linéaires de vecteurs, les espaces vectoriels normés nous ont permis de parler de la ‘taille’ d’un
vecteur mais, l’on fait une analogie avec l’espace des vecteurs géométriques, on ne peut pas encore
exprimer la notion d’orthogonalité entre vecteurs. Nous avons besoin d’une structure algébrique
supplémentaire, si nous voulons formaliser cette notion. Cette nouvelle algèbre est appelée forme
sesquilinéaire (en anglais, inner product). C’est une opération abstraite qui nous permet d’associer
à n’importe quelle paire d’éléments d’un espace vectoriel V un nombre réel (ou complexe).
En effet, tout comme dans le calcul nous pouvons définir des fonctions multivariées, c’est-à-
dire des fonctions de plus d’une variable, nous pouvons définir des fonctionnels qui agissent sur
plusieurs vecteurs et renvoient un seul scalaire. Une forme sesquilinéaire est un exemple de ces
fonctionnels.
10 Chapitre 1. ESPACES VECTORIELS

Definition 1.1.12 — Espace muni d’une forme sesquilinéaire. Considérons l’espace vectoriel
(V, K, ⊕, ). Une forme sesquilinéaire sur K est une application (..., ...) : V × V → K qui est
— Symétrique par conjugaison : ∀u, v ∈ V, (v, u) = (u, v)
— Linéaire dans le deuxième argument : ∀µ, ν ∈ K, (v, λ u1 ⊕ µ u2 ) = λ(v, u1 ) + µ(v, u2 )
— Définie positive : ∀ v ∈ V, (v, v) ≥ 0 et (v, v) = 0 si et seulement si v = 0.
Un espace vectoriel équipé d’une forme sesquilinéaire sur K est appelé espace pré-Hilbertien.

Le symbole ā indique la conjugaison complexe du nombre a. La propriété de symétrie par conju-


gaison 1 impose que (u, u) ∈ R. Si le champ K est l’ensemble des reèls (la forme sesquilinéaire
est en ce cas appelé produit Euclidien) on peut oublier la conjugaison et le premier axiome
exprime simplement la commutativité du produit Euclidien. Si, par contre, K = C, la forme ses-
quilinéaire est appelée produit Hermitien. La linéarité dans le deuxième argument, impose que
(λ v1 ⊕ µ v2 , u) = λ̄(v1 , u) + µ̄(v2 , u). Enfin, le troisième axiome (forme définie positive) garantit,
entre autres, que l’espace vectoriel est non dégénéré (voir exercice 1.6).
Un espace muni d’une forme sesquilinéaire présente diverses propriétés attrayantes. Tout
d’abord, nous allons montrer qu’un tel est toujours √ un espace normé. En fait, on peut toujours
définir la norme d’un vecteur comme ||v|| ≡ (v, v). On peut en effet vérifier qu’une telle défini-
tion satisfait aux axiomes 1.1.10. Mais, contrairement aux espaces métriques généraux, dans un
espace muni d’une forme sesquilinéaire, on peut toujours définir la notion d’orthogonalité entre
vecteurs.
Definition 1.1.13 Orthogonalité entre vecteurs Deux vecteurs éléments u et v d’un espace
vectoriel sont orthogonaux si

(u, v) = 0. (1.3)

Nous mentionnons également que les éléments d’un tel espace satisfont l’inégalité de Cauchy-
Schwarz-Bunyakovsky .

|(u, v)| ≤ ||u||||v|| (1.4)

C’est considéré comme l’une des inégalités les plus importantes dans l’ensemble des mathématiques,
alors j’en esquisse une preuve. Les cas v = 0 et v perpendiculaires à u est trivial, donc supposons
que le contraire soit vrai. For all λ ∈ R,

0 < (u + λv, u + λv) = λ2 ||v||2 + 2λ(u, v) + ||u||2 .

Puisque le polynôme quadratique de λ ci-dessus n’a pas de zéros, le discriminant ∆ doit être négatif
∆ = 4λ2 (u, v)2 − 4λ2 ||u||2 ||v||2 < 0. On obtient donc que |(u, v)| ≤ ||u||||v||.

Exercise 1.3 Soient a et b deux vecteurs géomé́triqués de V3 . Est-ce que la norme ||a|| est une
application linéaire ? Sinon, la quantité ||a + b|| est plus grande ou plus petite que ||a|| + ||b|| ? 

Definition 1.1.14 — Espaces euclidiens. Un espace euclidien est un espace vectoriel réel E
doté d’une forme sesquilinéaire.

Comme exemple d’espace euclidien on peut considèrer l’ensemble V3 sur R contenant tous
les segments orientés joignant les points de R3 , c’est-à-dire les vecteurs géométriques. On peut
facilement vérifier que l’application (...., ....) : V3 × V3 → R définie comme (u, v) ≡ uv cos θ où u
et v sont les longueurs des segments orientés de l’espace et θ l’angle entre eux, satisfait toutes les
1. Il y a deux conventions pour la linéarité de la forme sesquilinéaire. Dans la plupart de la littérature mathématique,
(..., ...) est linéaire dans le premier argument. Nous adoptons la convention selon laquelle la forme est linéaire dans le
deuxième argument ce qui est plus courant en mathématiques appliquées et en physique.
1.1 Espaces vectoriels 11

propriétés d’une forme sesquilinéaire. Ce spécifique produit Euclidien est appelé produit scalaire
entre vecteurs géométriques et il est indiqué comme (u, v) = u · v. L’espace, V3 avec le produit
scalaire est donc un example d’espace euclidien.

Exercise 1.4 Considérons l’espace vectoriel réel R2 ainsi que la la forme qui associe à chaque
vecteur x = {x1 , x2 } et y = {y1 , y2 } de R2 le nombre réel

(x, y) = 4x1 y1 + x1 y2 + x2 y1 + 2x2 y2 (1.5)

Vérifiez qu’un tel espace, avec cette forme est un espace euclidien.
Solution On doit verifier si la forme (1.5) est une forme sesquilinéaire. La première propriete
1.1.12 est satisfaite. En effet

(x, y) = 4x1 y1 + x1 y2 + x2 y1 + 2x2 y2 = 4y1 x1 + y2 x1 + y1 x2 + 2y2 x2


= 4y1 x1 + y1 x2 + y2 x1 + 2y2 x2 = (y, x)

En utilisant des manipulations algb́riques similaires, on peut verifier que la forme est linéaire
dans le deuxième argument. La forme est aussi définie positive. En fait

(x, x) = 4x12 + 2x1 x2 + 2x22

où le deuxième membre est un polynôme homogène du deuxième degree avec discriminant


négatif (∆ = (2x1 x2 )2 − 32x12 x22 < 0). N’ayant pas de zeros réels (si x1 , 0 et x2 , 0) et puisque le
terme 4x12 est positif, on déduit que ce polynôme est toujours positif, donc (x, x) > 0. Seulement
si x1 = x2 = 0 on a (x, x) = 0. L’espace considéré est donc euclidien. 

Exercise 1.5 Considérons l’espace vectoriel réel C[a, b] des fonctions continues dans l’interval
[a, b] ayants valeurs réels. Considérons la forme
Z b
( f, g) = f (x)g(x)dx (1.6)
a

qui associé à chaque fonction f (x) et g(x) de C[a, b] un nombre reél. Cette espace est il euclidien ?
Solution La forme (1.6) est bien une forme sesquilinéaire. En fait, en utilisant les propriétés
des intégrales on peut facilement verifier que les conditions 1.1.12 sont satisfaites. Notez que
l’hypothèse de continuité est essentielle afin de garantir que l’unique fonction f telle que
Z b
( f, f ) = f 2 (x)dx = 0
a

est la fonction identiquement nulle en [a, b], c.-à-d. le vecteur nul de C[a, b]. Cet espace est un
exemple d’espace euclidien ayant une dimension infinie. 

D’autres espaces intéressants peuvent être construits à partir de l’algèbre des formes sesquili-
néaires. Par exemple
Definition 1.1.15 — Espaces hermitiens. Un espace hermitien est un espace vectoriel complexe
V muni d’une forme sesquilinéaire.

Dans ce qui suit, nous considérerons toujours les espaces vectoriels euclidiens, à moins que nous
n’énoncions explicitement le contraire.
12 Chapitre 1. ESPACES VECTORIELS

Exercise 1.6 La condition de non-dégénérescence spécifique qu’il existe un élément unique,


le vecteur zéro de V, qui, une fois mis entre parenthèses dans une forme sesquilinéaire avec
tout autre vecteur de V, renvoie la valeur zéro. En d’autres termes, pour tous les u ∈ V on a
(v, u) = 0 si et seulement si u = 0. Démontrer ces propriétés à l’aide des axiomes des formes
sesquilinéaires 

Comme nous le verrons maintenant, cette condition permet d’établir un isomorphisme entre les
formes sesquilinéaires et les fonctions linéaires, concept que nous allons formaliser dans la section
suivante.

1.2 Représentation des vecteurs et opérateurs dans une base


Les vecteurs sont complètement spécifiés comme étant les éléments pour lesquels on peut
définir des lois de v−somme et des−multiplication répondant aux huit axiomes de la définition
1.1.4. Il s’agit donc de quantités absolues sans dépendance ni relation avec d’autres éléments de
l’espace vectoriel. Il est néanmoins très utile, au moins pour des raisons pratiques de calcul, de les
décomposer sur une base donnée, c’est-à-dire de les exprimer comme combinaisons linéaires de
vecteurs spéciaux appelés vecteurs de base.
Definition 1.2.1 — Bases d’un espace vectoriel. Soit V un espace vectoriel sur un champ K.
N
Une base d’un espace vectoriel est un ensemble de N vecteurs linéairement indépendants {bi }i=1
tel que que tout élément v ∈ V de l’espace vectoriel est exprimable de la manière suivante

v = v1 b1 + v2 b2 + ....... + vN bN . (1.7)

où v1 , v2 .......vN sont appelés composants des vecteurs dans la base donnée.

R Étant donné un vecteur v ∈ V, la convention la plus adoptée est celle d’indiquer ses composants
avec un indice haut (en caractère normal) (c.-à-d. ui ), alors que les vecteurs de la base de V
sont indiqués en caractère gras avec un indice bas (gras) (bi ). Notez que les indices en gras de
la base n’indiquent pas une composante, mais plutôt les vecteurs individuels de la base.

Bien que le choix de la base soit arbitraire, toutes les bases possibles sont composées du même
nombre N de vecteurs, N étant défini comme la dimension de l’espace vectoriel. On peut donc
associer un vecteur v de façon unique au N-uplet (v1 , v2 , ...., vN ) ∈ KN . Nous disons que V est
isomorphe à l’espace vectoriel KN et parlons indifféremment de v et (v1 , v2 , ...., vN ) ∈ KN comme
étant le même objet. La décomposition en combinaison linéaire sur une base est un choix de
commodité motivé par l’objectif d’accélérer les calculs dans les applications pratiques. Le prix à
payer est que, de cette façon, le vecteur est représenté par des quantités ‘dépendantes de la base’ va ,
appelées composantes dans la base donnée b a . Il est donc important de souligner que le symbole v
est un objet invariant, indépendant de la base spécifique dans laquelle il est représenté, bien que ses
composants en dépendent.
Nous pouvons exprimer le vecteur sous la forme d’une combinaison linéaire d’une base en
introduisant la convention de sommation d’Einstein. Au lieu d’utiliser la notation assez encombrante

N
X
v= vi b i (1.8)
i=1
on écrira simplement
v = vi b i (1.9)
1.2 Représentation des vecteurs et opérateurs dans une base 13

Figure 1.1 – Les composantes du vecteur géométrique OP (flèche rouge) par rapport aux deux vecteurs de base
(flèches noires), définies selon la règle du parallélogramme, sont celles indiquées par les lignes pointillées vertes.

R Dans sa présentation de la théorie de la relativité, Einstein a introduit une notation basée sur
des indices qui est devenue largement utilisée en physique. Cette notation est presque univer-
sellement utilisée en relativité générale, elle est aussi extrêmement utile en électromagnétisme
et en physique des particules. Einstein trouvait fastidieux d’écrire de longues expressions avec
beaucoup de symboles de sommation, donc il a introduit une forme plus courte de la notation,
en appliquant les règles suivantes, qui ensemble constituent la convention de sommation de
Einstein : Règle 1 : les indices répétés, doublés, apparaissant une fois en haut et une fois en
bas d’un côté d’une équation sont automatiquement additionnés, à moins que ces indices appa-
raissent, non appariés, de l’autre côté de l’égalité. Ainsi, S = Ai Bi ≡ A1 B1 + A2 B2 + ... + AN BN .
Il n’y a pas de somme implicite, au contraire, lorsque les indices apparaissent tous les deux
en bas, comme dans les quantités S = Ai Bi , ou en haut S = Ai Bi ou l’indice répété apparaît,
non apparié, de l’autre côté de l’équation, comme dans l’expression S i = BiC i . Les indices
qui sont additionnés sont appelés indices muets. Comme les variables d’intégration dans une
intégrale définie, les noms des indices fictifs sont arbitraires. Ainsi, Ai B i = A j B j , mais nous
ne pouvons pas changer l’indice k en Ak = Bk,k C k , car dans cette expression, il n’y a aucune
somme qui est implicitement supposée.
Règle 2 : pour assurer la cohérence de la notation, les indices bas/haut apparaissant au
dénominateur d’une fraction sont considérés comme des indices haut/bas. Par exemple, la
quantité ∂x∂ i a un indice supérieur au dénominateur, qui compte donc comme un indice bas.
On utilisera donc la notation ∂x∂ i ≡ ∂i . Par exemple, le différentiel d’une fonction f (x, y, z...)
∂f ,i
peut être simplement écrit d f = ∂x i dx = ∂i f dx .
i

Prenons l’exemple de la matrice


 
 u1 u2 u3 
A =  v1 v2 v3  (1.10)
 
w1 w2 w3
 

et introduisons le symbole ab , appelé le symbole de Levi-Civita , c.-à-d. une collection


totalement antisymétrique de nombres. Son valeur est 1 si la sequence (a, b) est une permu-
tation paire de (1, 2), −1 si c’est une permutation impaire, et 0 si un indice est répété. Sa
généralisation évidente est la suivante ab....n dont la valeur est 1 si la séquence a, b, c, ......, n
est une permutation paire de 1, 2, 3...N, −1 si c’est une permutation impaire, et 0 si un indice
est répété. Maintenant c’est à vous de vérifier que le déterminant de la matrice A est donné
sous une forme simple et compacte par |A| =  abc ua vb wc .

Exercise 1.7 Le but de cet exercice est de se familiariser avec la notation de Einstein. Calculez
la valeur de a) δi j δik et b) δi j δi j , où i, j, k sont des indices assumants les valeurs 1, 2, 3....N.
14 Chapitre 1. ESPACES VECTORIELS

Solution. a) En développant les calculs on obtient

δi j δik = δ1 j δ1k + δ2 j δ2k + ..... + δN j δNk .

Tout d’abord on notera que δi j δik = Akj puisque i est un indice de somme donc un indice muet. Il
nous faut donc trouver la valeur des coefficients Akj . Le delta de Kronecker représente la matrice
identité donc une matrice symétrique. Par consequent δi j = δ ji . On peut donc écrire

Akj = δi j δik = δ ji δik

où le troisième membre est un produit matriciel entre deux matrices identité. On a donc que
Akj = δkj . b) En développant les calculs on obtient

δi j δi j = δ11 δ11 + δ12 δ12 + ..... + δ1N δ1N


= δ21 δ21 + δ22 δ22 + ..... + δ2N δ2N
= δ31 δ31 + δ32 δ32 + ..... + δ3N δ3N
= ....
= δN1 δN1 + δN2 δN2 + ..... + δNN δNN

Seulement les deltas avec des indices identiques sont différentes de zero. Ces termes étant en
nombre de N, on déduit que δi j δi j = N Une autre façon de procéder est la suivante. On exploite
j
le résultat a) (δi j δik = δkj ) et on déduit que δi j δi j = δ j = δ11 + δ22 + .... + δNN = N. 

Exercise 1.8 Ecrire explicitement la somme implicite suivante δi j ui v j avec i, j ∈ {1, 2}. Quel
type d’opération mathématique entre vecteur géomé́triqués cette expression représente-t-elle ?
On a

δi j ui v j = δ11 u1 v1 + δ12 u1 v2 + δ22 u2 v2 + δ21 u2 v1 = u1 v1 + u2 v2

Si on considère les vecteur géométriques u et v avec composantes (u1 , u2 ) et (u1 , u2 ) par rapport
à une base bi on à que leur produit scalaire

u · v = (u1 b1 + u2 b2 ) · (v1 b1 + v2 b2 )
= u1 v1 b1 · b1 + u1 v2 b1 · b2 + u2 v1 b2 · b1 + u2 v2 b2 · b2

Si on fait l’hypothèse que la base est orthonormale (les vecteurs sont unitaires et orthogonales
entre eux) on déduit

u · v = u1 v1 + u2 v2

Le produit scalaire entre deux vecteurs géométriques peut être simplement écrit en termes des
composantes (par rapport à une base orthonormale) comme

u · v = δi j ui v j


1.2 Représentation des vecteurs et opérateurs dans une base 15

Exercise 1.9 Ecrivez explicitement la somme implicite suivante i j ui v j avec i, j ∈ {1, 2}. Quel
type d’opération mathématique entre vecteurs cette expression représente-t-elle ?
Solution. On a

i j ui v j = 11 u1 v1 + 12 u1 v2 + 22 u2 v2 + 21 u2 v1 = u1 v2 − u2 v1

Si on considère les vecteur géométriques u et v avec composantes (u1 , u2 ) et (u1 , u2 ) par rapport
à une base bi on à que leur produit vectoriel

u × v = (u1 b1 + u2 b2 ) × (v1 b1 + v2 b2 )
= u1 v1 b1 × b1 + u1 v2 b1 × b2 + u2 v1 b2 × b1 + u2 v2 b2 × b2

Si on fait l’hypothèse que la base est orthonormale, on déduit

u × v = u1 v2 b3 − u2 v1 b3

où b3 est un vecteur unitaire perpendiculaire aux vecteurs b1 et b2 (dont la direction est obtenue
avec la règle de la main droite.) On déduit que la norme du produit vectoriel entre deux vecteurs
géométriques bi-dimensionnels peut être simplement éxprimée en termes des composantes (par
rapport à une base orthonormale) comme

||u × v|| = i j ui v j

Supposons qu’un vecteur v ∈ V soit donné, et que V ait une dimension finie N. Nous voulons
N de V. Comment peut-on les
connaître la valeur de ses N composants vi par rapport à la base {bi }i=1
estimer ?
Nous pouvons aborder cette question en utilisant, par exemple, une approche géométrique. La
décomposition (1.9) n’est rien de plus qu’une façon sophistiquée d’exprimer la bonne vieille règle
du parallélogramme ! Et en effet vi , en plus d’être appelés coefficients de combinaison linéaires,
sont également identifiés comme étant les composantes parallèles du vecteur obtenu par la règle du
parallélogramme (voir Fig. 1.1) On peut donc se baser sur des raisonnements géométriques afin de
déduire la valeur de ces composantes, qui, nous le soulignons, ne représentent pas la projection
orthogonale du vecteur sur la base.
Pour trouver la valeur numérique des composantes vectorielles, il est cependant beaucoup
plus pratique de suivre une approche algébrique abstraite. Nous définissons un fonctionnel, appelé
évaluateur des composantes bi [...], appartenant à l’espace dual V∗ associé à V, et imposons,
par définition, que les composantes du vecteur v par rapport au vecteur bi de la base de V sont
retournées par l’action de ce fonctionnel sur le vecteur v, c.-à-d.

vi ≡ bi [v]. (1.11)

Il reste à préciser quelle est la règle opérationnelle avec laquelle le fonctionnel, une fois appliqué
aux vecteurs, permet d’évaluer leurs composantes. Néanmoins, nous pouvons avoir un aperçu des
propriétés de cette fonction abstraite, même si, à ce stade, nous ne savons pas encore comment la
calculer.
N de l’espace vectoriel V
Theorem 1.2.1 — Principe de dualité. Considérons une base {bi }i=1
ainsi que l’évaluateur des composantes b i [...] ∈ V∗ . Le fonctionnel bi [...], agit sur la base de
16 Chapitre 1. ESPACES VECTORIELS

l’espace vectoriel V comme suit

bi [b j ] = δi j . (1.12)

Proof A partir de la définition de l’évaluateur des composantes, nous obtenons


vi ≡ bi [v] = bi [v j b j ] = v j bi [b j ]

où le dernier terme découle de la linéarité du fonctionnel bi [...]. Ainsi, le premier et le dernier


terme ne coïncident que si (1.12) est valable.

Theorem 1.2.2 — Base de l’espace dual. L’ensemble des évaluateurs des composantes bi [...] ∈
V∗ forment une base de V∗ , appelée base de l’espace dual. En outre, V∗ a les mêmes dimensions
de V.

Proof Que l’ensemble des évaluateurs des composantes vectorielles forme une base est montré
comme suit. Considérons un fonctionnel linéaire générique v[...] agissant sur les vecteurs u
de V
v[u] = v[ui bi ] = ui v[bi ] = v[bi ]bi [u] = vi bi [u]
où nous avons défini
vi ≡ v[bi ]

Puisque cet expression précédente doit être valable pour chaque vecteur u on en déduit que

v[...] = vi bi [...]
c.-à-d. que nous pouvons exprimer la fonction linéaire v[...] comme une combinaison linéaire
des bi [...]. Ainsi, l’ensemble des évaluateurs des composantes couvre l’espace vectoriel V∗ .
Afin de prouver que cet ensemble est composé de vecteurs linéairement indépendants, nous
considérons la combinaison linéaire suivante
ci bi [...] = 0V ∗ .
La seule combinaison linéaire qui donne le vecteur nul est celle dont les coefficients sont
égaux à zéro. Pour le voir, il suffit d’appliquer la relation précédente à l’un des vecteurs de
base bi .
On remarque que ce théorème ne s’applique qu’aux espaces vectoriels finis ! Pour les espaces
à dimensions infinies V, l’espace dual V∗ peut être ‘plus grand’ ou ‘plus petit’ que V. Les
espaces à dimensions infinies sont subtils, et il ne faut pas penser qu’il s’agit simplement
d’éspaces avec un nombre infini de vecteurs de base.

Formellement, on peut ainsi décomposer n’importe quelle fonctionnel linéaire comme

v[...] = vi bi [...]. (1.13)

vi ≡ v[bi ] (1.14)

sont définis comme les composantes du vecteur dual v[...] ∈ V∗ par rapport à la base bi [...] de
l’espace dual V∗ . La convention est donc la suivante : les indices hauts sur des vecteurs indiquent
que le vecteur est un élément de l’espace dual. Les indices bas sur les composantes indiquent que la
composante est pris par rapport à une base de l’espace dual. Vous pouvez comparer cette définition
avec eq. (1.11) qui exprime les composantes vi d’un vecteur v ∈ V par rapport à la base bi de V.
1.2 Représentation des vecteurs et opérateurs dans une base 17

1.2.1 Le théorème de Riesz-Fréchet


Si à ce stade vous êtes un peu perdu dans cette pléthore d’applications linéaires que l’on peut
établir entre espaces vectoriels, vous apprécierez certainement le fait que on peut parfois identifier
des applications linéaires, apparemment différentes, comme étant en fait isomorphiques, c’est-à-dire
comme ayant effectivement la même structure algébrique Le théorème suivant fait le travail, et, en
outre, nous fournir un moyen pratique d’évaluer les fonctionnels linéaires.

Theorem 1.2.3 — Le théorème de Riesz-Fréchet. Si l’espace vectoriel V est de dimension finie


et doté d’une forme sesquilinéaire, alors pour n’importe quel fonctionnel linéaire v[...] ∈ V∗ , il y
a toujours un unique élément v ∈ V tel que

v[w] = (v, w) ∀w ∈ V. (1.15)


Proof Considérons l’operateur linéaire H : V → V . Nous devons montrer qu’il s’agit d’un isomor-
phisme, c.-à-d. que v 7→ v[...] est une application bijective sous la condition (1.15). La condi-
tion de non-dégénérescence d’une forme sesquilinéqire impose que si (v, w) = 0 pour chaque
w , 0V alors v = 0V . Par conséquent, v[w] = 0 implique que kerH = 0v }, et que H : V → V∗
est une application injective. En outre on a que Dim(Im H) + Dim(ker H) = D(V). On en
déduit donc que Dim(Im H) = Dim(V) et, puisque les espaces vectoriels V et V∗ ont les
mêmes dimensions, nous concluons que D(Im H) = D(V ∗ ), donc l’application H : V → V∗
est aussi surjective.

Le théorème de Riesz-Fréchet indique clairement que nous pouvons évaluer l’action d’une
fonction en utilisant les règles des formes sesquilinéaires. Une forme sesquilinéaire nous permet
donc d’établir un isomorphisme V → V ∗ c.-à-d. d’identifier un vecteur v[...] ∈ V∗ avec un élément
v ∈ V. Par exemple, les N vecteurs bi [...] ∈ V∗ peuvent être associés de façon unique à un ensemble
de N vecteurs bi ∈ V appelées base duale de V de manière que ces deux sets ne peuvent pas être
distinguées à l’aide d’opérations vectorielles : bien qu’ils vivent dans des espaces différents, ils
agissent de la même manière et produisent les mêmes effets.
À la lumière de ce résultat important, nous pouvons réinterpréter la signification de l’expression
v[...] = vi bi [...] comme équivalent à v = vi bi . Nous pouvons donc représenter formellement un
vecteur v ∈ V comme une combinaison linéaire des vecteurs bi de la base duale de V. L’adjectif
duale nous rappelle que les éléments de cette base sont associé, via la forme sesquilinéaire (bi , b j ) =
δi j , aux vecteurs de la base bi ∈ V. En comparant avec (1.9) on obtient

v = vi b i = v j b j . (1.16)

où vi et vi , étant des composantes du même vecteur par rapport à deux bases différentes du même
espace V, ont, en principe, des valeurs numériques différentes. L’entité intrinsèque (le vecteur v)
est la même, seule sa représentation est différente selon que ses composantes sont prises par rapport
à la base de V ou par rapport à la base duale associée (dont les éléments, notez le bien, sont encore
des élḿent de V).
Grâce au théorème de Riesz-Fréchet, les composantes d’un vecteur peuvent être évalués
efficacement à l’aide des relations suivantes

va ≡ b a [v] = (b a , v)
va ≡ v[b a ] = (v, b a ). (1.17)

Puisque une forme sesquilinéaire n’est pas en général commutative, il faut toujours préciser si
les composantes sont prises par rapport à la base de V ou à la base duale associée. Par exemple,
N ∈ V. Les composants des vecteurs v ∈ V par rapport a cette base sont
considérez la base {bi }i=1 i
18 Chapitre 1. ESPACES VECTORIELS

Figure 1.2 – Un bateau de masse m, tiré uniformément par deux câbles séparés par un angle 2θ, a une accélération a.
Quelle est la force exercée par chaque câble ? La direction de chaque câble est spécifiée par les vecteurs unitaires b1 et
b2 .

(vi ) j ≡ b j [vi ] = (b j , vi ), tandis que ses composantes par rapport à la base duale {bi }i=1
N ∈ V sont

(vi ) j ≡ vi [b j ] = (vi , b j ).

R Aucune signification spécifique n’est attribuée aux variables avec des indices hauts ou bas,
c.-à-d. Ai ≡ Ai , si l’indice est utilisé pour étiqueter un scalaire ou une coordonnée. Par exemple
ξ 1 est la même coordonnée que ξ1 ou δi j (le symbole de Kronecker, égal à l’unité si i = j et à
zéro si i , j) peut être indiqué comme δab , δba ou encore δab . Cependant, une attention toute
particulière doit être portée aux indices en hauts et en bas lorsque ils sont utilisés pour étiqueter
des composantes vectorielles. En effet, il faut distinguer entre les composantes vectorielles par
rapport aux vecteurs de base (identifiés par des indices en haut) et les composantes vectorielles
par rapport à la base duale (identifiés par des indices en bas). En général, la valeur de ces deux
composantes ne coïncide pas. Les indices en haut et en bas sont donc utilisés pour signaler
cette différence et distinguer entre ces deux types de composantes vectorielles. Les indices
des composantes vectorielles ne peuvent donc pas être relevés ou abaissés librement. Seuls
des opérateurs spéciaux peuvent transformer un composant en l’autre comme nous le verrons
dans la section 1.2.4.

Exercise 1.10 Un bateau de masse m (voir Figure 1.2) est tiré, uniformément, par deux câbles
séparés formant un angle 2θ. Son accélération est a, quelle est la force exercée par chaque
câble ? (Négliger toutes sources de frottement.)

Solution. La force totale résultante, dans la direction horizontale, est F = ma. En raison de
la symétrie du système, la force exercée par chaque câble est identique (F 1 = F 2 où F i sont les
composantes de la force sur chaque câble). Notez que la direction de chaque câble est spécifiée
par les vecteurs unitaires b1 and b2 . Le composant F i de la force le long de chaque câble n’est
pas la simple projection orthogonale de la force totale (F i , F cos θ.) Ce sera plutôt la projection
parallèle F 1 = (b1 , F). Nous avons donc besoin de savoir quel est la base duale associé aux
vecteurs de la base bi . A cette fin, nous exprimons chaque élément de la base duale par le biais
de la combinaison linéaire suivante

bi = (bi ) j b j = (bi )1 b1 + (bi )2 b2

où (bi ) j sont les composantes des vecteurs de la base duale par rapport à bi . Celles-ci peuvent
être déterminée en imposant le principe de dualité (1.12)

bi [b k ] = δik = (bi ) j (b j , b k ).

Dans l’espace des vecteurs géomé́triqués, la forme sesquilinéaire peut être évaluée en
1.2 Représentation des vecteurs et opérateurs dans une base 19

utilisant le produit scalaire entre vecteurs

(b j , b k ) = b j · b k

En explicitant ces produits scalaires on obtient l’ensemble des équations

1 = (b1 )1 + (b1 )2 cos 2θ


0 = (b1 )1 cos 2θ + (b1 )2
0 = (b2 )1 + (b2 )2 cos 2θ
1 = (b2 )1 cos 2θ + (b2 )2 .

En résolvant le système, nous trouvons que les vecteurs de la base duale associée à la base
{b1 , b2 } sont
cos 2θ
b1 = sin−2 2θb1 − b2
sin2 2θ
cos 2θ
b2 = − b1 + sin−2 2θb2 . (1.18)
sin2 2θ
Nous pouvons enfin calculer la composante de la force dans la direction b1 comme suit
cos 2θ cos 2θ
F 1 = (b1 , F) = (sin−2 2θb1 − 2
b2 , F) = sin−2 2θ b1 · F − b2 · F
sin 2θ sin2 2θ
1 − cos 2θ F
= F cos θ = .
sin2 2θ 2 cos θ


1.2.2 Changemen de base


Dans un espace vectoriel V de dimensions N, tout ensemble de N vecteurs linéairement
N une base de V et supposons qu’un problème
indépendants peut être adopté comme base. Soit {bi }i=1
spécifique que vous essayez de résoudre nécessite l’introduction d’une nouvelle base {b0 }i=1N , par
i
exemple afin de simplifier l’analyse. Quel est le lien entre l’ancienne et la nouvelle base ? Nous
pouvons formaliser la relation en supposant qu’il existe un opérateur linéaire B, appelé l’opérateur
changement de base, qui transforment chaque vecteur individuel de l’ancienne base en un vecteur
correspondant de la nouvelle base,

b0i = B[bi ].

La raison pour laquelle un tel opérateur est linéaire devrait être évidente. Cependant, ce qui est
moins évident, c’est que cet opérateur peut être représenté par une matrice N × N. En effet, si nous
exprimons les éléments de la nouvelle base comme combinaison linéaire des vecteurs de l’ancienne
base par le biais de la combinaison linéaire

b0i = (bi ) j b j

et si nous utilisons la définition (1.11), nous obtenons


j
b0i = b j [b0i ] b j = (b j , b0i ) b j = B i b j (1.19)

où nous avons introduit la matrice de changement de base


j
B i ≡ (b j , b0i )
20 Chapitre 1. ESPACES VECTORIELS

comme étant la matrice dont la colonne i est constituée des composantes du vecteur bi0 de la
nouvelle base par rapport à la base duale b j .
Notez que la somme implicite dans le dernier terme de (1.19) ne correspond pas à un produit
matriciel. En introduisant l’opérateur de transposition d’une matrice, nous pouvons cependant
exprimer la nouvelle base en termes de l’ancienne base de la manière suivante
j
 j T
b0i = B i b j = Bi b j . (1.20)
Le dernier terme dans l’expression ci-dessus représente en effet un produit matriciel.

Exercise 1.11 Soit {b j }Nj=1 une base, {b j }Nj=1 la base duale associée, et C i j = bi [b j ]. Laquelle
parmi les relations suivantes est correcte ?
j
a) bi = Ci b j b) bi = C ji b j
j j
c) bi = C i b j d) bi = C i b j

e) bi = C ji b j f ) bi = C i j b j
i
g) bi = C i j b j h) bi = C j b j
N on obtient
Solution. En développant les vecteurs bi de la base {b j }i=1
j
bi = (bi ) j b j ≡ b j [bi ] b j = C i b j

nous concluons que les expressions a) et b) sont fausses. Cette dernière évidemment parce que
les indices à gauche et à droite de l’égalité ne correspondent pas. La première parce que la forme
sesquilinéaire n’est pas, en général, commutative. Seulement c) est correct.
En développant le vecteur bi sur la base {b j }i=1
N on obtient

bi = (bi ) j b j ≡ b j [bi ] b j = C ji b j

donc, les expressions d) et f) sont fausses.


Enfin, en développant le vecteur bi sur la double base {b j }i=1
N on obtient

bi = (bi ) j b j ≡ bi [b j ] b j = C i j b j

par conséquent, l’expression h) n’est pas correcte. 

j
Exercise 1.12 Deux bases de V sont liées par la transformation b0 = B i b j . Soient {b j }Nj=1 et
i
N les bases duales de V associées à {b }N et {b0 }N respectivement. Montrer que
{b0i }i=1 j j=1 i=1 i
 −1
b0i = Bi j b j. (1.21)

Solution. En développant les vecteurs b0i comme combinaison linéaire de la base duale
{b j }i=1
N on obtient

   −1  −1
b0i = b j = b0i [b j ] b j = (b0i , b j )b j = (b0i , Bk j b0k )b j = Bk j (b0i , b0k )b j
b0i
j
 −1  −1
= B j δi k b j = Bi j b j
k
1.2 Représentation des vecteurs et opérateurs dans une base 21
 −1
où nous avons utilisé le fait que l’inverse de (1.19) est b j = Bk j b0 . 
k
0
Si la base change, les composantes d’un vecteur v changeront aussi. Les composantes vi du
vecteur v par rapport à la nouvelle base b0 ) peuvent être obtenues à partir des anciennes v j comme
i
suit :
0  −1
vi = Bi j v j

où Bi j est la matrice de changement de base. La démonstration est simple : puisqu’un vecteur peut
être représenté indifféremment par rapport à n’importe quelle base, on obtient
0  −1
v = vi b0i = v j b j = v j b j = v j Bi j b0i

et le résultat suit en comparant le dernier terme avec le second.


Je conclurai cette section en montrant que meme les opérateurs peuvent être représentés dans une
base. On prouvera cette affirmation de manière constructive, en montrant explicitement comment
nous pouvons représenter un opérateur linéaire H[...] : U M → VN opérant entre les espaces U de
dimension M et V de la dimension N comme matrice avec N lines et M colonnes. Soit {di }i=1 M une

base du domaine U M et {t i }i=1 une base du codomaine VN . Nous voulons montrer que l’opérateur
N

linéaire H qui agit sur les vecteurs u ∈ U M et renvoie les vecteurs v ∈ VN , v = H[u], peut être
écrit, par composantes, comme vi = H ij u j où vi et u j sont le composantes de u et v dans les bases
respectives U M et VN . La fonctionnel d’évaluation des composants, qui extrait les composants du
vecteur v par rapport à la base t i du codomaine est t i [..].. Par conséquent,
h h ii h h ii  h i
vi = t i [v] = t i [H [u]] = t i H u j d j = t i H d j u j = t i , H d j u j = H i j u j (1.22)

La matrice N × M qui représente l’opérateur linéaire H : U M → VN par rapport aux bases U M et


VN est
 
H i j = t i , Hd j . (1.23)

Par conséquent, chaque colonne de H i j contient les composantes du vecteur H[d j ] par rapport au N
vecteurs de la base duale t i associé à la base t i .

1.2.3 Le statut particulier des bases orthonormales


Nous disposons maintenant de tous les instruments conceptuels nécessaires pour apprécier
pleinement l’importance d’une classe particulière de bases, les bases orthonormales.
Definition 1.2.2 — Base orthonormale. La base formée par les vecteurs ê1 , ..., ê N est orhonor-
male si (êi , ê j ) = δi j , c.à-d. si ces vecteurs sont mutuellement orthogonaux et si la longueur de
chacun d’eux est égale à un.

Les symboles ‘chapeau’ (ˆ) sont introduits pour indiquer que le vecteur a une norme unitaire. Les
composantes d’un vecteur v par rapport à une base orthonormale êi est dénoté vî .
Le théorème de Riesz-Fréchet sur l’isomorphisme entre un espace vectoriel et son dual permet
d’établir une propriété générale des bases duales.

Theorem 1.2.4 — Base duale associée à une bases orthonormale. Considérons une base or-
N d’un espace vectoriel V. La base duale associée {êi }N coïncide avec {ê }N .
thonormale {êi }i=1 i=1 i i=1
22 Chapitre 1. ESPACES VECTORIELS

Proof Considérons une base orthonormale (êi , ê j ) = δi j d’un espace vectoriel V. Le théorème 1.2.3
permet d’identifier les vecteurs de la base duale êi [...] associé à la base orthonormale avec
certains vecteurs êi ∈ V. La relation de dualité 1.12 devient δib = êi [ê j ] = (êi , ê j ). Il s’ensuit
donc que êi = êi .

Le théorème précédent indique clairement que nous n’avons pas besoin de faire de distinction
entre êi et êi si notre base est orthonormale. Par conséquent, dans ce cas, les composants vi et
vi d’un vecteur v coïncideront. Ce fait important admet une interprétation géométrique intuitive.
Jetez un coup d’oeil à la Figure 1.1 où une base non orthogonale (flèches noires) est représentée.
Les composantes d’un vecteur v (flèche rouge) dans la base donnée sont celles résultantes de la
décomposition du vecteur v au moyen de la règle du parallélogramme. Notez qu’elles diffèrent
des composantes qui sont obtenues en projetant le vecteur orthogonalement sur la base, c’est-à-
dire en prenant le produit scalaire entre le vecteur v et les vecteurs de la base. Par conséquent,
pour obtenir les composantes du vecteur, il faut introduire la base duale, de sorte que le produit
scalaire entre le vecteur v et les vecteurs de base double renvoie les composantes de v. Toutes ces
complications disparaissent si la base est orthonormale. Dans ce cas, la base et son duale coïncident
et les composantes du vecteur, obtenues selon la règle du parallélogramme, coïncident avec celles
obtenues par projection orthogonale. C’est pour cette raison qu’on préfère, si possible, travailler
dans une base orthonormale.
Exercise 1.13 Considérez l’operateur Hθ : R2 → R2 qui tourne tous les vecteurs géométriques
du plan d un angle θ dans le sens inverse des aiguilles d’une montre. i) Trouvez la matrice qui
représente l’action de l’operateur Hθ par rapport à la base orthonormale {êi }2i=1 de R2 . ii) Quelle
est la représentation matricielle par rapport à la base b1 = (1, 1) et b2 = (−1, 0) ?

Solution Les composantes des vecteurs de la base orthonormale (par rapport à la base
orthonormale elle même) sont

!
1
ê1 = λ ê1 + λ ê2
1 2
ê1 ⇔
0
!
0
ê2 = µ ê1 + µ ê2
1 2
ê2 ⇔
1
L’action de l’opérateur sur la base orthonormale est exprimable comme suit

cos θ − sin θ
! ! ! !
1 0
Hθ ê1 ⇔ Hi j = Hθ ê2 ⇔ Hi j =
0 sin θ 1 cos θ

Par définition, la matrice qui représente cet homomorphisme (par rapport aux bases ortho-
normales du domaine et du codomaine) est la suivante

 
H ij = êi , Hθ ê j . (1.24)

Puisque la base orthonormale et son dual coïncident, c.-à-d. êi et êi sont le même vecteur, en
prenant le produit scalaire entre vecteurs on peut calculer les elements de la matrice, par exemple
1.2 Représentation des vecteurs et opérateurs dans une base 23

H11 = ((1ê1 + 0 ê2 ) , (cos θ ê1 , sin θ ê2 )) = cos θ (ê1 , ê1 ) + sin θ (ê1 , ê2 ) + .....
= cos θ ê1 · ê1 + sin θ ê1 · ê2 + ..... = cos θ

et donc
cos θ − sin θ
!
Hj= i
sin θ cos θ

qui est une matrice dite ‘orthogonale’ : vous pouvez vérifier que le produit de la matrice
précédente fois sa transpośee donne bien la matrice d’identité.
Considérons maintenant la nouvelle base {bi }2i=1 . dont les composantes par rapport à la base
orthonormale sont b1 = (1, 1) et b2 = (−1, 0). Nous pouvons donc écrire, de façon plus compacte,
j
bi = B i ê j


!
1 −1
j
Bi=
1 0

L’opérateur de rotation est représenté par rapport à cette nouvelle base {bi }2i=1 par l’opérateur
suivant

 
H̃ ij = bi , Hθ b j . (1.25)

Nous devons maintenant prêter attention au fait que la base {bi }2i=1 n’est pas orthonormale.
Un peu plus de travail est nécessaire pour trouver la base duale associée. A cette fin, nous
exprimons les vecteurs de la base duale sous forme de combinaisons linéaires de la base
orthonormale

bi = D ji ê j , (1.26)

ou, équivalentement,

b1 = D11 ê1 + D21 ê2


b2 = D12 ê1 + D22 ê2

et utilisons le principe de dualité 1.12 afin de trouver la valeur des composantes. On obtient

1 = b1 [b1 ] = (b1 , b1 ) = D11 ê1 · b1 + D21 ê2 · b1 = D11 + D21


0 = b1 [b2 ] = (b1 , b2 ) = D11 ê1 · b2 + D21 ê2 · b2 = −D11
0 = b2 [b1 ] = (b2 , b1 ) = D12 ê1 · b1 + D22 ê2 · b1 = D12 + D22
1 = b2 [b2 ] = (b2 , b2 ) = D12 ê1 · b2 + D22 ê2 · b2 = −D12
24 Chapitre 1. ESPACES VECTORIELS

Par conséquent, les composantes de la base duale par rapport à la base orthonormale {êi }2i=1 sont
b1 = (0, 1) et b2 = (−1, 1) ou, équivalentement,
!
0 −1
D =ij
1 1

On peut désormais calculer les elements de la matrice dans la nouvelle base


   h i
H̃ i j ≡ bi , Hθ b j = Dmi ê m, Hθ Bn j ê n = Dmi (ê m, Hθ ê n) Bn j
 T
= Dmi Hmn Bn j = Bim Hmn Bn j

où le dernier terme représente le produit matriciel suivant

0 1 cos θ − sin θ 1 −1 cos θ + sin θ − sin θ


! ! ! !
H̃ = ij
=
−1 1 sin θ cos θ 1 0 2 sin θ cos θ − sin θ

Vous pouvez bien vérifier que le produit de la matrice précédente par sa transposée ne donne
pas comme résultat la matrice identité. Bien que représentant le même operateur de rotation Hθ ,
la matrice H̃i j , contrairement à Hi j , n’est pas orthogonale. 

Exercise 1.14 Considérons les vecteurs de base b j et exprimons-les comme une combinaison
linéaire d’une base orthonormale bi = Bmi ê m. Considérons aussi la base duale associée b j =
Dn j ê n. Montrer que les composantes des b j (par rapport à la base orthonormale) sont liées
aux composantes de la base bi (par rapport à la base orthonormale) par la relation matricielle
suivante

D = (B−1 )T . (1.27)

Solution A partir du principe de dualité et du théorème de Riesz-Fréchet on obtient


j
δi = b j [bi ] = (b j , bi ) = Dn j Bmi (eˆn, eˆm) = Dn j Bmi δnm = Dn j Bni = (D jn )T Bni

d’où, en comparant le premier et le dernier terme, on obtient 1.27. 

1.2.4 Métrique associée à une base


Nous savons qu’un fonctionnel linéaire peut être évaluée à l’aide des formes sesquilinéaires.
Mais comment calculer ces dernières ? Si l’espace vectoriel est celui des vecteurs géomé́triqués on
a vu qu’on peut évaluer la forme sesquilineaire en introduisant le produit scalaire entre vecteurs
géométriques

(a, b) = a · b.

Cependant, les vecteurs géométriques sont un cas bien particulier de vecteurs. Quelle est donc la
règle générale qui permet d’associer à une paire de vecteurs d’un espace vectoriel arbitraire un
scalaire unique ? Il est facile de constater que

(v, u) = (vi bi , u j b j ) = vi u j (bi , b j ) ≡ vi u j mi j (1.28)

de sorte que la règle est entièrement contenue dans l’ensemble des coefficients mi j . Nous sommes
donc naturellement conduits à la définition suivante.
1.2 Représentation des vecteurs et opérateurs dans une base 25
N une base de l’espace vectoriel
Definition 1.2.3 — Métrique associée à une base. Soit {bi }i=1
V. La métrique induite par la base est définie comme l’ensemble des coefficients

mi j ≡ (bi , b j ). (1.29)

Si l’espace vectoriel V est réel, alors la métrique associée à une base est une matrice symétrique
réelle N × N. Il est simple d’en déduire ses coefficients si la base est orthonormale. Si, par contre,
les vecteurs de base ne sont pas orthogonaux, nous ne pouvons calculer la métrique mi j que si les
composantes de chaque vecteur bi par rapport à une base orthonormale sont explicitement données.
Dans le cas contraire, les coefficients mi j doivent être fournis ‘a-priori’ comme une donnée du
problème.
Les coefficients métriques sont donc les ingrédients fondamentaux qui permettent de calculer
la ‘taille’ des éléments vectoriels et les distances entre eux. En effet, une fois que une forme
sesquilinéaire est spécifié pour les vecteurs de base, il est facile de déterminer la valeur de cette
forme pour tout autre vecteur via 1.28. Examinons donc quelques propriétés clés de la métrique
associée à une base.
Theorem 1.2.5 — Monter et descendre les indices. Soient vi et vi les composants d’un vecteur
v par rapport à une base et son dual. Ces indices sont liés comme suit

vi = mik vk vi = mik vk (1.30)

où mi j est la métrique associée à la base.

Proof Un vecteur v peut être écrit indifféremment comme v = v bi = vi b où {bi }i=1 est une base et
i i N

{bi }i=1
N est la base duale associée. On a donc

vi ≡ bi [v] = (bi , v) = vk (bi , b k ) = mik vi (1.31)

Pareillement,

vi ≡ v[bi ] = (v, bi ) = vk (b k , bi ) = mki vk = mik vk (1.32)

où le dernier terme est un produit matriciel.

Considérons maintenant une base orthonormale d’un espace vectoriel V. Les coefficients
métriques associées à cette base sont simplement mi j = δi j . Il s’ensuit que le delta de Kronecker
est l’opérateur qui monte ou baisse les indices des composantes vectorielles. Cela ne devrait pas
être une surprise, à ce stade, puisque nous savions déjà que les composantes vi et vi d’un vecteur
coïncident si la base est orthonormale. Cependant, si l’orthonormalité n’est pas satisfaite, il faut
être prudent lorsque l’on monte ou baisse les indices, car les composantes d’un vecteur par rapport
à la base et son dual ne coïncident pas en général.
Nous concluons en mentionnant quelques autres propriétés utiles des coefficients métriques, par
exemple le fait que mij = δij et le fait que mi j ≡ (bi , b j ) est la matrice inverse de mi j . Pouvez-vous le
montrer ?
Exercise 1.15 Montrer que la métrique mi j est l’opérateur qui monte et baisse les indices des
vecteurs de la base, transformant un vecteur de la base en un vecteur de la base duale associée et
vice-versa.

N la base d’un espace vectoriel V et considérons le vecteur v = vi b =


Solution. Soit {bi }i=1 i
26 Chapitre 1. ESPACES VECTORIELS

vk b k ∈ V. En remplaçant vi = mi j v j et vi = mi j v j dans cette expression on trouve bi = mik b k et


bi = mik b k . 

Exercise 1.16 Prenons en considération l’espace vectoriel V en assumant qu’il ait dimension
N = 2. Soit {bi }2i=1 une base non-orthonormal de R2 . Soient b1 = (1, 1) et b2 = (−1, 0) les compo-
santes par rapport à une base orthonormale {êi }2i=1 de V. Déterminez les coefficients mi j de la
métrique associée à la base. Déterminez aussi les coefficients mi j .

Solution. A partir de la definition 1.29 on obtient, par exemple,

m11 = (b1 , b2 ) = (1ê1 + 1ê2 , 1ê1 + 1ê2 ) = (ê1 , ê1 ) + 2(ê1 , ê2 ) + (ê1 , ê1 )
= (ê1 , ê1 ) + 2(ê1 , ê2 ) + (ê1 , ê1 ) = 2

où on a utilisée le fait qu’une base et son dual sont identiques si la base est orthonormale, ainsi
que le principe de dualité 1.12. En réproduisant le même calcul pour les autres indices, on
obtient
!
2 −1
mi j = .
−1 1

Puisque mi j est la matrice inverse de mi j on a que

!
1 1
m =
ij
.
1 2


1.3 Résumé
La plupart des objets mathématiques s’avèrent être des éléments d’un espace très particulier,
appelé espace vectoriel. Ces objets, bien que de nature intrinsèquement différente, comme par
exemple les vecteurs géomé́triques, les fonctions continues et le matrices, satisfont tous à un
ensemble de huit axiomes, et, en raison de ce comportement commun, sont appelés vecteurs. Voici
quelques concepts clés sur les vecteurs que vous devez maîtriser.
Représentation d’un vecteur dans une base. Étant donné le vecteur v ∈ V nous pouvons le re-
présenter par rapport à la base bi de V ou par rapport à la base duale bi ∈ V (associé à bi via
le principe de dualité bi [b j ] = δij ) comme suit

v = vi b j = vi b j .

Les composantes du vecteur par rapport à l’une des deux bases sont obtenues par les biais
des formes sesquilinéaires

vi ≡ (bi , v)
vi ≡ (v, bi ).

N’oubliez pas que si la base est orthonormale, il n’y a pas de différence entre les indices en
hauts et en bas. Si la base n’est pas orthonormale, au contraire, vous devez faire attention.
Représentation d’un opérateur linéaire dans une base. Étant donné l’opérateur H : D → T et
les bases di et bi du domaine et du codomaine, nous pouvons représenter H par rapport aux
1.4 Exercices 27

deux bases comme suit

H ij = (d i , Hb j ).

Comment évaluer des forme sesquilinéaires ? La règle est entièrement contenue dans la mé-
N dans laquelle le vecteur est représenté.
trique associée à la base {bi }i=1

(u, v) = mi j ui v j

mi j ≡ (bi , b j ).

est la métrique associé l̀a base. Les coefficients métriques sont organisés dans une matrice
réelle symétrique qui permet, entre autres, de monter et baisser les indices des composantes
et des bases vectorielles.

vi = mi j v j v j = mi j v j
b i = mi j b j b j = mi j b j .

1.4 Exercices
Exercise 1.17 Le but de cet exercice est de se familiarisé avec la notation de Einstein
1. Ecrire explicitement la somme implicite suivante i jk ui v j wk avec i, j, k ∈ {1, 2, 3}. Quel
type d’opération mathématique entre vecteurs représente-t-elle cette opération ?
2. Remplir les espaces : mi j mik = .....; mi j mi j = .....; mi j δik = .....; où mi j est la matrice
métrique.


Exercise 1.18 Soit V un ensemble de triplets dans l’espace des réels. On définit sur V la
v-somme ⊕ : V × V → V et la s-multiplication : R × V → V de la manière suivante

(a, b, c) ⊕ (d, e, f ) ≡ (a + d, b + e, c + f )

et

λ (a, b, c) ≡ (λa, λb, λc)

où + et · sont l’addition et la multiplication standard sur R. Vérifiez si (V, R, ⊕, ) est un espace


vectoriel. 

Exercise 1.19 Considérez l’operateur H : V → V ; (a, b, c) 7→ H(a, b, c) ≡ (b, 2c, 0).


i) H est il linéaire ?
ii) Montrez que l’operateur composée H ◦ H resultant de l’application successive de l’operateure
H (on utilise l’ image de H comme argument de H) est linéaire. 
28 Chapitre 1. ESPACES VECTORIELS

Exercise 1.20 Considérez la fonction g : V → R telle que (a, b, c) 7→ g(a, b, c) = a + 21 b + 13 c.


i) Est-elle linéaire ?
ii) De quelle structure est-elle membre ? 

Exercise 1.21 Soit {êi }3i=1 la base orthonormale de R3 . La projection (perpendiculaire) des
vecteurs v ∈ R3 sur le plan [ê2 , ê3 ] est elle un homomorphism ? Et la projection sur l’axe défini
par ê1 ? 

Exercise 1.22 Considérez les vecteurs de base suivants exprimés en termes de vecteurs d’une
base orthonormale :

b1 = ê1 + 2 ê2 (1.33)


b2 = −ê1 + ê2 (1.34)
b3 = ê3 . (1.35)

i) L’opérateur T transforme n’importe quel vecteur de la base orthonormale en un élément de


la nouvelle base, c.-à-d. il agit comme suit bi = T (êi ). Trouvez la matrice qui représente cet
opérateur (appelée matrice du changement de base) par rapport à la base orthonormale.
ii) Déterminez la valeur des coefficients métriques mi j .
iii) Déterminez les valeurs mi j .
N en utilisant la définition 1.12. Vérifiez que bi = mi j b donne
iv) Déterminez la base duale {bi }i=1 j
le même résultat. 
2. COORDONNEES CURVILIGNES

Un système physique est symétrique sous l’effet d’une opération si le système, après l’opération,
est identique au système avant l’opération. Par exemple, une sphère parfaitement uniforme a une
symétrie de rotation autour de n’importe quel axe parce qu’après la rotation, la sphère a le même
aspect qu’avant la rotation.
Supposons que nous identifions des points de l’espace tridimensionnel ordinaire à l’aide d’un
système de coordonnées x, et que, pour une raison quelconque, nous décidions de renommer ces
points en utilisant un autre système de coordonnées ξ = ξ(x). Y a-t-il quelque chose qui n’est pas
affecté par ce changement de coordonnées ? Oui, toute la physique ! Les phénomènes physiques
tels qu’une pierre tombant dans le champ gravitationnel de la terre ou une charge électrique se
déplaçant dans un condensateur chargé ne se soucient pas du système de coordonnées que nous
utilisons pour décrire leur mouvement ! Il existe un outil mathématique raffiné qui, indépendant des
systèmes de coordonnées, permet aux physiciens de formuler des lois qui sont les mêmes quel que
soit le système de coordonnées adopté pour l’étiquetage des points d’espace : les vecteurs. En effet,
les équations représentants les lois classiques de la physique, telles que les lois mécaniques ou les
lois électromagnétiques, sont des lois vectorielles ; elles sont valables dans n’importe quel système
de coordonnées ! On dit donc que les lois de la physique sont symétriques sous un changement
statique ξ = ξ(x) (ne dépendant pas du temps) du système de coordonnées.
Que diriez-vous d’un changement dynamique de système de coordonnées ? Par dynamique,
j’entends un changement de coordonnées du type ξ = ξ(x, t) tel que les nouvelles coordonnées
spatiales sont fonction non seulement des anciennes coordonnées spatiales, mais aussi de la
coordonnée temporelle t. La théorie de la relativité postule que la nature est symétrique aussi sous
des transformations de coordonnées dépendantes du temps. Deux observateurs, référençant leurs
mesures d’un même phénomène physique à deux systèmes de coordonnées différents en mouvement
l’un par rapport à l’autre, devraient déduire les mêmes lois de la physique de leurs observations.
Le but ultime des physiciens est donc d’exprimer les lois fondamentales de la nature de façon
indépendante des coordonnées, que le changement de coordonnées soit statique ou dynamique. Des
technologies mathématiques, comme le calcul tensoriel, ont été développées pour généraliser le
simple calcul vectoriel et répondre à ces besoins.
30 Chapitre 2. COORDONNEES CURVILIGNES

Les physiciens, cependant, en plus de découvrir les lois fondamentales de la nature, sont
également intéressés à connaître les valeurs spécifiques des grandeurs physiques telles que l’énergie
d’une particule ou sa vitesse, etc. La valeur de ces variables dépend de l’observateur. Comme les
physiciens préfèrent le dire, ce sont des quantités qui ne sont pas invariantes, donc nous devons
toujours spécifier qui mesure leur valeur si nous voulons donner un sens aux mesures physiques. On
y parvient en introduisant la notion de système de référence et, en cartographiant les événements
spatio-temporels à l’aide d’un systèmes de coordonnées. L’utilisation d’un système de coordonnées
permet également de traduire les problèmes géométriques en problèmes algébriques et vice versa. A
titre d’exemple, considérons l’analyse des systèmes physiques avec des configurations géométriques
caractéristiques. Le choix d’un système de coordonnées spécifique, bien adapté pour décrire cette
géométrie, permet de simplifier les calculs mathématiques et, au final, l’interprétation physique. Le
présent chapitre a donc pour objet de présenter les systèmes de coordonnées les plus utilisés en
physique et décrire leurs propriétés.

2.1 Systèmes de coordonnées


Les systèmes de coordonnées sont des structures géométriques qui permettent d’associer des
nombres réels à des points de l’espace de façon systématique et pratique. On pourrait les nommer
’ici’,’à côté’,’là’,... mais un tel système d’étiquettes n’est ni bien organisé ni pratique pour les
calculs. Je vais maintenant détailler comment on peut construire des systèmes de coordonnées dans
un espace Euclidien à N dimensions (RN ).
L’idée générale est que les points de RN peuvent être identifiés comme l’intersection de deux
lignes curvilignes dans un cas bi-dimensionnel, ou l’intersection de trois surfaces dans des espaces
tridimensionnels, etc. Prenons le cas bi-dimensionnel. Chaque ligne, quelle que soit sa courbure,
est identifiée par une etiquette unique appelé coordonnée de la ligne. Par exemple dans la figure 2.1,
les lignes bleues peuvent être identifiées comme suit ξ 1 = 0◦ , ξ 1 = 30◦ , ξ 2 = 60◦ ..... L’intersection
de deux lignes de coordonnées, un point, est donc identifiée de manière univoque par deux nombres
appelés coordonnés du point et indiqués par {ξ 1 , ξ 2 }.
Dans R3 , à n’importe quel point P, trois surfaces passent, chacune marquée par la coordonnée
ξ , ξ 2 et ξ 3 . Deux de ces surfaces se rencontrent en courbes, appelées lignes de coordonnées.
1

Par exemple, dans la figure 2.2 je montre trois plans mutuellement orthogonaux, appelés x y,
et z, qui se croisent en lignes de coordonnées rectilignes et orthogonales (le plan x = const et
z = const définissent la ligne de coordonnées y, les plans x = const et y = const définissent la ligne
de coordonnées z etc) Ce système de coordonnées ξ ≡ {x, y, z} est appelé rectiligne ou cartésien. 1
De façon générique, nous appelons coordonnées curvilignes les systèmes de coordonnées dans
lesquels les lignes de coordonnées ne sont pas droites (comme dans la figure 2.1).
Une grande variété de problèmes physiques sont traités de la manière la plus appropriée en
utilisant un ensemble de coordonnées curvilignes ξ ≡ {ξ 1 , ξ 2 , ξ 3 }, Ceci afin d’exploiter la symétrie
présentée par le système physique étudié et de simplifier son traitement mathématique. Parmi les
différents systèmes de coordonnées curvilignes, le polaire (qui décrit les points de R2 ), le sphérique
(en R3 ) et le cylindrique (en R3 ) se détachent par leur importance.
Coordonnées Polaires
La coordonnée ξ 1 marque des cercles concentriques (les lignes rouges de la figure 2.1) dans
le sens où chaque valeur de la coordonnée (ξ 1 = const) identifie l’ensemble des points situés sur
un cercle donnés La valeur de ξ 1 est donc conventionnellement choisie comme la valeur du rayon
ρ ∈ [0, +∞) de chaque cercle. La coordonnée ξ 1 est appelée coordonnée radiale, et le cercle à rayon

1. Le système de coordonnées cartésiennes porte le nom de R. Descartes (1596-1650) bien qu’il ne soit pas le seul à
avoir eu cette idée. La légende raconte que Descartes, qui aimait rester au lit jusqu’à tard, a inventé ces coordonnées en
observant une mouche au plafond depuis son lit, et se demandant comment décrire sa position par rapport au plafond.
2.1 Systèmes de coordonnées 31

Figure 2.1 – Chaque coordonnée ξ 1 marque les cercles rouges (tous les points d’un cercle rouge ont la même
coordonnée ξ 1 ≡ r = const). Chaque ligne bleue définit la coordonnée ξ 2 . ≡ φ = const. Les lignes de coordonnées se
croisent orthogonalement.

zéro, un point, est appelé origine ou pôle O. La deuxième coordonnée ξ 2 (la ligne bleue de la
figure 2.1) marque un ensemble de segments droits radiaux irradiant hors de O. La valeur ξ 2 est
conventionnellement choisie comme l’angle φ, appelé pôle angle, qu’ils forment par rapport à un
segment arbitrairement choisi comme reference et appelé axe polaire. La plage de variation de
l’angle polaire est de [0, 2π). Tout point du plan 2D peut donc être associé de manière univoque et
identifié par un ensemble de deux nombres réels {ξ 1 , ξ 2 } = {r, φ} qui représente l’emplacement où
les cercles et lignes radiales se croisent (orthogonalement dans ce cas précis). Notez que ce système
de coordonnées est dégénéré dans le sens où tous les points de R2 ne sont pas associés de façon
univoque aux coordonnées ξ 1 et ξ 2 . En effet le pôle O n’est pas associé à une valeur unique de la
coordonnée φ.
Coordonnées Sphèriques Les coordonnées ξ 1 marquent tous les points sur des sphères concen-
triques (voir Fig. 2.3 ) dans le sens où chaque valeur de la coordonnée ξ 1 (ξ 2 , ξ 3 ) = const identifie
l’ensemble de points situés sur une même sphère. La valeur de ξ 1 est donc conventionnellement
choisie comme valeur du rayon r ∈ [0, +∞) de chaque cercle. La coordonnée ξ 1 est appelée la
coordonnée radiale et la sphère de rayon zéro, un point, est appelé origine ou pôle.
Les coordonnées ξ 2 marquent tous les points sur les surfaces latérales des cônes coaxiaux ayant
les sommets sur l’origine des coordonnées radiales (voir Fig. 2.3). Chaque valeur de la coordonnée
(ξ 2 (ξ 1 , ξ 3 ) = const) identifie l’ensemble des points situés sur un cône donné. L’axe commun des
cônes est appelé axe polaire ou zénithal. La valeur de ξ 2 est conventionnellement choisie comme
l’angle θ ∈ [0, π] (appelé angle ou inclinaison polaire) entre l’axe polaire et le générateur des cônes.
Les coordonnées ξ 3 marquent tous les points sur des demi-plans ayant l’axe polaire comme
bord commun dans le sens où chaque valeur de la coordonnée ξ 3 (ξ 1 , ξ 2 ) = const identifie tous les
points situés sur un demi-plan donné (voir Fig 2.3). La valeur de ξ 3 est conventionnellement choisie
comme l’angle φ ∈ [0, 2π), appelé azimuth, qu’ils forment par rapport à un plan arbitraire choisi
comme origine et appelé plan azimutal.
32 Chapitre 2. COORDONNEES CURVILIGNES

Figure 2.2 – Système de coordonnées cartesien. Chaque coordonnée x, y, z marque un plan. Tous les points du plan x
ont la même coordonnée x(y, z) = const. Deux plans se croisent dans une ligne de coordonnées. Par exemple, les avions
x(y, z) = const et y(x, z) = const définissent la ligne de coordonnées z. Trois plans s’interceptent en un point identifié par
les trois coordonnées {x, y, z}.

Tout point de l’espace 3D peut donc être associé et identifié par un ensemble de nombres réels
(ξ 1 , ξ 2 , ξ 3 ) = (r, θ, φ) chacun identifiant des sphères, des plans et des surfaces latérales des cônes.
Notez que ce système de coordonnées aussi est dégénéré. Combien de points d’espace ne sont pas
cartographiés uniquement par ces coordonnées ?

Exercise 2.1 Quelles sont les surfaces, étiquetées par ξ 1 = r, ξ 2 = φ and ξ 3 = h dont l’intersection
définit la grille cylindrique des coordonnées représentée sur la figure 2.4 ? 

2.2 Mesures métriques I : éléments de ligne


J’insiste sur le fait que les coordonnées sont juste des noms numériques ! Il n’y a pas de
notion de métrique associée à un système de coordonnées. Il n’y a aucune notion de distance
entre les coordonnées, ni d’angles sous-tendus par différents N-uplets. De la même manière que la
différence entre deux maisons identifiées par des numéros civiques le long d’une rue ne contient
pas d’indication sur la distance physique entre les maisons, la différence entre les coordonnées
ξ2 − ξ1 identifiants deux points de l’espace ne contient pas d’informations métriques sur la distance
entre ces points ! Néanmoins, il est clair que l’on peut associer une notion de distance entre les
points de l’espace. Nous voulons donc comprendre comment la distance entre les points d’espace
peut être mesurée en utilisant un systéme de coordonnées.
Un instant de réflexion suffit pour réaliser que tous les systèmes de coordonnées décrits ci-
dessus ont été construits en utilisant la métrique naturelle de RN qui est la métrique euclidienne. Par
exemple, lorsque nous exigeons que les plans cartésiens soient perpendiculaires, nous supposons
implicitement que la règle d’évaluation de l’orthogonalité est celle héritée du produit scalaire des
vecteurs géométriques. Lorsque nous définissons un système de coordonnées polaires en utilisant
des cercles de rayon donné, nous supposons que la notion de distance est à nouveau héritée du
2.2 Mesures métriques I : éléments de ligne 33

Figure 2.3 – Chaque coordonnée ξ 1 identifie des sphères. Tous les points d’une sphère ont la même coordonnée
ξ 1 ≡ r = const. Chaque cône définit la coordonnée ξ 2 = θ = const, alors que tous les points d’un plan ont la même
coordonnée ξ 3 = φ = const. L’intersection d’une paire de surfaces de coordonnées définit une ligne de coordonnées.
Trois surfaces de coordonnées se croisent à une position unique et le N−uplet (ξ1 , ξ2 , ξ3 ) qui en résulte étiquette sans
ambiguïté le point d’espace qui se trouve à cette position. Cet N−uplet represente les coordonnées du point.
34 Chapitre 2. COORDONNEES CURVILIGNES

Figure 2.4 – Cylindrical coordinates system

produit scalaire (une façon raffinée de signifier que les distances sont calculées selon le théorème
de Phythagore).
Nous voulons maintenant rendre explicite la structure métrique d’un système de coordonnées
afin d’en faire un gadget extrêmement utile pour exprimer la distance entre deux coordonnées
adjacentes. Considérons deux points P et Q de R2 identifiés par les coordonnées {ξ 1 , ξ 2 } and
{ξ 1 + ∆ξ 1 , ξ 2 + ∆ξ 2 } respectivement. La métrique est simplement la règle qui permet de convertir la
séparation de coordonnées ∆ξ 1 et ∆ξ 2 dans la distance physique ∆s entre les deux points P et Q.
L’espace RN est un cas particulier de ce que les mathématiciens appellent une variété Rieman-
nienne, c’est-à-dire un espace tel que le carré de la distance élémentaire (ds,2 ) entre deux points de
coordonnées infiniment proches {ξ 1 , ξ 2 , ....., ξ 3 } et (ξ 1 + dξ 1 , ξ 2 + dξ 2 , ξ 3 + ... + dξ N ) peut toujours, et
uniquement, s’exprimer par la forme quadratique suivante
X
ds 2 ≡ g11 dξ 1 dξ 1 + g12 dξ 1 dξ 2 + g12 dξ 2 dξ 1 + g22 dξ 2 dξ 2 + .... = gi j dξ i dξ j (2.1)
ij

L’ensemble de N × N coefficients gi j sera, en général, une fonction de la position, c.-à-d. dépendra


des coordonnées ξ i et peut être considéré comme étant organisé dans une matrice. Ces coefficients
contiennent des informations sur la façon de calculer les distances et les angles à l’aide du système
de coordonnées donné. Ils sont ainsi appelés les coefficients métriques du système de coordonnées
ξ. Ce nom découle du fait que, comme nous le verrons dans la section 2.3.1, ils ne sont rien d’autre
que les coefficients métriques (c.f.r. 1.29) associés à un ensemble très particulier de vecteurs de
base associée au système de coordonnées ξ (la base holonomique). Une façon plus compacte et
simple d’écrire l’élément de ligne est d’utiliser la convention dite d’Einstein

ds 2 = gi j dξ i dξ j . (2.2)

Si gi j = 0 pour i , j on dit que le système de coordonnées est orthogonal. Physiquement, cela


signifie que les axes de coordonnées (c’est-à-dire les tangentes aux lignes de coordonnées) se
2.2 Mesures métriques I : éléments de ligne 35

Figure 2.5 – Mesure géométrique de l’élément de ligne ds2 en coordonnées polaires cartésiennes et rectilignes dans
un espace euclidien.

croisent à angle droit. Par exemple, l’élément de ligne en 3D associé à un système de coordonnées
curvilignes orthogonales est
ds 2 = g11 (dξ 1 )2 + g22 (dξ 2 )2 + g33 (dξ 3 )2 (2.3)
Les coefficients diagonaux de la matrice métrique gii sont appelés facteurs d’échelle associés aux
coordonnées curvilignes. 2 En effet, elles doivent être interprétées comme des fonctions de mise à
l’échelle qui convertissent les intervalles de coordonnées dξ a en distances physiques. En d’autres
termes, si nous nous déplaçons à partir de ξ,i jusque’à ξ i + dξ i le long d’une ligne de coordonnée,

la distance infinitésimale parcourue le long de la ligne de coordonnée sera dsi = gii dξ i .
Considérons, par exemple, les coordonnées cartésiennes indiquées dans la figure 2.5. Puisque
l’espace R2 est euclidien, nous savons que l’élḿent de ligne (2.2) est donnée par le théorème de
Pythagore. Par conséquent, la distance entre (x, y) et (x + dx, y + dy) est ds2 = dx2 + dy2 de sorte que
les coefficients métriques associés à un système de coordonnées cartésiennes bidimensionnelles sont
simplement g11 = g22 = 1, g12 = 0. Notez que dans le cas particulier des coordonnées cartésiennes,
les intervalles de coordonnées sont aussi des distances physiques ! En effets, les coordonnées
cartésiennes ont la propriété que gi j = 1 si i = j. Par conséquent, un interval de coordonnés, par
exemple dx, mesure directement la distance ds x entre x et x + dx. Il s’agit la d’une propriété
exceptionnelle qui n’est pas valable pour les coordonnées curvilignes génériques.
Examinons maintenant le système de coordonnées polaires illustré en figure 2.5. La distance
entre les points identifiées par {ρ, φ} et {ρ + dρ, φ + dφ} est ds2 = dρ2 + ρ2 dφ2 où nous avons utilisé
le fait que dans un espace euclidien en 2D l’élément de ligne, en accord avec le théorème de
Phytagore, est ds2 = ds2// + ds2⊥ , où ds// , la distance radiale le long de la ligne de coordonnées entre
les points {ρ, φ} et {ρ + dρ, φ}, est ds// = dρ et où ds⊥ , la distance transversale le long de la ligne de
coordonnées entre les points {ρ, φ} et {ρ, φ + dφ}, est ds⊥ = ρdφ. Les éléments métriques associés au
système de coordonnées polaires sont donc les suivants
!
1 0
gab = (2.4)
0 ρ2
De la même manière, on peut vérifier que l’élément de ligne en coordonnées sphériques est
ds 2 = dr 2 + r 2 dθ 2 + r 2 sin 2 θdφ 2 , et que, par conséquent, les coefficients métriques pour le système
2. Dans les vieux livres, on les appelle aussi coefficients de Lamé après G, Lamé (1795-1870). Sa théorie générale
des coordonnées curvilignes est exposée dans ‘Leo̧ns sur les coordonnées curvilignes et leurs diverses applications
publié en 1859.
36 Chapitre 2. COORDONNEES CURVILIGNES

de coordonnées sphériques sont


 
1 0 0 
gab = 0 r 2 0  (2.5)
 
0 0 r 2 sin 2 θ
 

Enfin, vous pouvez verifier que, dans le cas des coordonnées cylindriques, nous avons
 
1 0 0
gab = 0 ρ 2 0 . (2.6)
 
 
0 0 1

2.3 Bases associées à un système de coordonnées


A chaque système de coordonnées identifiant les points de RN nous pouvons associer un
ensemble naturel de vecteurs unitaires définis comme suit. 3
Definition 2.3.1 — Base standard associée à un système de coordonnées. A n’importe quel
point d’un système de coordonnées de RN nous pouvons associer un ensemble de vecteurs
unitaires {ξ̂i }i=1
N
qui sont tangents aux lignes de coordonnées qui se croisent à cet endroit et
s’orientent dans la direction où les coordonnées augmentent.

Notons que chaque vecteur de la base standard {ξ̂i }i=1 N est tangent à la ligne de coordonnées

le long de laquelle la coordonnée ξi change. Par exemple, la base standard associée à un système
cartésien tridimensionnel est { x̂, ŷ, ẑ}. Notez que le symbole x̂ ne pointe pas le long de la ligne de
coordonnées x (ligne où x est constant) mais le long de la ligne de coordonnées où x augmente.
La base standard associée à un système de coordonnées sphériques est {r̂, φ̂, θ̂}. Notez que r̂ est un
vecteur unitaire pointant dans la direction du rayon identifié par le point de coordonnées (φ, θ).
Notons une différence importante entre les coordonnées curvilignes et les coordonnées carté-
siennes : les vecteurs de la base standard associés aux coordonnées curvilignes ne sont pas constants
en direction. Ce qui distingue les vecteurs de la base cartésienne des vecteurs de la base curvilignes
est que dans ce dernier cas les vecteurs de base dépendent de la position : le même vecteur de
base r̂ points dans différentes directions pour les points avec coordonnées {x, y, z} = {1, 0, 0} et
{x, y, z} = {0, 0, 1}.
Nous pouvons donc classer les bases standards comme étant homogènes ou non. Une base
homogène est une base qui conserve la même orientation en tout point des grilles de coordonnées
auxquelles elle est associée. Cette condition n’est possible que si la grille de coordonnées est formée
par des lignes de coordonnées droites (voir figures 2.6 et 2.7). Je vais mettre en relief le fait que
une base standard d’un système de coordonnées n’est pas homogène, en explicitant la dépendance
des vecteurs de base du point auquel la base est associée. Par exemple, dans le cas du système de
coordonnées sphériques, je écrirai {r̂(r, θ, φ), θ̂(r, θ, φ), φ̂(r, θ, φ)}.
Un autre critère important qui permet de caractériser davantage la base standard est la propriété
d’orthogonalité.
Definition 2.3.2 — Base canonique associée à un système de coordonnées. Si le système
de coordonnées est orthogonal, la base standard qui lui est associée est dite canonique. Nous
désignons les vecteurs génériques de la base canonique comme étant ê a . Ils remplissent la
condition

(ê a , ê b ) = δab . (2.7)

3. Puisque RN est un espace euclidien, la norme d’un vecteur est bien définie.
2.3 Bases associées à un système de coordonnées 37

Figure 2.6 – Coordonnées homogènes. Les vecteurs de base sont orientées de la mêmes façon en tous points de
l’espace. Les cellules définies par la grille de coordonnées sont des parallélogrammes. Leur généralisation en trois
dimensions sont appelées parallélépipèdes, et parallélotopes dans le cas des systèmes de coordonnées N-dimensionnelles.

Figure 2.7 – Coordonnées curvilignes. Les vecteurs de base standard sont toujours tangents aux lignes de coordonnées.
Ces systèmes de coordonnée ne sont pas homogènes. Celui de gauche, en plus, est orthogonal.
38 Chapitre 2. COORDONNEES CURVILIGNES

où δab est le symbole de Kronecker.


Nous avons déjà vu (Théorème 1.2.4) qu’une base orthonormale a la propriété d’être identique à la
base duale associée. Par conséquent, le delta de Kronecker peut être interprété comme la matrice
métrique associée à la base canonique (voir 1.29). Ce symbole peut donc être utilisé afin de monter
ou descendre les indices des composantes vectorielles prises par rapport à la base canonique. Cette
propriété, et d’autres, rendent la base canonique si simple et spéciale que nous identifions ses
vecteurs avec un symbole spéciale : êi .
Comme les coordonnées marquent tous les points d’un espace, l’ensemble des vecteurs unitaires
de la base génèrent tous les vecteurs de l’espace. Par exemple, la position d’un point arbitraire par
rapport à l’origine d’un système de coordonnées donné, le vecteur position r = r(ξ1 , ξ2 , ...., ξ N ), est
facilement exprimée en termes de la base canonique. Dans le cas des coordonnées cartésiennes, le
vecteur position est r = xê x + y ê y + z ê z où ê i est un ensemble de vecteurs unitaires orientés le long
de chaque ligne de coordonnées du système cartésien. Le vecteur position identifiant un point avec
coordonnées polaires {ρ, φ} est r = ρ êρ (φ). Encore une fois êρ est un vecteur unitaire pointant le long
de la direction radiale. Le vecteur position exprimé dans un système de coordonnées sphériques
sera r = r êr (θ, φ).

2.3.1 La base holonomique


Nous avons calculé l’élément de ligne ds 2 . Nous aimerions savoir, maintenant, comment
exprimer le vecteur de déplacement dr défini comme la différence entre les vecteurs position
décrivant deux points proches dr = r(ξ 1 + dξ 1 , ξ 2 + dξ 2 , ......ξ N + dξ N ) − r(ξ 1 , ξ 2 , ....., ξ 3 ) .
A cette fin, il est très utile de définir une nouvelle base, appelée base holonomique (coordinate
basis en anglais), dans laquelle les composantes du vecteur de déplacement prennent la forme la
plus simple possible.
N associée à un point P d’un
Definition 2.3.3 — Base holonomique. La base holonomique {ei }i=1
système de coordonnées ξ est un ensemble de vecteurs indépendants tel que le déplacement
élémentaire, une fois exprimé dans cette base, prend la forme

dr ≡ dξ i ei (2.8)

En d’autres termes, les composantes du vecteurs de déplacement par rapport à la base holonomique
sont simplement les différentiels des coordonnées. Notez que les vecteurs de la base homonymique
sont tangents aux lignes de coordonnées : le vecteur ei est parallèle à la ligne de coordonnées où
la coordonnée ξi augmente. Ceci est évident dans la définition : si toutes les coordonnées ξ i avec
i = 2, 3, 4....N sont constantes, sauf ξ 1 , alors cette coordonnée peut varier seulement dans la direction
e1 . Ainsi, les vecteurs de la base homonymique et de la base standard sont parallèles, la seule chose
qui les distingue est que la longueur des vecteurs de la base holonomique est opportunément choisie
de manière à simplifier les calculs.
Voyons les vertus de cette base. Puisque le vecteur déplacement résulte de la variation du
∂r
vecteur position r = r(ξ 1 , ξ 2 , ...ξ N ), c.-à-d. dr = ∂ξ i
i dξ , nous en déduisons, par comparaison avec
l’équation (2.20), que
∂r
ei = . (2.9)
∂ξ i
Celle ci est une règle très efficace pour déterminer les vecteurs de base des coordonnées.
Une autre propriété importante est que les coefficients métriques associés à la base holonomique
mi j ≡ (ei , e j ) (voir la definition 1.2.3) ne sont rien d’autre que les coefficients gi j entrant dans
l’expression de l’élément de ligne (cf. eq. 2.2). En effet

ds2 ≡ (dr, dr) = dξ i dξ j (ei , e j )


2.3 Bases associées à un système de coordonnées 39

et en comparant avec l’équation (2.2) nous en déduisons que

gi j = (ei , e j ). (2.10)

Ceci fournit un moyen très rapide et efficace de déterminer les coefficients métriques associés à un
système de coordonnées.
Les propriétés de transformation des vecteurs sont également très simples si leurs composantes
sont exprimées dans la base holonomique. Étant donné un vecteur v comment pouvons-nous
déterminer ses composantes v i par rapport à une base holonomique {ei }i=1 N ? Il suffit d’appliquer le

schéma d’évaluation déjà développé dans le chapitre 1. En raison de l’importance cruciale de la


procédure, je répète ici les grandes lignes. La base duale associée à la base holonomique est la base
N qui satisfait au principe de dualité (e j , e ) = δ j . Les composantes d’un vecteur par rapport à
{e i }i=1 i i
la base holonomique et par rapport à son dual sont définies comme d’habitude, c.-à-d. v i = (e i , v) et
vi = (ei , v).
Puisque, en général, la base holonomique n’est pas orthonormale, les composantes vi et vi
seront différentes. Par conséquent, nous ne pouvons pas arbitrairement monter ou descendre les
indices d’un vecteur de base ou des composantes vectorielles. Alors que le delta de Kronecker
est l’opérateur qui monte et descende les indices de la base orthonormale et des composantes
orthonormales, c’est l’opérateur spécial gi j qui monte et descende les indices des vecteurs de la
base homonymique et des composantes prises par rapport à cette base.

Theorem 2.3.1 Soyent vi et v i les composantes d’un vecteur par rapport à la base homonymique
et son dual. Leur amplitude est en général différente et reliée comme suit

v j = gi j v i (2.11)
v = g vi
j ij
(2.12)

Proof Le carré de la norme d’un vecteur est


v 2 = (v i ei , v j e j ) = gi j v i v j (2.13)

ou
j
v 2 = v i (ei , v j e j ) = v i v j δi = v j v j (2.14)

et en comparant ces deux expressions nous déduisons que v j = gi j v i . En exprimant la norme


du vecteur sous la forme

v 2 = (vi e i , v j e j ) = gi j vi v j (2.15)

et en comparant avec eq. 2.14, on en déduit l’équation 2.12.

Avant d’aller plus loin, une mise en garde s’impose. Les composantes d’un vecteur par rapport
à une base holonomique ne sont pas, en général, des grandeurs physiques. Considérons par exemple
le vecteur déplacement dans la base de coordonnées associée aux coordonnées polaires dr = dρ eρ +
dφ eφ . On constate que les composantes de ce vecteur n’ont pas d’unités homogènes, la première
(dρ) étant une longueur tandis que la deuxième (dφ) est un angle. En autre, la composante par
rapport au vecteur eφ n’est pas l’amplitude du déplacement dans le sens de la coordonné curviligne
φ. Il est donc d’usage d’effectuer les calculs mathématiques à l’aide de la base holonomique, mais
de les interpréter physiquement en transformant les résultats dans la base standard à l’aide de
l’equation (2.9). Nous avons donc besoin de comprendre comment la base holonomique est liée à
la base standard.
40 Chapitre 2. COORDONNEES CURVILIGNES

Theorem 2.3.2 Considérons la base standard associée à un système de coordonnées et exprimons


le vecteur déplacement comme dr = dr i ξ̂i . Les normes des vecteurs de la base holonomique et
de celle standard sont reliées comme suit

ei = gii ξ̂i (2.16)

tandis que la relation entre les composantes du vecteur de déplacement dans les deux bases est

dr i
dξ i = √ (2.17)
gii

Proof Calculons maintenant l’élément de ligne


 
ds 2 = (dr 1 ) 2 + (dr 2 ) 2 + 2dr 1 dr 2 ξ̂1 , ξ̂2 + .... (2.18)

Cet élément de ligne coïncidera avec la définition (équation (2.2)) seulement si nous identifions
les termes comme suit
√ dr i
ei = gii ξ̂i dξ i = √ . (2.19)
gii

Si au lieu d’exploiter la base holonomique, on décide d’exprimer le vecteur déplacement élémentaire


entre deux points (voir eq. 2.8) en utilisant la base standard, on obtiendrait

dr = gii dξ i ξ̂i . (2.20)

Par exemple, le vecteur déplacement en coordonnées polaires est dr = dρ êρ + ρdφ êφ tandis qu’en
coordonnées sphèriques est dr = dr êr + rdθ êθ + r sin θdφ êφ . Ce n’est pas un peu trop compliqué ?

Exercise 2.2 Soient vi et v i les composants du vecteur v par rapport à la base holonomique et
son dual. De même, soient vî et vî les composants du vecteur v par rapport à la base standard et
son dual. Montrer que les relations suivantes s’appliquent

1
vi = √ v

(2.21)
| gii |
q
vi = |gii | vî (2.22)

2.4 Transformation de coordonnées


Comme deux systèmes de coordonnées différents ne sont que deux façons différentes d’étiqueter
le même ensemble de points d’un espace sous-jacent, il doit y avoir un lien entre eux.
En général, les équations de transformation, qui spécifient un système de coordonnées par
rapport à l’autre, sont une application d’un sous-ensemble V ⊆ R N en R N , c.--̀d.. un ensemble de N
relations
 0 0 0

ξ a = ξ a ξ 1 , ξ 2 , ...ξ N , (a = 1, 2, ..., N) (2.23)

ou, en utilisant une notation plus compacte, ξ = ξ (ξ0 ). Nous exigeons que ces relations soient
inversibles. En exigeant que la transformation soit une application bijective, nous voulons éviter
2.4 Transformation de coordonnées 41

toute confusion ou indétermination possible dans l’identification des points : un point d’un système
ne doit correspondre qu’à un seul et unique point d’un système de coordonnées différent.
Une condition suffisante pour qu’une fonction d’une seule variable puisse être inversée dans un
voisinage d’un point de son domaine de définition est que sa dérivée soit continue et non nulle à ce
point. Dans le cas des fonctions à plusieurs variables, ce théorème est généralisé comme suit :
Theorem 2.4.1 — Condition suffisante pour l’inversibilité des transformations des coordon-
nées. Supposons que la transformation ξ : V ⊆ R N → R N soit différentiable (c’est-à-dire qu’elle
possède des dérivées partielles uniques par rapport à chaque coordonnée à chaque point P ∈ V).
Supposons, en plus, que en P ∈ V le déterminant jacobien de la transformation ξ = ξ (ξ0 ), c.-à-d.
J[ξ(ξ0 )]P ≡ |∂(ξ)/∂(ξ0 )|P soit nonnul. Alors, la carte est bijective dans le entour de P. De plus, la
trasformation inverse ξ0 = ξ0 (ξ) est aussi differentiable et J[ξ0 (ξ)] = J −1 [ξ(ξ0 )].

La condition J[ξ(ξ0 )]P , 0, est appelée condition de non-dégénérescence. Sans cette condition,
la transformation peut ou non être inversible localement. (Voir Michael Spivak’s, Calculus on
Manifolds pour une demonstration formelle de ce theorème).
Nous avons maintenant besoin d’une prescription sur la façon de convertir un système de
coordonnées en un autre. On pourrait par exemple y parvenir par une simple analyse géométrique.
Considérons les coordonnées polaires {ξ 1 = ρ and ξ 2 = φ} et un système de coordonnées rectilignes
(cartésiennes) orienté de telle manière que les axes polaires coïncident avec l’axe x. D’après la figure
2.5, il est clair que les équations de transformation entre les coordonnées polaires et cartésiennes
sont les suivantes


ρ(x, y) = x 2 + y 2
p


(2.24)
φ(x, y) = arctan y/x

Exercise 2.3 Considérez la transformation de coordonnées donnée par l’equation 2.24. Montrer
que cette transformation est inversible partout sauf à l’origine ρ = 0 et que l’inverse de son
déterminant jacobien est égale au déterminant jacobien de la transformation inverse.
Solution Le determinant jacobien est
∂ρ ∂ρ x y
√ √
∂x ∂y x 2 +y 2 x 2 +y 2
J[ξ(x)] = ∂φ ∂φ = y x
= (x 2 + y 2 )−1/2 (2.25)
∂x ∂y − x 2 +y 2 x 2 +y 2

qui n’est pas dégénéré si x , 0 et y , 0. Il est alors immédiat de voir que la transformation
inverse est explicitement donnée par

 x(r, φ) = ρ cos φ


(2.26)
y(r, φ) = ρ sin φ

dont le déterminant jacobien est


∂x ∂x
∂ρ ∂φ cos φ −ρ sin φ
J[x(ξ)] ≡ ∂y ∂y = =ρ (2.27)
∂ρ ∂φ
sin φ ρ cos φ

donc J[r(x)] = J −1 [x(r)]. 

De manière analogue, on peut vérifier que la relation entre les coordonnées sphériques et
42 Chapitre 2. COORDONNEES CURVILIGNES

rectangulaires (une fois l’axe azimutal orienté parallèlement à l’axe z) est



r(x, y, z) = x 2 + y 2 + z 2
p




θ(x, y, z) = arccos z/ x 2 + y 2 + z 2
 p
(2.28)




φ(x, y, z) = arctan y/x

Cependant, il existe également un moyen systématique et analytique de mapper les systèmes de


coordonnées les uns dans les autres, ce qui est d’une grande aide, en particulier dans les cas où la
géométrie du système de coordonnées n’est ni immédiate ni intuitive.

Theorem 2.4.2 — Relation entre systèmes de coordonnées differents. Dans un espace à N


dimensions il est toujours possible de trouver une transformation locale ξ → x(ξ) d’un système
de coordonnées générique dans le système cartésien, tel que

ds2 = gi j dξi dξ j = δi j dxi dx j . (2.29)

Les équations de transformation entre les deux systèmes sont obtenues en résolvant le système
de N × N équations aux dérivées partielles

∂xk ∂x k
gi j = (2.30)
∂ξi ∂ξ j

où xk ≡ xk sont les coordonnées cartésiennes.

Proof L’équation (2.29) exprime le fait que la distance entre deux points est une grandeur universelle
indépendante du système de coordonnées particulier utilisé pour la calculer.
Les équations de transformation (2.32) découlent du calcul des différentiels dx(ξ1 , ξ2 , ...., ξ N ),
dy(ξ1 , ξ2 , ..., ξ N ) etc. et de l’insertion du résultat en (2.29). On obtient
!2 !2 !2
∂x ∂y ∂z ∂xi ∂xi
g11 = + + .... = 1 1 (2.31)
∂ξ 1 ∂ξ 1 ∂ξ 1 ∂ξ ∂ξ
∂x ∂x ∂y ∂y ∂z ∂z ∂xi ∂xi
g12 = + 1 2 + 1 2 .... = 1 2
∂ξ ∂ξ
1 2 ∂ξ ∂ξ ∂ξ ∂ξ ∂ξ ∂ξ
...
qui peuvent toutes être exprimées sous une forme plus compacte comme montré dans l’equa-
tion 2.32.

Ce théorème permet de calculer les équations de transformation entre deux systèmes de coordonnées
une fois les coefficients métriques connus. Viceversa, il peut aussi être utilisé pour déduire la valeur
des coefficients métriques associés à un système de coordonnées donné ξ si les équations de
transformation x → ξ sont connues.
Exercise 2.4 Montrer que les équations de transformation (2.26), qui mappent les coordonnées
cartésiennes en coordonnées polaires, vérifient l’ensemble des équations aux dérivées partielles
(2.32). Si vous vous sentez à l’aise avec la résolution de systèmes d’équations aux dérivées
partielles, vous pouvez aussi essayer de dériver les équations (2.26) directement de (2.32).
2.4 Transformation de coordonnées 43

Solution L’equation (2.32) peut être mise sous la forme


!2 !2
∂x ∂y
1 = +
∂ρ ∂ρ
!2 !2
∂x ∂y
ρ =
2
+
∂φ ∂φ
∂x ∂x ∂y ∂y
0 = +
∂ρ ∂φ ∂ρ ∂φ
Ce système d’équations différentielles est vérifié par les transformations (2.26) comme vous
pouvez le vérifier immédiatement.
Alternativement, nous pouvons dériver les équations (2.26) directement du système précé-
dent d’équations différentielles. À cette fin notons que (2.32) peut être réécrit comme

!2 !2
∂x ∂y
= 1− (2.32)
∂ρ ∂ρ
!2 !2
∂x ∂y
= ρ − 2
∂φ ∂φ
!2 !2 !2 !2
∂x ∂x ∂y ∂y
= (2.33)
∂ρ ∂φ ∂ρ ∂φ

En insérant la première et la deuxième équation dans la troisième, nous obtenons


!2 !2
∂y ∂y
ρ2
+ = ρ2 . (2.34)
∂ρ ∂φ

En supposant que la solution est séparable y(ρ, φ) = R(ρ)Φ(φ) nous obtenons

!2 !2 !2 !2
ρ ∂y 1 ∂y ρ
+ = (2.35)
R(ρ) ∂ρ Φ(φ) ∂φ
2 R(ρ)Φ(φ)

Donc la seule possibilité est que


!2 !2
ρ ∂y
= c2
R(ρ) ∂ρ

qui donne R(ρ) = αρ où α est une constante arbitraire. En utilisant ce résultat en (2.35) on obtient
!2
∂y 1 − α2 Φ2
=
∂φ α2

qui est résolu par


1
Φ(φ) = sin(φ + K)
α
44 Chapitre 2. COORDONNEES CURVILIGNES

On a donc

y = RΦ = ρ sin(φ + K)

Nous choisissons la constante K de sorte que y = 0 quand φ = 0 qui donne y = ρ sin φ. En utilisant
ce résultat dans l’equation (2.32) on obtient x = ρ cos φ. 

2.4.1 Coordonnées et invariance


L’élément de ligne permet de calculer les distances entre les coordonnées. Puisque nous pouvons
identifier des points de RN avec de systèmes de coordonnées différentes, la question naturelle est de
savoir si la distance entre deux points d’un espace va dépendre du système de coordonnées utilisé
pour la calculer. On peut en effet démontrer que bien que l’expression formelle de l’élément de ligne
semble dépendre du système de coordonnées, la valeur de ds2 est une quantité indépendante des
coordonnées. La distance entre les points est une grandeur géométrique, totalement indépendante
du système de coordonnées adopté pour identifier les points de l’espace.
Exercise 2.5 Les équations de transformation de coordonnées 2.26 mappent un système car-
tésien x = {x, y} dans un système polaire ξ = {ρ, φ}. Considérons l’élément de ligne cartésien
ds2 = dx2 + dy2 exprimant la distance entre deux points proches P = {x, y} et Q = {x + dx, y + dy}
et l’élément de ligne ds2 = dρ2 + ρ2 dφ2 qui donne la distance entre les deux mêmes points
représentés en coordonnées polaires (P = {ρ, φ} et Q = {ρ + dρ, φ + dφ)}. Montrez que la distance
entre P et Q est la même.
Solution Considérons l’élément de ligne ds2 = dx2 + dy2 et exprimons les différentiels dx
et dy par le biais de (2.26). Après quelques manipulations algébriques vous devriez trouver
dx2 + dy2 = dρ2 + ρ2 dρ2 

2.4.2 Matrice de passage entre systèmes de coordonnées


Considérons les bases bi et b0 associées aux systèmes de coordonnées ξ and ξ0 dans un espace
i
à N dimensions. Quelles que soient ces bases (bases standard, canoniques ou holonomique) elles
couvrent le même espace vectoriel de dimension N. L’opérateur linéaire T[...] qui transforme
chaque élément d’une base en un élément correspondant de l’autre base, b0 = T [bi ] peut être
i
représentée comme
b0k = (b0k )a bi = (bi , b0k )bi = T ik bi (2.36)
où la matrice
T ik ≡ (bi , b k 0 ) (2.37)
est appelée matrice de passage entre les bases et représente l’opérateur T[...] dans la base choisie,
dans ce cas la base bi (voir léquation (1.23)). En introduisant la matrice transposée T T nous pouvons
exprimer (2.36) comme un produit matriciel
b0k = (T k i )T bi (2.38)
ce qui, pour des raisons pratiques, est une formule plus simple a calculer que (2.36).

Exercise 2.6 Montrer que l’opérateur T ∗ [...] qui transforme la base duale bi (associé à bi ) dans
la base duale b0i (associé à b0 ) est l’inverse de l’opérateur T .
i
Solution : En exploitant le principe de dualité (1.12), nous avons
 
b0i [b0k ] = δik = (b0i , b0k ) = T ∗im b m, T nk b n = T ∗im (T nk )δmn = T ∗im T mk . (2.39)
2.4 Transformation de coordonnées 45

par conséquent, la matrice T ∗ est l’inverse de la matrice T . 

Considérons maintenant deux systèmes de coordonnées ξ et ξ0 représentant le même espace


sous-jacent. La matrice de passage qui transforme la base holonomique ei de ξ en la base holono-
mique de ξ0 a une expression très simple.
∂ξ i
T i j ≡ (ei , e0j ) = (2.40)
∂ξ j
0

En effet, en utilisant l’equation (2.9) et l’expression du vecteur position comme fonction composée
des anciennes et des nouvelles coordonnées (r[ξ(ξ0 )]), on obtient

i ∂r[ξ(ξ )] ∂r ∂ξ k ∂ξ k  i
0
! !  ∂ξ k
T j = (e , e j ) = e ,
i i 0
= e i
, = e , e k = 0 δ
a
∂ξ j ∂ξ k ∂ξ j ∂ξ j ∂ξ j k
0 0 0

à partir de laquelle l’equation (2.40) suit. Voici donc un autre avantage de travailler avec la base
holonomique : la transformation entre différentes bases peut être calculé immédiatement sans
évaluer de formes sequilinéaires. Il suffit de calculer la matrice jacobienne du changement de
∂ξ i
coordonnées J i j = ∂ξ j0 .

Exercise 2.7 Montrer que la relation entre les vecteurs unitaires sphériques et cartésiens est

ê r = sin θ cos φ ê x + sin θ sin φ ê y + cos θ ê z (2.41)


êθ = cos θ cos φ ê x + cos θ sin φ ê y − sin θ ê z (2.42)
êφ = − sin φ ê x + cos φ ê y . (2.43)

Solution Considérons la base cartésienne êi dont les éléments sont { x̂, x̂, x̂} et notons qu’elle
est une base homonymique. Soit e0i la base homonymique sphérique. Il suffit de calculer la
matrice de passage qui transforme la base holonomique cartésienne en la base holonomique
sphérique. En utilisant e0 = T ik êi avec T ik donnée par l’equation (2.40) on trouve
k

e r = sin θ cos φ ê x + sin θ sin φ ê y + cos θ ê z (2.44)


eθ = r cos θ cos φ ê x + r cos θ sin φ ê y − r sin θ ê z (2.45)
eφ = −r sin φ ê x + r cos φ ê y (2.46)

La réponse suit en transformant la base holonomique sphérique en la base canonique en utilisant


l’équation (2.16).
Un moyen plus rapide d’arriver à la même réponse consiste à exprimer les composantes
du vecteur position cartésien r = x ê x + y ê y + z ê z en utilisant les coordonnées sphériques (r =
r sin θ cos φ ê x + r sin θ sin φ ê y + r cos θ ê z ) et, ensuite, utiliser le fait que
∂r
∂ξ i
êi = . (2.47)
∂r
∂ξ i

2.4.3 Transformation des composantes vectorielles


Après avoir discuté comment les bases se transforment lorsque nous changeons le système de
coordonnées, il est temps de se pencher sur le problème de comprendre comment les composantes
d’un vecteur, qui sont des quantités dépendantes des coordonnées, changent. Nous spécialiserons la
discussion aux vecteurs représentés sur une base holonomique bien que l’on puisse appliquer la
méthode à toute autre base choisie.
46 Chapitre 2. COORDONNEES CURVILIGNES

N = {v 1 , ...., v N } et {v i0 }N = {v 10 , ...., v N 0 } deux ensembles différents


Theorem 2.4.3 Soient {v i }i=1 i=1
de composantes du même vecteur v ∈ V pris par rapport à la base de coordonnées ei et e0
i
respectivement. Par conséquent les composantes son reliées comme suit
0  −1
v i = T ij v j (2.48)

i0 ≡ e 0 i , v . On a donc
 
Proof Les composantes d’un vecteur v ∈ V sont définie comme suit v
0    
v i ≡ e 0 i , v = T ∗i j e j , v = (T ij )−1 v ĵ

où nous avons utilisé le fait que la matrice de passage entre deux bases duales est l’inverse de
la matrice de passage T entre les bases de V (voir l’equation (2.39)).

Nous pouvons prendre le théorème précédent comme une définition de ce qu’est un vecteur.
Considérons par exemple trois fonctions de coordonnées spatiales, par exemple f 1 (ξ), f 2 (ξ) et
0 0 0
f 3 (ξ) qui, sous la transformation de coordonnées ξ → ξ0 deviennent f 1 (ξ), f 2 (ξ) and f 3 (ξ). En
général, ils ne représentent pas les composantes d’un vecteur, sauf s’ils se transforment selon
l’équation (2.48).
La transformation spéciale qui transforme une base canonique êi de ξ en la base canonique
ê0 de ξ0 est une matrice qui fait tourner les vecteurs sans changer leur longueur. En autre, elle
i
fait tourner tous les vecteurs de la base du même angle. Elle est ainsi appelé matrice de rotation.
Puisque une base et son dual sont identiques dans le cas de systèmes orthonormaux, la position en
haut ou en bas des indices de la matrice de rotation est sans importance. Nous pouvons donc écrire
(2.37) comme

Ri j ≡ (êi , ê0j ). (2.49)

Ses éléments R ij sont parfois appelés cosines directeurs.


Parmi tous les matrice de passage, la matrice de rotation se distingue par un propriété très
importante : c’est un opérateur ‘orthogonal’. Le fait que, lorsqu’il est appliqué aux vecteurs,
l’opérateur de rotation ne modifie pas ni leur longueur ni les angles entre eux impliquent que
RT R = I, où I est la matrice d’identité.

Proof Un vecteur générique de0 la nouvelle base peut être développé en terms des vecteurs de
l’ancienne base comme ê = R i ê k . Puisque ê est toujours un vecteur unitaire (la rotation ne
k 0
i i
modifie pas la longueur des vecteurs), on en déduit que
 T
(ê0i , ê0j ) = δab = R mi R nj (ê m , ê n) = R mi R nj δmn = R mi R m j = Ri m Rm j

Puisque R−1 = RT , nous concluons (voir les équations (2.38) et 2.48)) que la matrice RT qui
transforme les vecteurs de la base canoniques est la même qui transforme aussi les composantes
vectorielles.

2.5 Dérivées de vecteurs géométriques


Dans la section 2.3 nous avons formellement introduit la dérivée d’un vecteur géométrique. Pas-
sons brièvement en revue sa définition et ses propriétés. Un vecteur géométrique est formellement
un élément de VN , l’espace vectoriel réel contenant tous les segments orientés reliant les points de
RN . Si cela peut vous aider, vous pouvez penser à un vecteur géométrique comme étant une flè̀che !
2.5 Dérivées de vecteurs géométriques 47

Considérons un vecteur géométrique qui dépend d’un paramètre continu t ∈ R, généralement le


temps. Puisque le vecteur peut varier en longueur et en direction lorsqu’il est évalué à deux instants
t différents, il est naturel d’étudier son taux de changement. Nous disons que le vecteur v(t) admet
un dérivé à un point t0 si la limite suivante existe
dv v(t + ∆t) − v(t)
≡ lim . (2.50)
dt t0 ∆t→0 ∆t

Notez qu’une telle limite, parfois aussi dénotée par v0 (t0 ), est toujours un vecteur.
Les propriétés suivantes s’appliquent :
d(u + v) du dv
= + (2.51)
dt dt dt

d df du
( f u) = u+ f (2.52)
dt dt dt
où f est une fonction d’une variable réelle ayant des valeurs réelles. On peut aussi montrer que 4
d du du
u·v = u· +v· (2.53)
dt dt dt

d dv du
u×v = u× +v× (2.54)
dt dt dt
La démonstration de ces propriétés, à partir de la définition (2.50), est simple et laissée comme
exercice.
Exercise 2.8 Montrez que si v = ||v|| est la norme d’un vecteur v(t) alors

dv v dv
= · (2.55)
dt v dt
Déduire aussi que si le vecteur v a une longueur constante, alors pour toute valeur de t, sa dérivée
dvdt est nulle ou perpendiculaire au vecteur v. 

Si le vecteur est de classe C k autour d’un point t, c’est-à-dire qu’il admet des dérivées continues
jusqu’à l’ordre k, alors on peut considérer aussi les dérivées successives du vecteur, notamment la
différence entre la valeur du vecteur en t0 et t0 + ∆t peut être exprimée par l’expansion de Taylor
1 2 1
v(t0 + ∆t) − v(t0 ) = dv(t0 ) + d v(t0 ) + .... + dk v(t0 ) + o(∆tk ) (2.56)
2! k!
où dv(t0 ) = v0 (t0 )∆t, d 2 v(t0 ) = v”(t0 )∆t 2 etc. sont les différentiels successives du vecteur v calculées
en t0 .
La question pratique, à ce stade, est de savoir s’il existe une formule générale permettant de
calculer les dérivées des vecteurs géométriques dans le cas général. La réponse est oui. En fait,
il existe de nombreuses façons de calculer la dérivée d’un vecteur géométrique. L’approche la
plus simple, qui est également intuitive, est une approche géométrique. Il exploite le fait que la
dérivée d’un vecteur géométrique de longueur constante, par exemple un vecteur de base êi , est
4. Le produit vectoriel entre deux vecteurs géométriques u×, v = u v sin θk où 0 ≤ θ ≤ π est l’angle entre les vecteurs
et k est un vecteur unitaire qui pointe perpendiculairement au plan défini par les deux vecteurs, dans le sens donné par la
règle de la main droite
48 Chapitre 2. COORDONNEES CURVILIGNES

Figure 2.8 – Gauche : changement dans l’orientation du vecteur unitaire ê1 (seule l’orientation
change, pas la longueur). L’amplitude de la différence, représentée par le vecteur ∆ê a se rapproche,
dans la limite d’un déplacement infiniment petit, de dθ.

un vecteur qui est soit nul soit perpendiculaire à êi . Considérons un champ de vecteurs unitaires
et en particulier deux vecteurs en deux points infiniment proches P et P + dP. Il n’y a que deux
configurations possibles : soit le vecteur en P + dP est parallèl au vecteur en P. soit il est tourné par
rapport au vecteur en P. Supposons que nous voulions calculer la différence dêi = êi (P + ∆P) − êi (P).
Pour effectuer une telle soustraction, nous devons transporter un vecteur de sorte que son origine
coïncide avec l’origine du second. Rappelez-vous : la règle des parallélogrammes nous apprend
comment ajouter ou soustraire des vecteurs seulement s’ils ont une origine commune. Par définition
un transport parallèle, est l’acte de transporter un vecteur sans changer son orientation. Supposons
que le vecteur à P + ∆P, après avoir été transporte parallèlement en P résulte être parallel au vecteur
qui se trouve en P. Dans ce cas la dérivée est nulle. Supposons, au lieu de cela, qu’une fois le
transport parallèle effectué jusqu’à la position P, le vecteur unitaire êi (P + ∆P) form un angle ∆θ k̂i
avec le vecteur êi (P) (voir la figure 2.8.) Ici, k̂i est un vecteur unitaire perpendiculaire au plan
contenant l’angle ∆θ et définit l’axe de rotation du vecteur ˆi
Le vecteur resultant ∆êi ≡ êi (θ + ∆θ) − êi (θ) est perpendiculaire à l’original, et sa longueur,
dans la limite d’un petit angle de rotation est simplement donnée par la longueur de l’arc de la
circonférence de l’unité sous-tendue par la différentielle dθ

∆êi dêi
lim = = k̂i × êi . (2.57)
∆θ→0 ∆θ dθ
Par conséquent, non seulement la dérivée d’un vecteur par rapport à son angle de rotation est
perpendiculaire au vecteur original, mais elle est elle-même un vecteur unitaire. Notez, aussi que le
vecteur résultant est obtenu par rotation de êi dans le sens inverse des aiguilles d’une montre, d’un
angle π/2.

R Dans un espace euclidien, deux vecteurs unitaires appliqués à deux positions différentes de
l’espace peuvent toujours être trasmportés, sans altérer leur orientation, de telle sorte que
leurs “queues” aient la même origine. Cette opération de transport d’un vecteur est moins
triviale dans des espaces courbes, où la notion de transport parallèle d’un vecteur n’est pas
définie de manière univoque et sans ambiguïté à moins que des informations supplémentaires,
telles que la trajectoire suivie par les vecteurs géométriques pendant le transport, ne soient
précisées.

Exercise 2.9 Calculez la dérivéee partielle des vecteurs unitaires de la base polaire canonique
{êρ , êφ } par rapport aux coordonnées {ρ, φ}.
Solution. les vecteurs de base êρ (φ) et êφ (φ) dependent seulement de la coordonnée angulaire
φ : ni la longueur ni l’orientation des vecteurs unitaires ne changent si nous les déplaçons dans le
sens radial. Nous en déduisons donc immédiatement que ∂ρ êρ = 0 and ∂ρ êφ = 0. Afin de calculer
∂φ êρ (φ) = 0, on applique 2.57. L’angle de rotation infinitesimale dθ coïncide avec dφ, en plus le
vecteur unitaire depends uniquement de φ de telle façon que la dérivée partielle coïncidera avec
2.6 Mesures métriques II : éléments de surface et de volume 49

la dérivée totale. Puisque k̂ a est un vecteur unitaire perpendiculaire au plan contenant {êρ et êφ }
on déduit que k̂ a × êρ = êφ . Donc ∂φ êρ (φ) = êφ . De même, on peut vérifier que ∂φ êφ (φ) = −êρ . 

Si le déplacement du vecteur a lieu dans un intervalle de temps donné, on peut réécrire l’equation
2.57 comme
dêi
= ωi × êi (2.58)
dt
où ωi = dθdt k̂i est la vitesse de rotation du vecteur êi On peut montrent en effet qu’il existe un nombre
infini de vecteurs ωi qui satisfont à l’équation précédente, tous ceux obtenus en ajoutant à ωi un
vecteur arbitraire parallèle à êi . Par conséquent, la composante de ωi le long du vecteur unitaire êi
est arbitraire.

2.6 Mesures métriques II : éléments de surface et de volume


Maintenant que nous savons comment mesurer les distances entre deux points d’un système
de coordonnées, nous allons étudier comment mesurer le volume couvert par les cellules élé-
mentaires définies par les grilles de coordonnées. Soit {ξ 1 , ξ 2 , ..., ξ N } un système de coordonnées
curvilignes. Nous sommes intéressés par la mesure du volume du parallélotope [ξmin 1
, ξ1Max ] ×
2
[ξmin , ξ Max
2
] × ........ × [ξmin
N
, ξ Max
N
] défini comme l’ensemble des points {(ξ 1 , ξ 2 , ..., ξ N ) ∈ R N tels que
ξ ∈ [ξmin , ξ Max ], ξ2 ∈ [ξmin , ξ Max ], ..., ξ N ∈ [ξmin
1 1 1 2 2 N
, ξ Max
N
].
Avant d’aborder ce problème, intéressons nous au problème connexe, bien plus simple, de
la détermination de la surface ∆2 d’un parallélogramme, dont les côtés sont représentés par les
vecteurs v1 and v2 . Voyons quels types de propriétés une telle surface doit satisfaire. Considérez
une fonction ∆2 (v1 , v2 ) qui prend en entrée deux vecteurs bidimensionnels et retourne l’aire du
parallélogramme généré par ces vecteurs. Intuitivement, quelles propriétés devrait avoir la fonction
∆2 ? Il est évident que
∆2 (v1 , v1 ) = 0 (2.59)
∆2 (λv1 , µv2 ) = λ µ ∆2 (v1 , v2 )
∆2 (v1 + v2 , v3 + v4 ) = ∆2 (v1 , v3 ) + ∆2 (v1 , v4 ) + ∆2 (v2 , v3 ) + ∆2 (v2 , v4 )
∆2 (v̂1 , v̂2 ) = 1.
La première propriété impose qu’une figure n’a pas d’extension si deux côtés du parallélogramme
coïncident. Les deuxième et troisième propriétés (linéarité dans les deux arguments) assurent
que la surface est une grandeur additive. En doublant un côté, la surface double. La dernière
garantit que la surface d’un carré unitaire est normalisée à l’unité. Tout opérateur qui satisfait aux
propriétés ci-dessus doit également satisfaire au critère suivant ∆2 (v1 , v2 ) = −∆2 (v2 , v1 ). Notez que
cette proposition montre qu’une surface est dotée d’une caractéristique supplémentaire, l’orientation
dans l’espace, qui est spécifiée par un signe positif ou négatif.
Un théorème, non démontré ici, affirme qu’il n’existe qu’une seule et unique fonction qui
satisfait aux propriétés 2.60 ci-dessus. Une représentation de cette fonction, par exemple, est le
produit vectoriel en deux dimensions. Vous pouvez facilement vérifier que ∆2 = v1 ×v2 satisfait toutes
les propriétés ci-dessus . Notez que si les vecteurs sont représentés dans une base orthonormale
(v1 = v1 î êi , v2 = v2 î êi ) alors la surface generée par ces vecteurs est simplement donnée par la norme
|∆2 | = v1 1̂ v2 2̂ − v1 2̂ v2 1̂ = i j v1 î v2 ĵ où i j est le symbole de Levi-Civita. La norme du vecteur resultant de
ce produit vectoriel est donc le déterminant d’une matrice 2 × 2 dont les lignes sont les composantes
des vecteurs v1 and v2 par rapport à une base orthonormale,
!
v1 1̂ v1 2̂
∆2 (v1 , v2 ) = 1̂ . (2.60)
v2 v2 2̂
50 Chapitre 2. COORDONNEES CURVILIGNES

Avec deux dimensions comme source d’inspiration, généralisons la discussion au cas d’un es-
pace a N dimensions. Nous allons définir une fonction ∆N .(v1 , v2 , ..., vN ) qui accepte N vecteurs (tous
N−dimensionnels) et retourne ce que l’on pourrait appeler le volume, avec signe, N-dimensionnel
généré par ces vecteurs (ce qui signifie que le volume N dimensionnel, comme une surface bidimen-
sionnel, à un signe plus ou moins.) Si vous y pensez, nous devrions exiger exactement les mêmes
propriétés pour ∆N que nous avons demandé pour ∆2 , soit
1) Si deux des vecteurs sont identiques, alors ∆N = 0, c.à-d., ∆N (v1 , ..., u, ..., u, ..., vN ) = 0.
2) Si N − 1 des vecteurs sont fixes alors ∆N est linéaire dans la variable restante.
3) ∆N (ê1 , ê2 , ..., êN ) = 1.
Comme ci-dessus, pour toute fonction ∆N qui satisfait aux propriétés 1 à 3 ci-dessus, l’échange de
deux vecteurs quelconques dans ∆N inverse le signe de ∆N . De plus, on peut prouver que il y a une
et une seule fonction ∆N qui satisfait les propriétés 1 à 3 ci-dessus. On pourrait reconnaître que le
déterminant de la matrice N × N formé à partir des vecteurs v1 , ..., vN satisfait la propriété ci-dessus
et nous fournit une procédure pour calculer le volume N−dimensionnel.
Appliquons ces résultats et découvrons comment calculer le volume élémentaire du parallélo-
tope défini par les lignes de coordonnées. Nous voulons donc calculer l’expression de l’élément
de surface élémentaire (en 2D), de l’élément de volume (en 3D) et de l’élément de N−volume (en
N-dimensions) dans différents systèmes de coordonnées. Considérons un système de coordonnées
générique ξ. Nous avons vu que la différence des coordonnées dξ 1 ne représente pas la distance
mesurée sur la ligne de coordonnées ξ 1 . De même, le produit dξ 1 dξ 2 ne mesure pas la surface du
parallélogramme obtenu en variant les deux coordonnées ξ 1 et ξ 2 selon les coordonnées respectives.
Pour ce faire, nous devons identifier les ‘bords’ du parallélétope dont nous voulons mesurer le
N-volume. Ce sont par définition les vecteurs composants dr1 = dξ 1 e1 , dr2 = dξ 2 e2 etc, dont la
somme donne le déplacement élémentaire dr, qui peut être interprété comme la ‘diagonale’ du
parallélotope. Puisque chaque vecteur dri peut être exprimé comme la combinaison linéaire des
vecteurs d’une base orthonormale,

i ∂r i ∂x ∂y ∂z ∂w
!
dri = dξ i = dξ ê x + i ê y + i ê z + ..... + i êw pas de somme sur l’indice i (2.61)
∂ξ ∂ξ i ∂ξ ∂ξ ∂ξ

le N−volume ∆N (dr1 , dr2 , ....drN ) simplement indiqué comme d N r est donc


∂x ∂y ∂w ∂x ∂x ∂x
∂ξ 1
dξ 1 ∂ξ 1
dξ 1 ... ∂ξ 1
dξ 1 ∂ξ 1 ∂ξ 2
... ∂ξ N
∂x ∂y ∂w ∂y ∂y ∂y
dξ 2 dξ 2 ... dξ 2 ... ∂ξ N
dN r = ∂ξ 2 ∂ξ 2 ∂ξ 2 = ∂ξ 1 ∂ξ 2 dξ 1 dξ 2 ....dξ N (2.62)
... ... ... ... ... ... ... ...
∂x ∂y ∂w ∂w ∂w ∂w
∂ξ N
dξ N ∂ξ N
dξ N ... ∂ξ N
dξ N ∂ξ 1 ∂ξ 2
... ∂ξ N

où nous avons utilisé le fait que le déterminant d’une matrice est identique au déterminant de sa
transposée, et que le déterminant est multiplié par un scalaire si tous les éléments d’une ligne sont
multiplié par ce scalaire. Le N−volume élémentaire du parallélotope obtenu en découpant l’espace
avec la coordonnée ξ est donc
∂(x)
dNr = dξ 1 dξ 2 dξ 3 ....dξ N (2.63)
∂(ξ)
Le déplacement élémentaire le long d’une ligne de coordonnées peut aussi être exprimé par

dr = gii dξ i ξ̂i . Si le système de coordonnées est orthogonal, c.à-d. ξ̂i = êi , alors il est facile de
démontrer que le N−volume des parallèletopes élémentaires définis par les grilles de coordonnées
peut aussi s’exprimer simplement comme suit

dNr = g11 g22 g33 ......gNN dξ 1 dξ 2 dξ 3 .......dξ N (2.64)
2.7 Résumé 51

Par exemple, le parallélogramme élémentaire obtenu en découpant un plan avec des coordonnées
polaires est d 2 r = ρdρdφ. Les volumes élémentaires en coordonnées sphériques et cylindriques
sont d 3 r = r 2 sin θ dr dθ dφ and d3 r = ρdρ dφ dz respectivement.
L’ expression 2.64 est juste un cas particulier d’une loi plus générale qui peut être appliquée
même lorsque les systèmes de coordonnées ne sont pas orthogonaux

d N r = g dξ 1 dξ 2 dξ 3 .......dξ N (2.65)

où g = |gab | est le déterminant de la matrice métrique associée au système de coordonnées ξ.


Exercise 2.10 Montrer que l’amplitude de l’élément de surface (à rayon constant) en coordon-
nées sphériques est d 2 r = r 2 dΩ où dΩ ≡ sin θ dθ dφ 

2.7 Résumé
Bien que les physiciens recherchent toujours une formulation des lois physiques en terme
d’équations indépendantes des coordonnées, les coordonnées sont importantes si nous voulons
résoudre ces équations ! Souvent, la partie la plus importante de la résolution d’un problème en
physique est le choix du système de coordonnées approprié dans lequel exprimer les équations
fondamentales. Inutile de dire qu’un choix approprié simplifie grandement l’analyse. Nous avons
montré comment construire des systèmes de coordonnées extrêmement utiles a ces fins : le cartésien,
le polaire, le sphérique et le cylindrique. Bien que les systèmes ci-dessus soient de loin les plus
couramment utilisés en physique, la liste n’est pas exhaustive.
Le système de coordonnées lui-même est une structure qui permet d’identifier numériquement
les points d’un espace. Mais la distance entre deux points n’est pas la différence entre leurs
coordonnées ! La structure métrique qui permet de déduire les distances entre les coordonnées est
l’élément de ligne associé à un système de coordonnées donné. Nous avons vu que l’expression
formelle de l’élément de ligne

ds2 = gi j dξi dξ j

dépend du système ξ de coordonnées choisies pour identifier les point d’un espace, bien que la
distance résultante soit une quantité indépendante des coordonnées ; la même quantité quel que soit
le système de coordonnées utilisé pour la calculer dans la pratique.
A chaque système de coordonnées ξ on peut associer une base vectorielle qui décrit, en chaque
point, l’orientation des lignes des coordonnées. On a trouve utile de les classifier en trois types : la
base standard ξ̂i , la base canonique êi et la base holonomique êi . Cette dernière est souvent la plus
utile d’un point de vue du calcul, surtout quand il s’agit de trouver les relations de transformations
entre différentes systèmes de coordonnées.
Enfin, on a exposé une méthode pour déterminer les éléments de surface et de volume dans
n’importe quel système de coordonnées curvilignes. Supposons, par example, que nous devions
intégrer une fonction f sur un domain D ayant deux, trois voir plusieurs dimensions. L’integration
en coordonnées cartésiennes se révélant difficile à effectuer, il est souvent nécessaire de transformer
l’argument de la fonction f dans un système de coordonnées qui simplifie l’intégration. La formule

d N r = g dξ 1 dξ 2 dξ 3 .......dξ N (2.66)

nous permet donc d’exprimer l’element de surface ou de volume dans le système de coordonnées ξ
choisi.

2.8 Exercices
52 Chapitre 2. COORDONNEES CURVILIGNES

Exercise 2.11 Une particule se déplace le long de la courbe tridimensionnelle γ : R → R3


donn´‘ee par les équations paramétriques suivantes

x(t) = cos t (2.67)


y(t) = sin t (2.68)
z(t) = t (2.69)

où t ∈ R. i) Exprimez le vecteur position de cette particule en utilisant les coordonnées sphériques


(r, θ, φ) et les coordonnées cylindriques (ρ, φ, z). ii) Exprimez le vecteur position de la particule
dans ces deux systèmes de coordonnées. 

Exercise 2.12 Considérez l’élément de ligne suivant ds2 = adx2 + bdxdy + cdy2 où a, b et c
sont des coefficients constants. Le système de coordonnées ayant cet élément de ligne est-il
orthogonal ? Montrez que cet élément de ligne peut être écrit comme le produit matriciel suivant
ds2 = dxT gdx où dx est une matrice à une colonne dont les éléments sont {dx, dy, dz}, dxT est sa
transposée et g est une matrice symétrique dont les éléments gi j sont les coefficients métriques
associés aux système de coordonnées. Déterminer gi j et gi j . Existe-t-elle une transformation
de coordonnées x = x(u, v, w), y = y(u, v, w),, z = z(u, v, w) de sorte que l’élément de ligne puisse
être écrit sous la forme ds2 = du2 + dv2 + dw2 ? 

Exercise 2.13 Les équations

x2 y2
+ = 1 (2.70)
a2 cosh2 µ a2 sinh2 µ
x2 y2
− = 1 (2.71)
a2 cos2 ν a2 sin2 ν
où µ est un nombre non negatif et ν ∈ [0, 2π), définissent les système de coordonnées elliptiques.
i) Tracez les lignes de coordonnées µ = const et ν = const de ce système de coordonnées .
ii) Trouvez les équations de transformation x = x(µ, ν) et y = y(µ, ν) entre les coordonnées
cartésiennes {x, y} et les coordonnées elliptiques {µ, ν}.
iii) Pour quelles valeurs de {µ, ν} ces équations de transformation sont-elles inversibles ? Quelles
sont les équations de transformation inverse µ = µ(x, y) and ν = ν(x, y).
iv) Déterminez l’élément de ligne ds2 associé au système de coordonnées {µ, ν}
v) Ce système de coordonnées est-il orthogonal ?
vi) Déterminez la matrice métrique gi j associée au système de coordonnées elliptiques. Quels
sont les éléments de la matrice gi j .
vii) Trouvez la matrice qui transforme la base canonique associée au système cartésien {ê x , ê y }
en la base canonique du système elliptique {êµ , êν }. Cette matrice est-elle orthogonale ?
viii) Exprimez les vecteurs de la base canonique elliptique {êµ , êν } en fonction des vecteurs de la
base canonique cartésienne {ê x , ê y }.
ix) Exprimez le vecteur position dans le système de coordonnées elliptiques
x) Trouvez la base holonomique {eµ , eν } associée au système de coordonnees elliptique et verifiez
si (ei , ei ) = gi j .
xi) Déterminez l’ élément de surface infinitésimal d2 r dans le système de coordonnées elliptiques.

2.8 Exercices 53

Exercise 2.14 Considérons la transformation de coordonnées suivante, qui relie les coordonnées
cartésiennes {x, y} à un nouvel ensemble de coordonnées curvilignes {µ, ν} :
1 2
x= µ − ν2 y = µ ν.

(2.72)
2
a) Tracez les courbes µ = const et ν = const dans le plan [x, y].
b) Ecrivez l’élément de ligne ds 2 en utilisant les coordonnées {µ, ν} et deduire les facteurs
d’échelle associés à ce système de coordonnées.
c) Ce système de coordonnées {µ, ν} est-il orthogonal ?
d) Cette transformation de coordonnées est-elle inversible ? Si oui donnez les relations µ =
µ(x, y) and ν = ν(x, y).
e) Trouvez la matrice qui transforme la base holonomique associèe au système {x, y} en la
base holonomique du système {µ, ν}. Est-elle une matrice de rotation ?
f) Exprimez les vecteurs unitaires êµ et êµ de la base canonique de {µ, ν} en fonction des
vecteurs de la base canonique cartesienne (ê x et êy )
√ √
g) Soient {1/ 2, 1/ 2} les composantes cartésiennes d’un vecteur v. Quelles sont les compo-
santes de v par rapport à la base canonique du système de coordonnées {µ, ν} ?
h) Quelle est l’expression de l’élement de surface d2 r dans le système de coordonnees {µ, ν} ?


d2 r
Exercise 2.15 Exprimez les vecteurs vitesse (a ≡ dr
dt ) et accélération (a ≡ dt2 ) dans le système
de coordonnées cartésiennes, dans le système de coordonnées polaires et dans le système de
coordonnées sphériques. 

Exercise 2.16 Les équations transformants un système de coordonnées cartésiennes en un


système cylindrique sont :

x = ρ cos φ (2.73)
y = ρ sin φ (2.74)
z = z (2.75)

(i) Trouvez la matrice qui permet de passer de la base canonique du système de coordonnées
cartésiennes à la base canonique du système de coordonnées cylindrique.
Cette matrice est-elle une matrice de rotation ? (ii) Determinez les vecteurs de la base canonique
du système de coordonnées cylindriques en fonction des vecteurs de la base canonique du
système cartésien 

Exercise 2.17 1 (i) Déterminez la matrice de rotation qui transforme la base canonique d’un
système de coordonnées cylindrique en la base canonique d’un système de coordonnées sphé-
riques.
(ii) Exprimez les vecteurs de la base canonique du système de coordonnées sphériques en
fonction des vecteurs de la base canonique du système cylindrique.
(iii) Soient (v ρ̂ , v φ̂ , v ẑ ) les composantes d’un vecteur v par rapport à la base canonique du système
de coordonnées cylindriques. Quelles sont les composantes de ce même vecteur par rapport à la
base canonique du système de coordonnées sphériques ? 
3. Calcul des Variations

Le calcul des variations est la branche de la physique mathématique concernée par les maxima,
minima ou points d’inflexion des fonctionnels. On attribue souvent à Newton le mérite d’avoir été
le premier à enquêter sur ce genre de problèmes. Le problème qu’il a étudié dans les Principia est
de trouver la forme de la coque d’un navire qui minimise la traînée lorsqu’il se déplace dans l’eau,
ou, en termes plus formels, la forme que prend un solide de révolution lorsqu’il se déplace dans un
fluide homogène à vitesse constante et dans la direction de l’axe de la rotation. Quoi qu’il en soit, les
problèmes qui nécessitent le calcul des variations étaient connus depuis l’antiquité. Mentionnons, à
titre d’exemple, le problème de Didon : dans Énéide de Virgile, la reine Didon de Carthage s’est
vue offrir autant de territoire de la ville de Carthage que une corde faite de peau de taureau aurait pu
entourer. Sachant que la côte de Carthage, sur la Méditerranée, est presque rectiligne, le problème
se réduit à trouver la courbe de longueur fixe reliant deux points d’un segment et entourant la
plus grande surface possible. Parmi les autres problèmes classiques qui nécessitent du calcul des
variation, et qui sont en fait à l’origine du développement de cette discipline, on peut citer le
— le problème de Plateau : un bord étant donnéé, trouver la surface minimale s’appuyant sur ce
bord. Par exemple, un film de savon sur une armature métallique adoptera cette configuration
de surface minimale.
— la brachistochrone de Johann Bernoulli : une masse ponctuelle m glisse sur une courbe à
extrémités fixes. En supposant que l’énergie mécanique E = 12 mv2 + U(x) est constante, il
faut trouver la courbe sur laquelle la descente est la plus rapide
— la caténaire : trouver la forme d’une chaîne lourde suspendue aux extrémités et de longueur
fixe.
Les travaux sur les généralisations de ces problèmes ont finalement conduit, en 1744, à un traité
d’Euler qui systématisa les méthodes de solution. Cette méthode couplait le calcul différentiel avec
des raisonnements géométriques. En 1745, Lagrange, qui était à l’époque un jeun de 19 ans, écriva
à Euler pour décrire une méthode générale qui ne repose pas sur des méthodes géométriques. La
réponse d’Euler a été d’abandonner ses méthodes en faveur de celles de Lagrange, méthodes qu’Eu-
ler appela " calcul des variations ". Ce chapitre portera sur le calcul des variations, essentiellement
tel que présenté par Lagrange dans sa Mécanique Analytique de 1788, qui refond la mécanique en
56 Chapitre 3. Calcul des Variations

termes d’équations différentielles. Lagrange était fier du fait que son livre ne contient pas de figures
ni de diagrammes géométriques, ce qui est en contraste flagrant avec les Principia de Newton, qui
ne contient aucune équation !
Les problèmes de variation impliquent tous de trouver des maxima ou des minima des fonction-
nels, et donc d’introduire une nouvelle sorte de dérivée, la dérivée fonctionnelle. Avant d’atteindre
cet objectif, cependant, on reviendra brièvement sur le problème plus simple de la recherche de
maxima et de minima de fonctions.

3.1 Maxima et minima relatifs de fonctions


Considérons, par souci de simplicité, le cas d’une fonction d’une variable unique et rappelons
ce que nous entendons par son maximum ou son minimum relatif.
Definition 3.1.1 — Maximum ou minimum relatif. La fonction ϕ(ξ) a un maximum local (ou
relatif) au point ξc s’il existe un interval I contenant ξc tel que ϕ(ξc ) ≥ ϕ(ξ) pour tous ξ ∈ I. De
même, la fonction a un minimum local à ξc si ϕ(ξc ) ≤ ϕ(ξ) pour tout ξ ∈ I .

Les points ξc où une fonction a un maximum ou un minimum relatif sont appelés collectivement
extrema.
La procédure pour trouver systématiquement les extrema dans le cas d’une fonction d’une
variable (cartésienne) y = f (x) est due à Fermat. L’intuition de Fermat’s a été de comprendre que
les extrema d’une fonction, dans un intervalle ouvert, peuvent être identifiés parmi les points où la
fonction est stationnaire, c’est-à-dire que sa différentielle d f (x) s’annule. En d’autres termes, parmi
les points où la tangente de la courbe f (x) est horizontale. Les points xc qui résolvent l’équation
d f (xc ) = f 0 (xc )dx = 0 (0 ≡ d/dx) sont appelées points critiques ou stationnaires. Cette stratégie
pour trouver les extrema s’appelle donc le méthode de Fermat ou test de la dérivée première. 1 Il
est à noter que la méthode de Fermat fournit seulement une condition nécessaire e à l’existence
d’un extremum. En effet, certains points critiques sont des points d’inflexion (pas un maximum ou
un minimum mais une selle). Rappelons aussi qu’il faut aussi tester si les extrêmes sont situés à des
points où le théorème de Fermat ne s’applique pas, c’est-à-dire à la limite du domaine de definition
de la fonction, ou à des points où la fonction n’est pas dérivable, comme par exemple les points de
discontinuité.
Le critère suffisant pour qu’un point stationnaire soit un extremum est fourni par le test de
la dérivée seconde, c.-à-d.. l’analyse de la valeur de la dérivée seconde de la fonction à un point
critique. Si f 00 (xc ) > 0, alors xc est un minimum relatif (ou absolu). Si f 00 (xc ) < 0, alors xc est un
maximum relatif (ou absolu). Si f 00 (xc ) = 0, le test n’est pas concluant, le point d’inflexion pourrait
être un maximum, un minimum ou aucun, par exemple être une selle.
Exercise 3.1 Pourquoi la dérivée seconde nous renseigne-t-elle sur la nature des points cri-
tiques ? Comment pouvez-vous déterminer la nature du point critique xc si f 00 (xc ) = 0 ?
Solution On développe la fonction en série de Taylor jusqu’au second ordre dans un voisinage
du point critique xc
1 00
f (x x + dx) ≈ f (xc ) + f 0 (xc )dx + f (xc )dx2 + o(dx2 ).
2!
Puisque la dérivée première au point critique est par définition égale à zéro, le signe de la
dérivée seconde déterminera si le point critique est un maximum (dérivée seconde négative) ou
un minimum (dérivée seconde positive). Si la dérivée seconde est égale à zéro, nous devons

1. La méthode a été élaborée par P. Fermat en 1637 et discutée dans la lettre Methodus ad Disquirendam Maximam
et Minimam.
3.1 Maxima et minima relatifs de fonctions 57

étudier le signe des dérivées premières à gauche et à droite du point critique xc . A ce fin on peut
developper la fonction à un ordre supérieur (à deux) et considérer la première dérivée non nulle
en xc . Si le premier ordre non-nul est impair, quelle est la nature du point critique ? et si c’est
pair ? 

Les notions de test de la dérivée première et seconde s’appliquent aux fonctions de plusieurs
variables. Considérons un champ scalaire à deux variables ϕ = ϕ(ξ 1 , ξ 2 ). Les points critiques
sont des points dans le plan [ξ 1 , ξ 2 ] où la différentielle totale dϕ de la fonction s’annulle, c.-à-d.
où le plan tangent à la surface ϕ est horizontal. Quel que soit le déplacement infinitésimal dr à
partir du point critique, la fonction ne change pas au premier ordre d’approximation. La condition
dϕ = ∇ϕ · dr = 0 implique que, aux points critiques, ∇ϕ = 0 puisque le déplacement dr est arbitraire.
Nous concluons donc que les points critiques sont les solutions simultanées des deux équations
suivantes

∂1 ϕ = 0
∂2 ϕ = 0.

Exercise 3.2 Trouver les points critiques de la fonction scalaire


1 3
+x−y2
ϕ(x, y) = e− 3 y

Solution Les dérivées partielles sont ∂ x ϕ = (−y2 + 1)ϕ et ∂y ϕ = −2yϕ. Puisque l’exposant
ne peut être nul (sauf dans le cas dégénéré), nous concluons que les dérivées partielles sont
simultanément nulles lorsque x = −1 ou x = +1, et y = 0. Les points critiques sont donc (−1, 0)
et (1, 0). 

Dans le cas des fonctions de plus de 2 variables ϕ = ϕ(ξ 1 , ξ 2 , ..., ξ N ), le point (ξc1 , ξc2 , ..., ξcN ) est
critique s’il satisfait aux N équations

∂i ϕ(ξ) = 0, i = 1, 2, ..., N

La nature des points critiques peut être déterminée en généralisant le test de la dérivée seconde
au cas des fonctions multi-variables. Pour cela il faut exploiter la notion de matrice hessianne H.
Proche des points critiques, la fonction peut être développée en série de Taylor
1 t
ϕ(ξ) ≈ ϕ(ξc ) + dξ H(ξc )dξ + o(ξ2 )
2!
puisque le gradient de la fonction aux points critiques est nul. Ici dξ est une matrice colonne et dξt
sa transposition, c.-à-d.. une matrice ligne, tandis que la matrice contenant les dérivées secondes

 ∂1 ∂1 ϕ ∂1 ∂2 ϕ .... ∂1 ∂N ϕ 


 
 ∂ ∂ ϕ ∂ ∂ ϕ ...... ∂ ∂ ϕ 
Hi j =  2 1 2 2 2 N 
(3.1)
 .... .... ....


∂N ∂1 ϕ ∂N ∂2 ϕ .... ∂N ∂N ϕ

est appellée matrice hessienne.


La nature du point critique dépend donc du signe de la forme quadratique. Puisque la matrice
hessienne H est symétrique (si la fonction ϕ n’est pas pathologique), nous pouvons la diagonaliser,
c.-à-d. nous pouvons trouver un opérateur de rotation B (c-à-d. une matrice avec la propriété
0
BT = B−1 ) qui tourne les axes du système de coordonnées dξ = Bdξ de telle sorte que la matrice
0
H = B−1 HB
58 Chapitre 3. Calcul des Variations

soit diagonale
λ1
 

 λ2 
Hi0j =   . (3.2)
 .... 

λn
Les n termes λi sur la diagonale sont les valeurs propres de la matrice H0 . Ils sont tous réels parce
que H est une matrice symétrique. En négligeant les termes d’ordre supérieur à deux (o(ξ2 )), nous
avons
n
1 X  0 i 2
ϕ(ξ) ≈ ϕ(ξc ) + λi dξ .
2! i

Cette quantité est toujours positive, donc le point critique est un minimum, si toutes les valeurs
propres sont positives ; Elle est toujours négative, c’est-à-dire le point critique est un maximum,
si toutes les valeurs propres sont négatives. Le terme quadratique est indéfini (c’est-à-dire il peut
prendre à la fois des valeurs positives et négatives) si certaines valeurs propres sont négatives et
les autres positives. Dans ce cas, le point critique est un point de selle, puisque en s’écartant du
point critique, la fonction diminue ou augmente en fonction de la direction prise. Si nous nous
déplaçons dans la direction spécifiée par les vecteurs propres associés aux valeurs propres positives,
la fonction augmente. Si, au lieu de cela, nous nous écartons du point critique selon la direction
des vecteurs propres associés aux valeurs propres négatives, la fonction diminue. Enfin, la nature
du point critique ne peut être déterminée par l’analyse de la matrice hessienne si l’une des valeurs
propres est nulle. Dans ce cas, la forme quadratique pourrait être nulle et nous avons besoin de
termes d’ordre supérieur dans l’expansion de Taylor pour décider du signe de la fonction.
En deux dimensions, il existe une façon plus économique de juger le signe de la fonction. Cette
méthode ne repose pas sur le calcul du signe des valeurs propres de la matrice hessianne mais
sur l’analyse de la valuer de son déterminant et de sa trace aux points critiques. En effet, puisque
D = det(H) = λ1 λ2 et que T = T r(H) = λ1 + λ2 nous pouvons immédiatement conclure que
— si D > 0 et T < 0, la fonction a un maximum relatif.
— si D > 0 et T > 0, la fonction a un minimum relatif.
— si D < 0, la fonction a une selle.
— si D = 0, le test de dérivée seconde n’est pas concluant.
Le critère de Sylvester, non démontré ici, nous permet de simplifier davantage le problème. Au
lieu de tester si la trace est majeure ou inférieure à zéro, il suffit de vérifier si l’élément H11 de la
matrice hessienne est positif ou négatif.
Exercise 3.3 Trouver et classer les points stationnaires (critiques) de

f (x, y) = x3 + y3 − 3xy.

Solution. Les dérivées partielles (par rapport aux coordonnées cartésiennes) de la fonction f
sont les suivantes (3x2 − 3y, 3y2 − 3x). Elles sont nulles si x2 = y et y2 = x, ce qui implique y4 = y,
donc soit y = 0 (et puis x = 0) ou y = 1 (et puis x = 1) puisque c’est la seule solution de y3 = 1.
Nous avons donc deux points fixes : (0, 0) et (1, 1). Nous pouvons déterminer leurs propriétés à
partir de l’inspection de la matrice de Hessienne.
!
6x −3
H= → det(H) = 9(4xy − 1) T r(H) = 6(x + y)
−3 6y

Au point (1, 1), det(H) = 27 > 0 et T r(H) = 12 > 0. Le point est donc un minimum local,
3.2 Multiplicateurs de Lagrange 59

avec f = −1. Le point (0, 0), pour lequel det(H) = −9 < 0, est un point d’inflection, et on a f = 0.
Les valeurs propres et les vecteurs propres de H à ce point fixe sont

λ1 = −3 v1 = (1, 1) et λ2 = 3 v1 = (1, −1)

Près du point de selle, la fonction f diminue selon la direction y = x et augmente selon la


direction y = −x. 

3.2 Multiplicateurs de Lagrange


Parfois le problème de trouver les maxima et minima d’une fonction se complique car la
fonction ϕ = ϕ(ξ) ne peut pas librement prendre toutes les valeurs possibles. Par exemple, la variable
indépendante ξ pourrait être contrainte de ne varier que sur un domaine restreint. Formellement,
nous devons donc rechercher les points critiques d’une fonction ϕ(ξ) parmi les points ξ satisfaisants
l’équation de contrainte ψ(ξ) = 0.
Voyons comment Lagrange a abordé ce problème au moyen de ce que l’on appelle maintenant
la méthode des multiplicateurs de Lagrange. Pour aider l’intuition, considérons l’exemple bidi-
mensionnel d’une fonction z = f (x, y) dont les variables indépendantes (x, y) ne sont pas libres de
varier en R2 mais sont contraintes de satisfaire l’équation g(x, y) = 0. Marquons ( x̄, ȳ) l’ensemble
de valeurs solutions de cette équation. Ces points définissent une courbe γ, un chemin, dans le plan
[x, y]. Il est clair que les points critiques se trouveront en principe dans cet ensemble. Appelons
les ( x̄c , ȳc ). Supposons qu’on s’éloigne de ces points en marchant le long de la courbe γ et qu’on
calcule la variation des deux fonctions f et g pour un déplacement infinitésimal dr̄. Manifestement,

d f ( x̄c , ȳc ) = ∇ f ( x̄c , ȳc ) · dr̄ = 0 (3.3)


dg( x̄c , ȳc ) = ∇g( x̄c , ȳc ) · dr̄ = 0 (3.4)

La première égalité découle de la définition des points critiques de la fonction f . La seconde, parce
que, à n’importe quel point du chemin, g( x̄, ȳ) = 0. En d’autres termes, ∇ f et ∇g sont orthogonaux
à dr̄. Ceci n’est possible que si les vecteurs ∇ f et ∇g sont parallèles, et donc ∇ f = λ∇g où λ est un
paramètre réel.
On peut ainsi déterminer les points critiques d’une fonction comme les points pour lesquels les
dérivées partielles de la fonction auxiliaire Φ(x, y, λ) = f (x, y) − λg(x, y) sont nulles. 2 L’astuce de
Lagrange était de remarquer que les solutions de 3.3 et 3.4 sont aussi des solutions de d( f − λg) = 0
où λ est un paramètre constant arbitraire. Dans ce cas, l’équation ∂ x ( f − λg)d x̄ + ∂y ( f − λg)dȳ = 0
peut être résolu en exploitant le fait que, étant donné sa nature arbitraire, nous sommes libres de
chercher des valeurs du coefficient λ qui annulent les dérivées partielles, en d’autres termes comme
les points satisfaisants le système suivant de trois équations dans les trois inconnues (x, y, λ)

∂ x Φ(x, y, λ) = 0



∂y Φ(x, y, λ) = 0

(3.5)



∂ Φ(x, y, λ) = 0.

λ

Voici donc l’essence de la méthode de Lagrange. Au lieu d’utiliser l’équation de contrainte


pour réduire le nombre d’inconnus dans la fonction f (x, y) et calculer ensuite les maxima et minima
de la fonction résultante en utilisant la méthode de Fermat, l’idèe de Lagrange était d’introduire
2. Nous aurions pu chercher le point critique comme solution à l’équation d( f − g) = 0. Cependant, il est difficile
de résoudre l’équation ∇( f − g) · dr̄ = 0. Nous ne pouvons pas simplement dire que les solutions peuvent être trouvées
en résolvant l’ensemble des équations ∂ x ( f − g) = 0 et ∂y ( f − g) = 0 puisque le déplacement dr̄ = (d x̄, dȳ) n’est pas
arbitraire ! (Rappelez-vous que nous sommes obligés de nous déplacer le long des points qui satisfont à l’équation de
contrainte).
60 Chapitre 3. Calcul des Variations

une nouvelle inconnue dans le problème et minimiser cette fonction, appelée fonction auxiliaire,
Φ = f − λg. Le principal avantage de la méthode est qu’elle peut être appliquée lorsque la méthode
directe ne peut être utilisée parce que la contrainte est trop complexe pour permettre une solution
explicite avec la méthode de Fermat.
Compte tenu de l’importance de la technique, explorons ses fondements, au moyen d’une
approche plus géométrique, donc plus intuitive. L’équation de contrainte g(x, y) = 0 définit une
courbe γ (éventuellement fermée) dans le plan [x, y]. Projetons ensuite, dans ce même plan, la
surface z = f (x, y). Pour ce faire, il suffit de considérer les lignes de niveau de la fonction, par
exemple f (x, y) = c1 , f (x, y) = c2 ....etc. Cette construction est montrée dans la figure 3.1. Supposons
maintenant de marcher sur la courbe γ représentante la contrainte dans le plan [x, y]. Ce chemin
traversera en principe les lignes de niveaux. Cependant, il est plutôt intuitif de réaliser qu’aux
points critiques, les courbes de niveaux et la courbe de contrainte sont tangentes. Cela signifie que
les gradients de la courbe de niveau (perpendiculaires à la courbe de niveau) et le gradient de la
courbe de contrainte (également perpendiculaires à la courbe de contrainte) sont parallèles entre
eux lorsqu’ils sont calculés à un point critique, c’est-à-dire que les points critiques sont ceux qui
satisfont l’equation
∇ f = λ∇g.

Exercise 3.4 Un canon tire un projectile. Lorsqu’elle sort du canon, la balle a toujours la même
quantité d’énergie cinétique K, bien que, en fonction de l’orientation du canon, la vitesse aura
différentes composantes. Notons V0x et V0y la vitesse initiale le long des deux axes cartésiens
x et y (respectivement parallel et perpendiculaire au sol.) La balle touche le sol à une distance
V V
d = 2 0xg 0y . Trouver les valeurs V0x et V0y qui maximisent la portèe d.
Solution Il faut trouver les conditions qui maximisent la porte d tout en gardant constante
l’énergie cinétique. Le point critique de la fonction d(V0x V0y ) est aussi le point critique de
V V h   i
la fonction auxiliaire Φ = 2 0xg 0y − λ 21 m V0x 2 + V 2 − K . Nous pouvons le déterminer en
0y
resolvant le système d’équations suivant
 V0y



 2 g − λmV0x = 0
 V0y
2 g − λmV0x = 0


 (3.6)
  
 m V2 + V2

 1
= 2K.
2 0x 0y

La solution est V0x = V0y = K/m et λ = 2
mg . La portèe maximale correspondante est donc
d = 2K
mg .


Résumons maintenant la méthode des multiplicateurs de Lagrange en l’étendant au cas de


fonctions à n variables. Pour trouver les points critiques d’une fonction à n−variables, ϕ(ξ), soumise
à m < n contraintes ψ1 (ξ) = 0, ψ2 (ξ) = 0, ...., ψm (ξ) = 0 on considère la fonction auxiliaire
m
X
Φ(ξ, λ) = ϕ − λ i ψi
i=1

et on détermine les points critiques de la fonction ϕ comme étant ceux qui résolvent les m + n
équations suivantes

∂i Φ = 0 i = 1, 2, .....n
(
(3.7)
∂λ j Φ = 0 j = 1, 2, .....m.
3.2 Multiplicateurs de Lagrange 61

Figure 3.1 – La contrainte g(x, y) = 0 est affichée avec quelques courbes de niveau de la fonction z = f (x, y). Le point
où la courbe de contrainte touche tangentiellement les lignes de niveau est un extremum de la fonction f (x, y).

Exercise 3.5 Trouvez les points critiques de la forme quadratique f (x) = Ai j xi x j (où Ai j est une
matrice symétrique) sur la surface d’une sphère et montrez que les points stationnaires sont les
vecteurs propres normalisés de la matrice Ai j .
Solution Pour x ∈ Rn , nous devons maximiser la formeqquadratique sous la contrainte |x|2 = 1.
Nous pourrions résoudre la contrainte ; par exemple xn = 1 − x12 − ... − xn−1
2 , mais cette solution

choisit arbitrairement xn comme spécial, et elle introduit aussi des non-linéarités qui ne sont pas
intrinsèques au problème. Il est plus simple de résoudre le problème en utilisant la méthode des
multiplicateurs de Lagrange. Nous devons donc trouver les valeurs stationnaires de la fonction
auxiliaire

Φ(x, λ) = Ai j xi x j − λ(|x|2 − 1)

Les points fixes de cette fonction sont obtenus en calculant les dérivées suivantes

∂Φ j
= δk Ai j xi + δik Ai j x j = 2Ak j x j
∂x k

et
∂  j 
λx x j = 2λxk .
∂xk
On trouve

A jk x j = λxk (3.8)
xi x i
= 1. (3.9)
62 Chapitre 3. Calcul des Variations

Les quantités qui minimisent nos problèmes sont les vecteurs propres normalisés de la matrice
A. On peut donc interpréter le multiplicateur de Lagrange à chaque point fixe comme la valeur
propre correspondante. De plus, à un point fixe, nous avons

f ≡ Ai j xi x j = λx j x j = λ

donc les valeurs propres de la matrice A sont les valeurs de la forme quadratique f à ses points
fixes. Si nous supposons que toutes les valeurs propres sont positives, alors f a un minimum, et
son minimum absolu sera la valeur propre minimale, c’est-à-dire la valeur la plus petite possible
des multiplicateurs de Lagrange. 

3.3 Fonctionnels
Le calcul des variations est essentiellement une extension du calcul différentiel au cas où les
grandeurs indépendantes (degrés des libertés) ne sont pas des nombres simples, c.-à-d. des variables
x, mais des fonctions y(x). Plutôt que de chercher les points x qui extrémisent une fonction f (x),
nous recherchons les fonctions y(x) qui extrémisent le fonctionnel J[y], une bête mathématique
qui “avale" des fonctions y(x) et renvoi un nombre. Nous avons déjà rencontré ces structures
mathématiques dans le chapitre 1, et nous avons également vu qu’elles vivent dans un espace
vectoriel spécial appelé espace duale. Dans la plupart des cas d’intérêt, le fonctionnel J[y] est une
intégrale sur la variable indépendante x d’une fonction f (x, y(x), y0 (x), y00 (x).......), les exposant
indiquant les dérivées successives par rapport au paramètre x. Nous intégrons entre les valeurs fixes
x0 et x1 pour obtenir un nombre différent J[y] pour chaque courbe y(x). Le problème variationnel
consiste à trouver la courbe y(x), qui rend stationnaire l’intégrale J. Ces fonctions spécifiques sont
appelées fonctions stationnaires.

3.3.1 L’opérateur variation et la dérivée fonctionnelle


Nous nous limitons à des fonctionnels de la forme
Z x1  
J[y] = f x, y, y0 , y00 .....y(n) dx (3.10)
x0

où f dépend de la valeur de y(x) et de ses dérivés (en nombre fini). De tellesRfonctions sont dites
x
locales en x. 3 Commençons par considérer une fonctionnel de la forme J[y] = x 1 f (x, y, y0 )dx avec
0
f dépendent seulement de x, y et y0 . Considérons alors une courbe qui diffère de très peu de y(x).

y(x, ) = y(x, 0) + η(x)

où  est un paramètre arbitraire, infiniment petit et independant de x, ainsi que η est une fonction
arbitraire de x, telle que η(x) = ∂y/∂. Nous imposons que lorsque le paramètre de variation 
s’annule, nous retrouvons la courbe originale, i.e. y(x, 0) ≡ y(x). Nous définissons ainsi la variation
d’une courbe y comme étant δy(x) ≡ η(x), où

δ≡ .
∂
est appelé operatuer variationnel. Au lieu d’utiliser cette notation quelque peu lourde, les physiciens
préfèrent représenter la famille des courbes obtenues en variant la courbe originale y(x) en utilisant
la notation plus courte, et quelque peu trompeuse, y(x) → y(x) + δy(x). Il faut donc bien comprendre
3. Etant pointilleux, il faudrait indiquer par J[y0 , x0 , y1 , x1 ] le fonctionnel 3.10. Cette notation souligne le fait que le
fonctionnel est un nombre qui dépend de l’état initial et final x1 et x2 et des valeurs de la fonction y à ces points. Il est de
pratique courante, cependant, de n’expliciter que la dépendance du fonctionnel par rapport à la fonction qui est variée.
3.3 Fonctionnels 63

que δy(x) n’est pas la différentielle de la fonction y(x), qui mesure le changement de la fonction y
quand la variable indépendante x passe de x à x + ∆x. Au lieu de cela, la variation de la fonction est
prise à chaque valeur fixe de x, et son amplitude est contrôlée par le paramètre  qui est indépendant
de x.
La variation résultante du fonctionnel S sera à l’ordre principal, la suivante
Z x1
J[y + δy] − J[y] = f x, y + δy, y0 + δ(y)0 − f x, y, y0 dx
  
(3.11)
x0
∂f ∂ f dy
Z x1 ( !)
= δy δy + 0 δ dx + o(δy) (3.12)
x0 ∂y ∂y dx
∂ f dδy ∂ f
Z x1 ( )
= δy + dx + o(δy) (3.13)
x0 ∂y dx ∂y0
# x Z x1
∂f 1 ∂f d ∂f
" ( )
≈ δy 0 + δy(x) − dx (3.14)
∂y x0 x0 ∂y dx ∂y0

où on a utiliser le faits que l’operateur δ et d/dx, agissant sur des variables différentes, commutent,
c.-à-d. δ(dy/dx) = d/dx(δy).
Si δy(x0 ) = δy(x1 ) = 0 (conséquence du fait quu η(x0 ) = η(x1 ) = 0) la fonction y(x) est dite avoir
des conditions aux limites fixes où, plus simplement, des extrémités fixes. Pour de telles variations,
la partie intégrée [...] xx10 disparaît. Si nous définissons la variation du fonctionnel (J ) comme la
partie d’ordre o(δy) de la quantité J[y + δy] − J[y], et nous l’indiquent avec le symbole δJ, nous
avons

δJ
Z x1 !
δJ[y] ≡ δy(x) dx (3.15)
x0 δy(x)

où la fonction
δJ ∂f d ∂f
= − (3.16)
δy(x) ∂y dx ∂y0

est appellée la derivée fonctionnelle (où de Fréchet) de J[y] par rapport à la fonction y(x).
Exercise 3.6 Montrer que la dérivée fonctionnelle de 3.10 est

δJ ∂f d ∂f d2 ∂ f d3 ∂ f dn ∂ f
= − + 2 00 − 3 (3) + .......(−1)n n ( . (3.17)
δy(x) ∂y dξ ∂y dy ∂y
0 dy ∂y dy ∂y n)


3.3.2 Equation d’Euler-Lagrange


Supposons de devoir rechercher les extrema d’une fonction différentiable ϕ(ξ 1 , ξ 2 , ....ξ 2 , ....ξ n ).
En un point stationnaire (ξ 1 , ξ 2 , ..., ξ n ) la differentielle de la fonction
n
X ∂ϕ i
dϕ = ∆ξ = ∂i ϕ∆ξ i
i=1
∂ξ i

doit s’annuler pour tous les ∆ξ i . La condition nécessaire et suffisante pour cela est que tous les
dérivées partielles ∂ϕ/∂ξ i , i = 1, ....n soient égales à zéro. Par analogie, nous nous attendons à
ce qu’un fonctionnel J[y] soit stationnaire sous des variations (à extrémités fixes) de la fonction
64 Chapitre 3. Calcul des Variations

y(x) → y(x) + δy(x), lorsque la dérivée fonctionnelle δS /δy(x) s’annule pour tous x. En d’autres
termes, lorsque
∂f d ∂f
− = 0, x0 < x < x1 .
∂y dx ∂y0
Cette condition différentielle est appelée équation d’Euler-Lagrange. La salution y(x) qui rende
stationnaire le fonctionnel est appellee courbe stationnaire.
Que δJ/δy(x) ≡ 0 soit une condition suffisante pour que δJ soit zéro est clair d’après sa définition
(voir 3.15). Pour s’assurer que c’est une condition nécessaire, nous devons faire appel au fait que f
soit de classe C ∞ (continue avec toutes le dérivées continues, ou, en jargon anglais, une fonction
smooth). Considérons une fonction y(x) qui rend J[y] stationnaire mais telle que δJ/δy(x) est non
nul pour x2 ∈ [x0 , x1 ]. Puisque f (x, y, y0 ) est une fonction smooth, la dérivée fonctionnelle δJ/δy(x)
est aussi une fonction smooth de y. Par conséquent, par continuité, elle aura le même signe tout au
long d’un intervalle ouvert contenant x2 . En prenant δy(x) = η(x) comme étant zéro en dehors de
cet intervalle, et avec signe à l’intérieur, on obtient une variation δJ non nulle – en contradiction
avec l’hypothèste de départ. Nous voyons donc pourquoi il était essentielR d’intégrer par parties afin
d’enlever la dérivée de δy : quand y est fixé aux extrémités, nous avons (δy)0 dx = 0, et donc nous
ne pouvons trouver un (δy)0 qui est zéro partout en dehors d’un intervalle et d’un signe défini à
l’intérieur de celui-ci.
Lorsque la fonction dépend de plus d’une fonction y, alors la condition de stationnarité sous
toutes les variations possibles nécessite une équation
∂f d ∂f
− =0
∂yi dx ∂y0i

pour chaque fonction yi (x).

3.3.3 Problèmes variationnels classiques


Maintenant, nous allons utiliser la notion de dérivé fonctionnelle pour traiter certains des
problèmes variationnels mentionnés dans l’introduction.
Film de savon supporté par une paire d’anneaux coaxiaux (fig. 3.2).
C’est un cas spécifique du problème de Plateau. La surface libre d’un liquide a toujours tendance
à se contracter et à occuper une surface minimale en raison de la tension de surface exercée par
les molécules de la couche. Si la surface est étirée (ou contractée) et d’un montant dA, la tension
superficielle σ, c’est-à-dire la force par unité de longueur exercée par le film fait un travail négatif
dW = −σdA. Le travail effectué est stocké dans le film sous forme d’énergie potentielle V, appelée
aussi énergie potentielle de surface, dV = −dW = σdA. Nous supposerons, dans notre modèle de ce
système physique, que la tension superficielle est constante et beaucoup plus grande que la force
gravitationnelle (par unité de longueur) agissante sur le film, de sorte que l’énergie potentielle totale
est simplement donnée par l’énergie potentielle de surface. Sous ces hypothèses, le film peut donc
minimiser son énergie potentielle en minimisant son aire. En plus, la symétrie axiale du problème,
suggère que la surface minimale sera une surface de révolution autour de l’axe des x, la plus petite
de toutes les surfaces limitées par les cercles de rayons y(x1 ) = y1 et y(x2 ) = y2
q
dA[y] = 2πy(x)dl = 2πy(x) 1 + y02 dx. (3.18)

Par consequent, l’énergie potentielle sera donc


Z x2 q
V[y] = σ2π y(x) 1 + y02 dx.
x1
3.3 Fonctionnels 65

Nous recherchons donc le profil y(x) qui rend l’énergie potentielle de surface V[y]– ou, de façon
équivalente, la surface A[y]–minimale. Comme un tel profil y(x) est une courbe stationnaire, nous
le recherchons en mettant la dérivée fonctionnelle δA/δy(x) à zéro. L’équation d’Euler-Lagrange
résultante est la suivante
 
d  yy0 
q
1 + y −  p
02  = 0
dx 1 + y0,2
et après avoir pris la dérivé par rapport à x nous obtenons
y02 yy00 yy02 y00
q
1 + y02 − p − p + = 0.
1 + y02 (1 + y )
02 3/2
1 + y02
Après la collecte des termes, cela devient
1 yy00
− =0
1 + y02 (1 + y )
02 3/2)
p

L’équation différentielle semble encore difficile à résoudre. Pour simplifier davantage, nous multi-
plions par y0 afin d’ obtenir
 
y0 yy0 y00 d  y
0= p =

− 
1 + y02 (1 + y )
02 3/2

dx  1 + y02 
p

La solution au problème de la minimisation se réduit donc à résoudre


y
=k
1 + y02
p

où k est une constante arbitraire. L’équation différentielle précédente peut être reformulée comme
suit
r
dy y2
= −1
dx k2
qui devient, après séparation des variables,
Z Z
dy
dx = q .
y2
k2
− 1

Enfin, avec la substitution y = cosh t, on trouve


x+a
y = k cosh
k
où a est une constante d’intégration arbitraire. Les deux constantes k et a peuvent être fixées en
imposant y(x1 ) = y1 et y(x2 ) = y2 .
Chaîne lourde sur poulies.
Considérez un câble flexible lourd, de densité linéaire uniforme µ drapée sur une paire de
poulies situées à x = ±L, y = h, et le câble en excès reposant sur une surface horizontale comme
illustré à la Figure 3.3. L’énergie potentielle du système est la somme de l’énergie potentielle
du câble posé sur la surface horizontale (nulle parce que y est nul), des deux câbles suspendus,
constante car
Z h Z h
2 dm(y)gy = 2µg ydy = λgh2 = const
0 0
66 Chapitre 3. Calcul des Variations

Figure 3.2 – Film de savon entre deux anneaux.


3.3 Fonctionnels 67

Figure 3.3 – Chaîne suspendue.


68 Chapitre 3. Calcul des Variations

Figure 3.4 – Intersection de y = ht/L avec y = cosh t.

et, de l’énergie potentielle de la chaîne entre les deux poulies, donnée par
Z +L Z +L Z +L q
dm(x)gy(x) = µg y(x)dl = µg y(x) 1 + y02 dy (3.19)
−L −L −L

où dl est la longueur d’un élément infinitésimal du câble.


En situation d’équilibre stable, l’énergie potentielle est minimale. Il s’agit donc de rendre
stationnaire le fonctionnel (3.19) qui est similaire à celui décrivant la pellicule de savon. Les mêmes
problèmes ayant les mêmes solutions, nous pouvons conclure que
(x + a)
y(x) = k cosh .
k
Nous devons maintenant trouver les valeurs des constantes a et k. Nous avons
h = k cosh(−L + a)/k (3.20)
= cosh(L + a)/k. (3.21)
Donc a = 0 et h = k cosh L/k. En posant t = L/k on obtient
!
h
t = cosh t
L
En considérant l’intersection de la ligne y = ht/L avec y = cosh t (Figure 3.4) on voit que si h/L
est trop petit il n’y a pas de solution (le poids du câble suspendu est trop grand) pour la tension
fournie par les extrémités pendantes). Mais une fois que h/L est assez grand il y aura deux solutions
possibles.
3.3 Fonctionnels 69

La brachistochrone.
Ce problème a été initialement posé (mais pas correctement résolu) par Galileo. Apparemment
inconscient des efforts de Galileo, ce problème a été reproposé quelques années plus tard (1696)
par Johann Bernoulli comme un défi pour les mathématiciens européens. Il demanda quelle forme
devrait prendre un fil avec les extrémités en P = (0, 0) et Q = (a, b) pour qu’un anneau glisse sans
frottement (en partant de la condition de repos) le long du fil dans le temps le plus court possible
(Figure 3.5). Le nom du problème vient du grec : βραχιστoς signifie plus court et χρoνoς c’est le
temps. Le problème a circulé dans toute l’Europe et, en peu de temps, une solution fut proposée
par Leibniz et une par de l’Hôpital. Lorsqu’on lui présenta une troisième solution apparemment
anonyme, Johann fit sa fameuse remarque : "Tanquam ex unguem leonem" (Je reconnais le lion
à sa griffe), ce qui signifie qu’il avait reconnu que l’auteur était Isaac Newton. Johann a donné
une solution lui-même, mais celle de son frère Jacob Bernoulli était supérieure et Johann a essayé
de la faire passer pour la sienne. Ce n’était pas atypique. Johann a plus tard modifiée la date de
publication de son livre sur l’hydraulique pour faire croire qu’il avait la priorité dans ce domaine
sur son propre fils, Daniel Bernoulli !
Pour résoudre le problème, nous devons trouver le chemin qui réduit au minimum

1 + y02
Z T Z a Z a p
dl(x)
T= dt = = dx
0 0 v(x) 0 v(x)
Nous savons que l’énergie mécanique du cordon à chaque position x
1
E(x) = mv2 (x) − mgy(x)
2
est constante. A partir des conditions initiales, nous constatons que l’énergie mécanique est nulle,
nous déduisons que la vitesse de l’anneau est v(x) = 2gy(x). En conséquence, nous devons
p

imposer que la variation du fonctionnel


Z as
1 + y02
T (y) = dx
0 2gy(x)
soit nulle afin de trouver le profil y(x) qui minimise le temps de déplacement (étant donné que
y(0) = 0 et y(a) = b sont des extrèmes fixes.)
L’équation d’ Euler-Lagrange est
1 
yy00 + 1 + y02 = 0
2
Encore une fois cela semble intimidant, mais nous pouvons utiliser la même astuce de multiplier
par y0 pour la transformer en
1 d h  i
y 1 + y02 = 0.
2 dx
Donc
 
y 1 + y02 = 2k.

Cette équation différentielle a une solution paramétrique


x = k(θ − sin θ) (3.22)
y = k(1 − cos θ) (3.23)
(comme vous pouvez le vérifier) appellee cycloïde.
70 Chapitre 3. Calcul des Variations

Figure 3.5 – Une anneau glissant sur un fil.

R Un cycloïde est la courbe tracée par la valve d’une roue de bicyclette lorsque la roue roule
le long d’une trajectoire droite sans patiner. Le cycloïde a été étudié et nommé par Galilée,
et Johann Bernouilli est crédité de la découverte, publiée en 1697, que c’est un courbe
brachistochrone. Huygens avait précédemment montré, en 1673, qu’il s’agit aussi d’une
courbe tautochrone (la courbe telle que le temps pris pour que l’anneau passe du repos à Q
est indépendant du choix de la position initiale P).

3.4 Intégrale première de l’équation d’Euler-Lagrange

Comment savions-nous que nous pouvions simplifier à la fois le problème du film de savon et
celui de la brachistochrone en multipliant l’équation d’Euler-Lagrange par y0 ? La réponse est qu’il
y a un principe général qui nous dit quand et comment nous pouvons faire une telle simplification.
Nous avons été en mesure de simplifier une équation différentielle apparemment difficile à résoudre
parce que le fonctionnel
R avait une symétrie. L’astuce de multiplier par y0 fonctionne lorsque la
fonction f dans f dx est de la forme f (y, y0 ), c.-à-d. n’a pas de dépendance explicite de x. Dans
ce cas, le dernier terme en

d f ∂ f 0 ∂ f 00 ∂ f
= y + 0y +
dx ∂y ∂y ∂x
3.5 Variation des fonctionnels contraintes 71

est absent. On a donc

d 0 ∂f ∂f d ∂f ∂f ∂f
!
y 0 − f = y00 0 + y0 − y0 − y00 0
dx ∂y ∂y dx ∂y 0 ∂y ∂y
∂ ∂
!
d f f
= y0 − (3.24)
dx ∂y0 ∂y0

qui est nul si l’équation d’Euler-Lagrange est satisfaite.


La quantité

∂f
k = y0 −f
∂y0

est donc une constante (indépendante de x) appellèe inté́grale première de l’équation d’Euler-
Lagrange. Par exemple, dans le cas d’un film de savon (voir la fonction 3.18)

∂f y(y0 )2 y
q
k = y0 − f = − y 1 + (y0 )2 = − p
∂y0 1+y 1 + (y0 )2
p
02

Quand il y a un certain nombre de fonctions yi (x), de sorte que nous avons


Z  
J[y1 , y2 ....yn ] = f y1 , y2 , ..., yn , y01 , y02 ....y0n dx

alors l’intégrale première devient


X ∂f
k= y0i − f.
∂y0i

Encore une fois


 
dk d X 0 ∂ f
=

 yi 0 − f  (3.25)
dx dx i ∂yi
00 ∂ f 0 d ∂f 0 ∂f 00 ∂ f
X ! !
= yi 0 + yi − yi − yi 0
i
∂yi dx ∂y0i ∂yi ∂yi
d ∂f ∂f
X !
= y0i − (3.26)
i
dx ∂y0i ∂y0i

et cela est nul si l’équation d’Euler-Lagrange est satisfaite pour chaque yi . Notez que, si la fonction
f est indépendante de x il n’y a qu’une seule intégrale, peu importe le nombre de yi ’s apparaissants
dans son argument.

3.5 Variation des fonctionnels contraintes


Comme les fonctions, les fonctionnels aussi peuvent être soumis à des contraintes externes. Nous
souhaitons maintenant montrer comment appliquer la méthode des multiplicateurs de Lagrange
à des problèmes variationnels. Au lieu de présenter la théorie, nous montrerons directement, au
moyen d’exemples pratiques, comment la méthode fonctionne.
72 Chapitre 3. Calcul des Variations

Entropie maximale pour une énergie donnée.


Soit Γ l’espace de phase classique d’un système mécanique de n particules régi par un Hamil-
tonien H(p, q). L’hamiltionien, ne dependant pas explicitement du temps, représente l’énergie du
système. Soit dΓ la mesure de Liouville d3n pd3n q, c’est-à-dire le volume élémentaire d’espace de
phase. La quantité d’intérêt central en mécanique statistique est la fonction de densité de probabilité
(f.d.p.) f (p, q) telle que f (p, q)dΓ donne la probabilité que l’é́tat du système soit dans la petite
région dΓ. L’entropie associée à la distribution de probabilité est le fonctionnel
Z
S [ f ] = − f ln f dΓ.
Γ

Nous souhaitons trouver le f.d.p qui maximise l’entropie pour une énergie moyenne donnée.
Z
hEi = f HdΓ.
Γ

De plus, nous ne pouvons pas varier f librement car nous devons préserver à la fois l’énergie et la
normalisation
Z
f dΓ = 1
Γ

requise pour toute distribution de probabilités. Nous introduisons donc deux multiplicateurs de
Lagrange, −(α + 1) et β, pour tenir compte des contraintes de normalisation et d’énergie, et
recherchons les courbes stationnaires du fonctionnel auxiliaire .
Z
Φ[ f ] = {− f ln f + (α + 1) f − β f H} dΓ − (α + 1) + βhEi.
Γ

Maintenant nous pouvons varier f librement, et donc trouver que


Z
δΦ = {− ln f + α − βH} δ f dΓ.
Γ

Exiger que ce soit zéro nous donne

f = eα−βH(q,p)

où α, et β sont déterminés en imposant les contraintes de normalisation et d’énergie. Cette densité


de probabilité est connue sous le nom de distribution canonique.
Le problème de la reine Didon.
Enfin, nous avons les outils pour résoudre le vieux problème iso-périmétrique posé à la reine
Didon qui, en termes modernes, se lit comme suit : Quelle simple courbe plane et fermée y(x), de
longueur fixe L, maximise la surface fermée A ? Ici, simple signifie que la courbe ne peut pas se
croiser et que la région qu’elle entoure est simplement connectée. Comme le problème est posé,
la région intérieure n’a pas besoin d’être convexe, bien qu’il soit évident qu’elle doit l’être pour
maximiser la surface. Nous supposerons donc que la courbe délimite une région convexe dans le
plan.
Puisque la courbe y(x) est fermée, nous nous attendons à ce que chaque valeur de la coordonnée
indépendante x corresponde à deux valeurs de y. Appelez-les y1 et y2 > y1 . La surface de la région
fermée est l’intégrale sur x (sur la région délimitée x0 < x < x1 ) des éléments de surface des bandes
verticales de largeur dx et de hauteur y2 (x) − y1 (x).

Z x1 I
A[y] = y2 (x) − y1 (x) dx =
 
y(x)dx
x0
3.5 Variation des fonctionnels contraintes 73

L’hypothèse iso-périmétrique impose qu’il faut maximiser A en tenant compte de la contrainte


P[y] = l, où
I I q I q
P[y] = dl = dx2 + dy2 = 1 + y02 dx.

En introduisant un multiplicateur de Lagrange, nous pouvons imposer cette contrainte à l’aide du


fonctionnel auxiliaire
I q
Φλ [y] = A[y] − λ(P[y] − l) = fλ (y, y )dx + λl
0
où fλ (y, y ) = y − λ 1 + (y02 ) (3.27)
0

Les courbes stationnaires sont celles qui laissent le fonctionnel inchangée (au moins au premier
ordre) quand on fait varier infinitesimalement la fonction y et le paramètre λ. Puisque le fonctionnel
ne dépend pas de x, il existe une intégrale première, donnée par

∂ fλ λ
k = y0 − fλ = p − y.
y0 1 + (y02 )
Cela conduit à
λ2
(y0 )2 =
(y − k)2 − 1
p
dont la solution est y = k ± λ2 − (x − c)2 où c est une constante, donc

(x − c)2 + (y − k)2 = λ2

qui est un cercle de rayon λ qui est fixé par l’équation obtenue en variant la fonction 3.27 par
rapport à λ ; cela donne la contrainte originale que la circonférence est l, donc λ = l/2π.
Le problème de Sturm - Liouville
Un autre problème variationnel contraint important est une version fonctionnelle du problème
de la minimisation d’une forme quadratique soumise à une condition de normalisation. Soient
p0 (x), p2 (x) et w(x) des fonctions réelles de x, définies pour α ≤ x ≤ β, de sorte que p0 et w soient
positifs pour α < x < β, et considérons les fonctionnels de la fonction réelle y(x) :

Z βn o Z β
F[y] = p0 (x)(y ) + p2 (x)y dx G[y] =
0 2 2
w(x)y2 dx
α α

Le problème est de trouver la fonction y qui minimise F[y] à la condition que G[y] = 1, étant
donné que y(x) est fixé à x = α et x = β. La première tâche consiste à trouver les courbes stationnaires
pour ce problème, ce qui peut être fait en trouvant les fonctions qui rendent stationnaires le
fonctionnel auxiliaire

Φλ [y] = F[y] − λ (G[g] − 1)

quand on donne une petite variation à la fonction y(x), et au paramètre λ. Nous obtenons
Z β
β
δF = 2 δy (−p0 y0 )0 + p2 y dx − 2[δyρy0 ]α

α

et
Z β
δG = 2 δywydx.
α
74 Chapitre 3. Calcul des Variations

Le terme δF est nul en raison des conditions limites (extrémités fixes), donc l’équation d’Euler-
Lagrange devient

Ly(x) = λw(x)y(x)

où L est l’opérateur différentiel


!
d d
L=− p0 (x) + p2 (x).
dx dx

appelée opérateur de Sturm-Liouville.


Les valeurs λ, lorsqu’elles existent, sont appelées valeurs propres du problème. Les solutions
correspondantes y(x) sont les fonctions propres. Le problème de Sturm-Liouville se pose très
fréquemment en physique, en particulier lorsqu’on rencontre des équations aux dérivées partielles
linéaires qui sont séparables.

3.6 Fonctionnels avec extrémités libres


Nous assouplissons maintenant notre hypothèse précédente selon laquelle tous les termes de
surface résultant des intégrations par parties peuvent être ignorés. Nous découvrirons que les
principes du calcul variationnel peuvent être très utiles pour déterminer quelles conditions limites
nous devrions imposer à nos équations différentielles.
Considérons le problème de la construction d’une voie ferrée à travers un isthme parallèle
(Figure 3.6). Supposons que le coût de la construction soit proportionnel à la longueur de la voie
ferrée, mais que le coût du transport maritime soit négligeable. Nous pouvons donc localiser
les ports maritimes du terminal où nous voulons. Nous souhaitons donc réduire au minimum la
longueur
Z x2 q
l[y] = 1 + (y0 )2 dx
x1

en permettant à la fois le chemin y(x) et les points finaux y(x1 ) et y(x2 ) de varier. La variation de la
fonction est alors
Z x2  
y0 (x2 ) y0 (x1 ) d  y0
δl[y] = δy(x2 ) p − δy(x1 ) p δy  p

−  dx
1 + (y0 )2 1 + (y0 )2 x1 dx 1 + (y0 )2

Il y a stationnarité lorsque les conditions suivantes s’appliquent simultanément : i) Le coefficient de


δy(x) dans l’intégrale doit être zéro, c’est-à-dire
 
d  y0
 = 0

 p
dx 1 + (y0 )2

Cela implique y0 = const, c’est-à-dire que la piste doit être une ligne droite.
ii) Les coefficients de δy(x1 ) et δy(x2 ) sont nuls. Pour cela, nous avons besoin que

y0 (x1 ) = y0 (x2 ) = 0.

Les information contenu dans la variation des extrémités sont donc très utiles pour déterminent les
conditions qui doivent être imposées à la solution de l’équation différentielle. Dans le cas présent,
ils exigent que nous construisions le chemin de fer perpendiculairement à la côte, et nous traversons
donc directement l’isthme.
3.7 Maxima et minima des fonctionnels 75

Figure 3.6 – Un chemin de fer à travers un isthme..

3.7 Maxima et minima des fonctionnels


Nous avons fourni de nombreux exemples de courbe stationnaires dans l’espace fonctionnel.
Nous n’avons presque rien dit sur la question de savoir si ces courbes stationnaires des fonctionnels
J[y] = f (x, y, y0 )dx s sont de lignes qui maximisent ou minimisent la valeur du fonctionnel. Pour
R

ce faire, nous devons développer le fonctionnel J[y + δy] au deuxième ordre en δy

J[y + δy] − J[y] = δJ + δ2 J + o(|δy|2 )


∂f ∂f ∂f d ∂f
Z ( ) Z ( )
δJ[y] = dx δy + 0 (δy) = dx
0
− δy
∂y ∂y ∂y dx ∂y0
et
∂2 f 2 ∂2 f ∂2 f
Z ( )
1
δ J=
2
dx δy + 2 δyδy + 02 (δy ) .
0 0 2
2 ∂y2 ∂y∂y0 ∂y

Puisque δyδy0 = 12 (δy2 )0 on obtient

∂2 f d ∂2 f ∂2 f
Z (" # )
1
δ J[y, δy] =
2
dx − δy + 02 (δy ) .
2 0 2
2 ∂y2 dx ∂y∂y0 ∂y

Dans le cas d’une expansion de fonctions de second ordre, si le terme quadratique Hi j dxi dx j
est positif pour tous les x alors la fonction est convexe et donc tout point stationnaire de f sera un
minimum. Un résultat analogue s’applique aux fonctionnels J[y] : Si δ2 J[y, δy] ≥ 0 pour toutes les
fonctions δy et toutes les fonctions y satisfaisant aux conditions limites appropriées alors J[y] a un
76 Chapitre 3. Calcul des Variations

minimum absolu en correspondant de la solution y0 (x) de l’équation d’Euler-Lagrange qui satisfait


aux conditions limites choisies.
Prenons l’exemple des géodésiques dans le plan euclidien. Nous savons qu’une ligne droite est
le chemin plus court entre deux points dans un espace euclidien (voir l’exercise 3.17). De façon plus
formelle nous savons donc qu’elle résout l’équation d’Euler-Lagrange du fonctionnel ‘longueur de
Rβp
chemin’ J[y] = α 1 + (y)2 dx, et aussi que cette solution est unique lorsque nous spécifions les
deux extrémités, mais cette ligne droite minimise réellement la distance entre les points ? Bien sûr
que si, mais vérifions ceci en étudiant la variation seconde. Dans ce cas
∂2 f ∂2 f ∂2 f
=0 =0
∂y2 ∂y∂y0 ∂y02
de sorte que
Z β h i−3/2 
δ J[y, δy] =
2
dx 1 + (y0 )2 (δy0 )2 .
α
Cette quantité est toujours positive, donc une ligne droite minimise la distance entre deux points.

3.8 Principe de Fermat


Il y a environ 2000 ans, Héros d’Alexandrie constata que si un objet est vu dans un miroir plan,
alors nous pouvons tracer un rayon de l’objet à l’oeil, rebondissant sur le miroir. Hero a déclaré,
comme principe, que le chemin du rayon est le plus court, et il a déduit de ce principe que les angles
d’incidence et de réflexion (les angles que les rayons entrants et sortants font avec le normal au
miroir) sont égaux. Cela semble être un principe raisonnable. Après tout, la lumière se déplace
en ligne droite en l’absence de miroirs, et une ligne droite est le chemin le plus court entre deux
points. Hero ne faisait que généraliser cette idée pour inclure les miroirs. Son principe est en effet
valable pour les miroirs plans, mais les rayons lumineux qui rebondissent sur les miroirs courbes ne
prennent pas toujours le chemin le plus court ! Cependant, même pour les miroirs courbes, il est
toujours vrai que la longueur du trajet est inchangée au premier ordre par une petite variation du
trajet, de sorte que nous pourrions reformuler le principe : les rayons lumineux voyagent sur un
trajet dont la longueur est stationnaire par rapport aux petites modifications du trajet.
Si la lumière voyage à une vitesse finie et constante, le chemin le plus court est aussi celui pour
lequel le temps de déplacement est le plus court. Au milieu du XVIIe siècle, Fermat a proposé
ce principe comme principe général régissant la propagation des rayons lumineux et montra qu’il
pouvait expliquer le phénomènes de la réfraction. De façon plus rigoureuse, le principe de Fermat
stipule que la lumière se propage d’un point à un autre sur des trajectoires telles que la durée du
parcours soit stationnaire. En effet si, dans la plupart des cas, on rencontre des chemins dont la
durée de parcours est minimale, il ne faut pas oublier pour autant que la lumière peut se propager
aussi selon de chemins maximales !
Ce principe est équivalent à l’affirmation que le chemin parcouru par un rayon de lumière dans
un milieux avec indice de réfraction n est celui qui rend stationnaire le temps pour aller du point A
au point B
1 B
Z
T= ndl (3.28)
c A
où l’intégrale est sur un chemin spécifié γ avec élement de ligne dl et où n = c/v (avec v la vitesse
de la lumière dans le milieux).
La valeur de l’intégrale peut varier continuellement au fur et à mesure que l’on fait varier le
trajet, de sorte que l’application du principe de Fermat à des milieux ayant des indices de réfraction
variables connus donne lieu à des problèmes du type que l’on peut résoudre par le calcul des
variations.
3.8 Principe de Fermat 77

Exercise 3.7 En 1662 Fermat utilisa son principe de ‘moindre temps’ pour montrer que lors-
qu’un rayon lumineux traverse une frontière d’un milieu transparent à un autre, les angles
d’incidence et de réfraction sont tels que
sin θ1 sin θ2
=
v1 v2
où vi est la vitesse de la lumière dans le milieu i. C’est la fameuse deuxième loi de Snell-
Descartes (loi de de réfraction). Démontrez cette loi à partir du principe de Fermat.
Solution Considérons tout d’abord la propagation d’un rayon lumineux à l’intérieur d’un
seul milieux avec indice de réfraction n = const. Considérons que le rayon se propage dans le
plan vertical x − z (z est la hauteur au-dessus de l’axe x.) Nous devons donc trouver le chemin
z(x) qui minimise le fonctionnel 3.28

ni x f p
Z
T [z] = 1 + (z0 )2 dx.
c xi

En imposant que la variation de ce fonctionnel soit nulle on obtient


Z xf  
d  z0  δzdx = 0

−n  p
xi dx 1 + (z0 )2
et, finalement,
z0
np = const.
1 + (z0 )2

Si on appelle θ l’angle formé par la droite tangente à la courbe z(x) et l’axe z on a que z0 =
dz/dx = 1/ tan θ. Donc le chemin est tel que n sin θ = const. La courbe z(x) telle que sa tangente
en chaque point x ne change jamais d’orientation est une droite. Donc dans un milieu avec
indice de refraction constante la lumière se propage de façon rectiligne. Si on imagine d’avoir
un système optique avec deux milieux avec indices n1 et n2 on déduit immédiatement que dans
chaque milieu la solution sera ni sin θi = ki où k1 et k2 sont des constants a−priori différents. En
imposant une condition physique assez raisonnable, c.à-d. que le chemin ne soit pas discontinue
sur la frontière entre le deux milieux, et donc que en ce points les solutions coincident on obtient
la lois de refraction n1 sin θ1 = n2 sin θ2 . 

Inspiré par les travaux de Fermat en optique, Maupertuis suggéra que la mécanique pourrait
être basée de la même façon sur un principe de minimum, le principe de moindre action, où l’action
serait le produit de la quantité de mouvement p = mv et de la distance (ce qui signifie que l’action a
des dimensions de moment angulaire). Il était vague sur les détails, mais Euler avait déjà découvert
que le mouvement d’un corps d’énergie totale constante
1
E = mv2 + U(x)
2
minimiserait l’intégrale S = pdl. En résolvant l’équation ci-dessus pour v, cela signifie que nous
R

devrions minimiser le fonctionnel


Z Bp
J= 2m(E − U(x))dl.
A

Pour le mouvement d’un projectile près de la surface √ de la Terre, nous devrions prendre U = mgz, z
est la hauteur au-dessus de l’axe x (le sol), et dl = dx2 + dz2 . Le trajet du projectile z(x) sera donc
78 Chapitre 3. Calcul des Variations

celui qui minimise le fonctionnel


Z B √ p
S= a − bz 1 + (z0 )2 dx, a = 2mE b = 2m2 g.
A
p
Remarquez que l’intégrand L = (a − bz) 1 + (z0 )2 ne dépend pas explicitement de x, nous avons
donc l’intégrale première
s
∂L n(z) a − bz
k = z0 0 − L = − p =−
∂z 1 + (z0 )2 1 + (z0 )2

En élevant au carré, nous en déduisons que

b a − k2
(z0 )2 = (z0 − z) z0 = .
k2 b
En prenant la racine carrée, nous concluons que
 √ 
d  √ b  b
 z0 − z ± x → z = z0 − (x − x0 )2
dx 2k 4k2

où x0 est une autre constante d’intégration. Le chemin d’un projectile soumis à l’accélération vers
le bas g due à la gravité près de la surface de la Terre est donc une parabole. A x = x0 le projectile
atteint une hauteur maximale z = z0 .

3.9 Principe de la moindre action


Le travail de Fermat est ce qui a conduit Johann Bernoulli à sa solution du problème de la
brachistochrone, et c’est aussi ce qui a conduit Euler et Maupertuis au principe de la moindre
action, qui visait à faire pour la mécanique ce que le principe de moindre temps avait fait pour
l’optique géométrique. Dans leur formulation du principe, qui était celui utilisé par Lagrange dans
sa Mécanique Analytique, l’action était le produit de la masse, de la vitesse et de la distance. Afin
d’appliquer le principe de moindre action, on supposait que l’énergie était conservée et que les
chemins considérées étaient ceux avec énergie fixe.
Ce principe n’avait aucune justification fondamentale. On vérifiait, néanmoins, qu’il produisait
des résultats corrects une fois appliqué à des systèmes à énergie constante. Une version plus
puissante du principe de la moindre action, fondée sur un sens différent du terme action, a été
trouvée par Hamilton en 1830. Celui-ci fut capable de montrer que ce nouveau principe, surnommé
‘principe de Hamilton’ par Jacobi, qui a considérablement élargi les idées de Hamilton, était
équivalent à la deuxième loi de Newton.
Dans son ouvrage Mécanique Analytique (1788) Joseph-Louis Lagrange a montré qu’une fois
que nous avons décrit un système de particules en termes de la fonction lagrangienne L = T − V, où
T est l’énergie cinétique du système et V l’énergie potentielle, tous deux exprimés en fonction des
coordonnées généralisées qi et de leurs dérivées temporelles q̇i , l’équation différentielle de Newton
F = ma pour chaque particule d’un système mécanique peut être reformulée, dans la plupart des
cas, comme le système d’équations

d ∂L ∂L
− =0
dt ∂q̇i ∂qi

une équation pour chaque coordonnée généralisée.


3.9 Principe de la moindre action 79

Tout à fait remarquable - étant donné que la dérivation de Lagrange ne contient aucune mention
de maxima ou de minima - Hamilton a reconnu que c’est précisément la condition qui rend l’ action

Z t1
S [q] = L(t, qi , q̇i )dt (3.29)
t0

stationnaire par rapport aux variations de la trajectoire qi (t) qui laissent les points initial et final
du trajet fixes. En d’autres termes, un système mécanique se déplace de manière à ce que l’action
S [q], définie comme l’intégrale sur la fonction lagrangienne, soit stationnaire.
Au XIXe siècle, personne d’autre n’a porté grande attention au principe de Hamilton parce que
les principes variationnels avaient été teintés au XVIIIe siècle par l’association d’idées théologiques
douteuses. 4 Le principe de Hamilton a été longtemps considéré seulement comme un moyen
astucieux d’arriver aux équations différentielles du mouvement. Ce verdict a été renversé au XXe
siècle, en partie à cause du théorème de Noether, publié en 1918, reliant les symétries de l’action
aux lois de conservation, et la pertinence croissante de la notion de symétrie, d’abord dans la
théorie de la relativité et, plus tard, dans la mécanique quantique, et en partie parce que le principe
de Hamilton apparaît naturellement dans la formulation de Feynman de la théorie quantique des
champs. Donc, avec un peu d’emphase nous pouvons désormais vraiment affirmer que 3.29 est
l’équation à une ligne qui résume toute la physique ! Le but des physiciens étant celui de trouver le
Lagrangian qui décrit le système physique d’intérêt.
Nous allons maintenant présenter quelques exemples qui illustrent les avantages pratique de
l’approche de Lagrange, ainsi qu’un piège subtil.

Coordonnées Generalisées
La machine d’Atwood est un dispositif, inventé en 1784 mais toujours bien pratique, utilisé
dans le salles de TP de nos universités pour démontrer les lois du mouvement de Newton et pour
mesurer g. Il se compose de deux poids reliés par une chaîne légère de longueur l qui passe sur une
poulie légère et sans friction (voir figure 3.7).
L’approche élémentaire consiste à écrire une équation de mouvement pour chacun des deux
poids

m1 ÿ1 = m1 g − T
m2 ÿ2 = m2 g − T.

On prend ensuite en compte la contrainte ẏ1 = −ẏ2 et on élimine ÿ2 en faveur de ÿ1

m1 ÿ1 = m1 g − T
−m2 ÿ1 = m2 g − T. (3.30)

Enfin nous éliminons la force de contrainte et la tension T , et obtenons l’accélération.

(m1 + m2 )ÿ1 = (m1 − m2 )g.

Notons que dans la solution finale n’apparaissent plus ni les forces exercées par les contraintes, ni
une des deux coordonnées (dans notre cas, la coordonnée y2 )
Voyons maintenant la méthode de Lagrange, qui, de le debut, se franchit de ces grandeurs
physiques non nécessaires à la solution du problème. La mécanique lagrangienne part de l’idée
4. Ce principe d’action minimale (bien qu’on devrait l’appeler à juste titre le principe d’action stationnaire) a
tellement impressionné ses découvreurs qu’ils ont cru avoir découvert le principe unificateur de l’univers. Maupertuis,
pour sa part, a essayé de fonder une preuve de l’existence de Dieu sur ce principe. Bien popularisé a aussi été la
suggestion de Leibnitz, parodiée par Voltaire dans Candide, que nous vivons dans ‘le meilleur des mondes possibles’.
80 Chapitre 3. Calcul des Variations

Figure 3.7 – Machine de Atwood.

qu’en prenant en compte les contraintes dès le début on peut réduire le nombre de coordonnées
nécessaires pour décrire le mouvement. L’ensemble irréductible de coordonnées qui en résulte
est appelé ensemble des coordonnées généralisées. Ensuite, Lagrange constate que le travail des
forces des contraintes (supposées sans friction)est toujours nul, et donc ne contribue pas au bilan
l’énergetique du système, On peut donc exprimer potentielle du système, en considérant uniquement
le travail fait par le poids. On a donc l’énergie cinétique T = 12 m1 ẏ21 + 12 m2 ẏ22 et l’énergie potentielle
du systeme V = −m1 gy1 − m2 gy2 (nous avons choisi le niveau zéro à la position de la poulie). Il
faut maintenant exprimer ces grandeurs en termes des coordonnées généralisées. Le système est
soumis à des contraintes telles que q ≡ y1 = l − y2 , où l est la longueur de la chaîne, de sorte que le
lagrangien du système prend la forme
1
L(q, q̇) = T − V = (m1 + m2 )q̇2 − (m2 − m1 )gq.
2
On obtient ainsi une seule équation de mouvement, pour le seul degré de liberté du système
d ∂L ∂L
!
− =0 → (m1 + m2 )q̈ = (m1 − m2 )g.
dt ∂q̇ ∂q
L’avantage de la méthode lagrangienne est que les forces de contrainte, qui ne font pas de
travail, n’apparaissent jamais dans le formalisme. L’inconvénient est exactement le même : si nous
avons besoin de trouver les forces de contrainte – en l’occurrence la tension dans la corde –, nous
ne pouvons pas utiliser uniquement cette méthode d’analyse.
Covariance des equations d’Euler-Lagrange
La mécanique lagrangienne fournit un moyen pratique de dériver les équations du mouvement
dans n’importe quel système de coordonnées. En d’autres termes, les équations d’Euler-Lagrange
ont toujours la même forme dans n’importe quel système de coordonnées !
Considérons un problème de force centrale dans un plan, c.-à-d. un système soumis à la force
radiale Fρ = −∂ρ V(ρ). La solution de ce problème avec la méthode de Newton se base sur le calcul
de l’accélération en coordonnées polaires. L’équation de Newton devient ainsi

m(ρ̈ − ρφ̇2 ) = −∂ρ V (3.31)


d 2 
m(ρφ̈ + 2ṙφ̇) = 0 → mρ φ̇ = 0 (3.32)
dt
En posant l = mρ2 φ̇, le moment angulaire conservé, et en éliminant φ on obtient l’équation du
mouvement
l2
mρ̈ − = −∂ρ V.
mρ3
3.10 Théorème de Noether 81

En utilisant la méthode de Lagrange, nous calculons d’abord l’énergie cinétique en coordonnées


polaires (ce qui nécessite moins de réflexions que le calcul de l’accélération) et ensuite le lagrangien

1  
L = m ρ̇2 + ρ2 φ̇2 − V(ρ). (3.33)
2
La forme des équations d’Euler-Lagrange est inchangée, la même que celle que nous utilisons pour
les coordonnées cartésiennes
d ∂L ∂L
!
− = 0 → mρ̈ − mρθ̇2 + ∂ρ V = 0 (3.34)
dt ∂ρ̇ ∂ρ
d ∂L ∂L
!
d 2 
− = 0→ mρ φ̇ = 0. (3.35)
dt ∂φ̇ ∂φ dt
Puisque le Lagrangien est indépendant du temps, il existe une intégrale première du mouvement
donnée par
∂L ∂L
k = ρ̇ + φ̇ − L (3.36)
∂ρ̇ ∂φ̇
1  2 2 2
= m ρ̇ + ρ φ̇ + V(ρ) (3.37)
2
qui est l’énergie mécanique. Ainsi, la constance de l’intégrale première indique que l’énergie
mécanique est conservée. Notons que la conservation du moment cinétique est une conséquence
directe d’une autre symétrie du Lagrangien, c’est-à-dire du fait qu’il ne dépend pas explicitement
de la coordonnée généralisée φ.

R On pourrait se rendre compte, sans s’être donné la peine de le dériver des équations de
Lagrange, que l’invariance de rotation garantit que le moment angulaire l = mρ2 φ̇ est constant.
Cela fait, il est presque irrésistible d’essayer de court-circuiter une partie du travail en
branchant cette information dans 3.33 afin d’éliminer la variable φ̇ en faveur de la constante l.
Si nous essayons ceci, nous obtenons
1 l
L = mρ̇2 + − V(ρ)
2 2mρ2
Nous pouvons maintenant écrire directement l’équation de Lagrange pour ρ, qui est

l2
mρ̈ + = −∂ρ V
mρ̇3

Malheureusement ceci a le mauvais signe avant le terme l2 /mρ3 ! La leçon est que nous
devons être très prudents lorsque nous utilisons les conséquences d’un principe variationnel
pour modifier ce principe. C’est possible, et en mécanique, cela mène au Routhien ou, dans
un langage plus moderne, à la fonction réduite de Hamilton, mais cela nécessite l’utilisation
d’une transformation de Legendre. Le lecteur devrait consulter un livre sur la mécanique pour
plus de détails.

3.10 Théorème de Noether


La constance de l’intégrale première et du moment angulaire sont des exemples de lois de
conservation. Nous les avons obtenus en manipulant les équations d’Euler-Lagrange, mais on
a également anticipé qu’elles étaient en quelque sorte liés à des symétries. L’un des principaux
avantages d’une formulation variationnelle d’un problème physique est que cette connexion

Symétries ≡ Lois de conservation (3.38)


82 Chapitre 3. Calcul des Variations

peut être rendue explicite en exploitant une stratégie due à Emmy Noether. Elle a montré comment
procéder directement de l’intégrale d’action S [q] à la quantité conservée sans avoir à manipuler les
équations différentielles du mouvement. En effet, le théorème de Noether est l’un des plus subtils et
magnifiques aperçus du comportement des systèmes physiques. Il nous dit non seulement quand il
y a une quantité conservée. Étant un théorème constructif, il nous enseigne aussi comment trouver
l’expression mathématique de la quantité conservée.
Soit q(t) la coordonnée généralisée d’un système décrit par l’action S [q(t)]. Une transformation
q(t) → q(t) + f (t) est une symétrie du système si S [q(t) + f (t)] = S [q(t)] pour tout q(t). Les symétries
sont des directions dans l’espace des coordonnées generalisées q dans lesquelles l’action ne change
pas. Les symétries les plus intéressantes, d’un point de vue physique, sont celles infinitésimales.
Considérons une variation infinitésimale de la coordonnée généralisée q(t) → q0 (t) = q(t) +
 f (q, q̇, t) où  est un petit paramètre constant.
Definition 3.10.1 — Symétrie infinitesimale. La variation δ s q ≡  f (q, q̇, t) dans une coordonnée
généralisée est une symétrie infinitésimale du système si, pour tout q(t) arbitraire, pas nécessai-
rement solution des équations du mouvement du système, l’action du système change, tout au
plus, par un terme trivial, c.-à-d. un term constant. En formule

δS [q, δ s q] ≡ S [q(t) + δ s q(t)] − S [q(t)] = const ∀q(t) (3.39)

En d’autres termes, une symétrie est une transformation qui fait varier le lagrangien du système
tout au plus par une dérivée temporelle totale

dK
δL[q, δ s q] = . (3.40)
dt
En effet,
Z t1
dK
δS [q, δ s q] = dt = K|tt10 = const. (3.41)
t0 dt

Notons aussi que q(t) est une fonction totalement arbitraire, pas nécessairement la fonction solution
de l’equation de mouvement du système.
Considérons maintenant q̄(t), la solution des équations des mouvements du système, c.-à-d. la
fonction qui rend stationnaire l’action S , et donnons à cette quantité la variation arbitraire δq(t) ≡  f ,
en imposant que cette variation ne s’annule pas, en principe, aux extrémités t0 et t1 . En conséquence

∂L ∂L
Z t1 !
δS [q̄, δq] = dt δq + δq̇
t0 ∂q ∂q̇
∂L d ∂L d ∂L
Z t1 ! Z t1
= dt − δq + dt δq. (3.42)
t0 ∂q dt ∂ q̇ t0 dt ∂q̇
Puisque, par hypothèse, q̄(t) satisfait aux équations d’Euler-Lagrange, on obtient

d ∂L
Z t1
δS [q̄, δq] = dt δq (3.43)
t0 dt ∂q̇

Les deux variations 3.41 et 3.43 produisent de termes de surface (membres de droite dans ces
deux equations) dont la signification est très différente. Le premier est un terme de surface parce
que δ s q ne s’annule pas aux extrémités d’integration mais satisfait l’équation 3.40, tandis que 3.43
est un terme de surface parce que q̄ satisfait à l’équation de mouvement d’Euler-Lagrange. Notez
que q(t) dans 3.41 est totalement arbitraire, alors que dans 3.43 c’est δq à être arbitraire. Si on
remplace q par q̄ dans 3.41 et δq par δ s q dans 3.43 les membres de gauche de ces deux équations
3.10 Théorème de Noether 83

sont égaux. En soustrayant, les membres de gauche s’annulent, et du côté droit on obtient la loi de
conservation,
dQ ∂L
=0 Q= δ s q − K. (3.44)
dt ∂q̇
C’est le théorème de Noether. Étant donné une symétrie δ s q, il existe une grandeur physique Q
associèe à la symétrie – appelée charge de Noether - qui est conservée.
Deux mises en garde s’imposent. D’abord K n’est pas une fonction arbitraire, mais, une fois
qu’une transformation de symétrie est donnée, elle doit être calculée en résolvant équation 3.40.
On a considéré les symétries comme étant des variations dans les coordonnée généralisées qui
laissent l’action invariante (ou qui la changement au plus d’un terme constante). Cependant on
pourrait bien imaginer de vouloir étudier comment l’action se transforme suite à un changement de
la variable indépendante (généralement le temps ou l’espace). On peut montrer que tout translation
constante de la variable indépendante du lagrangien peut être réinterprété en terme d’un variation
bien specifique de la coordonnée généralisée q(t). Prenons par exemple le Lagrangien L(q(t), q̇(t), t)
et operons la translation temporelle suivante t → t0 = t −  où  est un petit paramètre constant. Ceci
équivaut à un changement de la coordonnée temporelle de sorte que la nouvelle origine du temps
t0 soit fixée à l’instant t =  dans l’ancien système de coordonnées. De toute évidence, puisque
q(t) est un scalaire, sa valeur ne peut pas dépendre du système de coordonnées choisi pour décrire
le système physique, donc q0 (t0 ) = q(t). Cela implique q0 (t − ) = q(t) et donc q0 (t) = q(t + ). Au
premier ordre dans le paramètre  nous obtenons q0 (t) ≈ q(t) +  q̇(t). On peut donc interpreter le
changement (constate) de la variable temporelle d’une façon nouvelle : tout se passe comme si la
variable temporelle n’avait pas été modifiée ! C’est uniquement la coordonnée généralisée q(t) qui
s’est deformée comme suit δq(t) ≡  q̇(t). Notons aussi que puisque δ s q(t) ≡ q0 (t) − q(t) représenté la
différence de deux fonctions évaluées en même temps, il s’ensuit directement que δ dtd q(t) = dtd δq(t).
En conclusion, nous avons déguisé une translation de la coordonnée temporelle t0 = t −  en une
déformation de la fonction q(t) de sorte que la variation résultante du lagrangien L(q(t), q̇(t), t) est
∂L ∂L
δL = q̇ + q̈. (3.45)
∂q ∂q̇
Nous pouvons donc considérer désormais des translations x0 = x −  dans la variable indépendante
x d’un lagrangien comme étant complètement equivalents à des variations du type δ s q = dq dx  dans
la coordonnée généralisée q(x). On peut donc étendre l’etude des symétrie de l’action à en incluant
les changements dans la variable indépendante.
Mettons en action le théorème de Noether. Considérons d’abord l’action 3.33 décrivante la
dynamique d’un point évoluant dans un champ de force centrale. Puisque la variation φ(t) → φ0 (t) =
φ(t) +  ne change pas le lagrangien (δL = 0) on en déduit que δ s φ =  est une symétrie de l’action
et que K = 0. La quantité conservée est donc
∂L
Q= δ s φ − K ∝ mρ2 φ̇,
∂φ̇
le moment angulaire du système. Par conséquent, si une coordonnée généralisée q n’apparaît pas
explicitement dans le Lagrangien, on dit dans ce cas que la coordonnée est cyclique, le momentum
conjugué associé, définit comme pq ≡ ∂L∂q̇ est conservée.
Comme illustration supplémentaire de la puissance du théorème de Noether, considérons un
système physique décrit par le lagrangien L(q(t), q̇(t), t). et considérons la translation t0 = t −  de la
variable temporelle On sait que ce ceci équivaut à considérer une variation δ s q(t) = q̇(t) dans la
coordonnée généralisée q(t). La variation résultante dans le Lagrangien est
∂L ∂L
!
δL = q̇ + q̈ .
∂q ∂q̇
84 Chapitre 3. Calcul des Variations

La translation temporelle n’est une symétrie du système que si 3.40 tient. Puisque la dérivée
temporelle totale du Lagrangien est de
dL ∂L ∂L ∂L
= q̇ + q̈ +
dt ∂q ∂q̇ ∂t
l’équation 3.40 est satisfaite si le lagrangien ne dépend pas explicitement du temps. En effet, dans ce
cas une solution est K = L. La quantité conservée associée à l’invariance par translation temporelle
est la suivante
∂L ∂L
Q= δsφ − K ∝ q̇ − L.
∂q̇ ∂q̇
Nous avons déjà vu dans la section 3.4 que lorsque le lagrangien ne dépend pas explicitement de la
variable indépendante, la charge conservée est de manière générale appelée une intégrale première
du système. Dans le cas particulier où la variable indépendante est le temps, l’intégrale première
est l’énergie.

3.11 Principe variationnel appliqué aux champs


Le principe d’action peut être étendu afin de décrire la mécanique des milieux continus, et plus
en general, les théories de champs. Ici, on a une infinité continue de degrés de liberté dynamiques,
soit un pour chaque point de l’espace (ou un pour chaque point du matériel). L’extension de la
dérivée variationnelle à des fonctions de plus d’une variable ne devrait présenter aucune difficulté
conceptuelle.
A titre d’exemple, considérons une barre élastique qui peut vibrer longitudinalement, c’est-à-
dire que ses éléments constitutifs peuvent vibrer dans une direction parallèle à la longueur de la tige.
Considérons un modèle qui incorpore l’essentiel de la physique du système : un ensemble d’atomes
identiques de masse m, séparés les uns des autres par la même distance interatomique ∆x et reliés
entre eux par des ressorts de constante élastique k, contraints de se déplacer uniquement dans la
direction de la tige. Puisque la separation interatomique est beaucoup plus petit que la dimension
de la tige, notre barre peut être idéalisée comme un système à longueur infinie. Il est clair que la
masse de chaque atome doit représenter la masse de l’élément de tige de longueur ∆x, donc nous
avons m = ρA∆x où ρ est la densité de masse du matériau et A la surface de la section transversale
de la barre. Chaque atome i, à l’équilibre, a la coordonnée xi = i∆x qui est statique et ne dépend
pas du temps alors que, une fois le système perturbé, il aura la position xi (t) = i∆x + ηi (t) où le
déplacement hors équilibre est ηi << ∆x.
Notez que la force exercée sur un atome idéalisé i par le ressort à sa droite est −k(ηi − ηi+1 ) alors
que celle exercée par le ressort à sa gauche est −k(ηi − ηi−1 ) de sorte que l’équation newtonienne du
mouvement est
∂2 ηi (t)
m ẍi (t) = m = −k(ηi − ηi+1 ) − k(ηi − ηi−1 ). (3.46)
∂t2
Le lagrangien du système discret sera
1X 2 1X
L = T −V = mη̇i − k (ηi+1 − ηi )2
2 i 2 i

où η̇i = ∂η i
∂t et nous avons fait attention à ne pas compter deux fois l’énergie potentielle d’une paire
d’atomes en interaction. Nous pouvons reformuler notre lagrangien comme
1X
"
m 2  η − η 2 # X
i+1 i
L= ∆x η̇ − k∆x = ∆x Li
2 i ∆x i ∆x i
3.11 Principe variationnel appliqué aux champs 85

Prenons maintenant la limite du continuum et étudions comment les différentes variables dyna-
miques se comportent dans la limite ∆x → 0. Manifestement m/∆x → ρA, de plus on définit

lim ηi (t) ≡ η(x, t)


∆x→0

i.e. l’index entier i utilisé pour étiqueter les atomes ponctuels devient la coordonnée du continuum
x (oui, dans le continuum, il n’y a pas de séparations interatomiques !) Au lieu du déplacement
discret ηi nous avons maintenant le champ de déplacement η(x, t) qui nous informe sur la position
au temps t de l’atome qui, au repos, était situé à x. Enfin, notez que

ηi+1 − ηi η(x + ∆x, t) − η(x, t) ∂η


F = −k(ηi − ηi+1 ) = k∆x = k∆x → YA
∆x ∆x ∂x
En effet, la constante élastique k d’un ressort de longueur de repos ∆x est définie comme k = Y A/∆x
où Y est le module Young. 5 Le lagrangien a maintenant la forme
Z  !2 !2 
A  ∂η ∂η 
Z
L= ρ −Y  dx = L(η, ∂i η) dx
2 ∂t dx

où L est appellèe densité Lagrangienne.


La chose la plus importante à souligner est que la variable x n’est pas une coordonnée générali-
sée. C’est un paramètre continu qui remplace l’index discret i et permet d’identifier les ‘atomes’ de
la structure continue avec les point de l’espace. Dans le modèlle discret de la tige, à chaque valeur i
était associée une coordonnée généralisée ηi (t). Maintenant, dans le modèle continu, pour chaque
position de repos x des ‘atomes’ il existe une coordonnée généralisée η(x, t) qui représente leur
déplacement. Si l’on considère par exemple un système continu en 3 dimensions, et non plus mono
dimensionnel comme dans le cas dont nous venons de parler, les coordonnées généralisées seront
ηi (x, y, z, t) avec i = 1, 23.
Voyons maintenant comment nous pouvons obtenir les équations de mouvement du système.
L’action est
 !2 
∂η
Z
A
S [η] = dxdt ρη̇ − Y
 2 
∂x 

2

et, en mettant à zéro sa variation de premier ordre par rapport à η on obtient


Z
δS [η, δη] = dxdt ρη̇δη̇ − Yη0 δη0 = 0
 

qui, une fois intégré par partie, donne

∂2 η 1 ∂2 η
− =0 (3.47)
∂x2 c2s ∂t2

où nous avons mis à zéro les conditions limites en supposant que p la variation du champ δη(x, t)
s’annule sur la frontière du domaine d’intégration, et où c s = Y/ρ est une constante, avec la
dimension d’une vitesse. Il s’agit de l’équation d’onde décrivante la propagation dans l’espace et
dans le temps d’une perturbation mono-dimensionnelle dont le front d’onde voyage avec la vitesse
cs.

5. Le module de Young est le rapport (approximativement) constant, dans les matériaux élastiques, entre la contrainte
(en anglais stress) σ = F/A (où F est la force normale à la surface A) et la déformation (en anglais strain) ∆L/L0 ,
c’est-à-dire le changement relatif de longueur par rapport à la longueur à repos L0 .
86 Chapitre 3. Calcul des Variations

Exercise 3.8 Montrer que la même équation d’onde 3.47 aurait pu être dérivée en prenant la
limite du continuum de la loi de Newton du mouvement 3.46.
Solution L’équation newtonienne du mouvement d’un atome donné étiqueté par i (see ??)
est

mη̈i = −k(2ηi − ηi+1 − ηi−1 ).

qui, une fois inséré dans l’équation de Newton, donne ηi (t) = η(x, t) et ηi±1 = η(x ± ∆x). En
développant ces fonctions en série de Taylor jusqu’au second ordre nous obtenons
∂η 1 ∂2 η 2
ηi+1 → η(x + ∆x, t) ≈ η(x, t) + ∆x + ∆x
∂x 2 ∂x2
∂η 1 ∂2 η 2
ηi−1 → η(x − ∆x, t) ≈ η(x, t) − ∆x + ∆x
∂x 2 ∂x2
qui, une fois inséré dans l’équation de Newton, donne

∂2 η ∂2 η 2
!
m 2 =k ∆x
∂t ∂x2

q équation d’onde décrivant les perturbations se propageant avec la vitesse c s =


qui est une
2
lim∆x→0 k∆x m . 

Plongeons maintenant un peu dans le formalisme et voyons quelle forme prend l’équation
d’Euler-Lagrange dans un systèmes continu. Supposons, en toute généralité, qu’on nous donne
une action fonctionnelle S [ϕ] en fonction d’un champ ϕ(ξµ ) et de ses derivées premières ∂µ ϕ. Ici,
comme d’habitude, ξµ , µ = 0, 1, ..., n, sont les coordonnées d’un espace avec (n + 1)-dimensions. Il
s’avère pratique de prendre ξ0 ≡ t et les autre coordonnées comme identifiants des point de l’espace.
Supposons en outre que
Z Z
S [ϕ] = Ldt = L(ξµ , ϕ, ∂µ ϕ) dn+1 ξ

où L est la densité lagrangienne, en fonction de laquelle,


Z
L = L dn ξ

et l’intégration est effectuée par rapport au coordonnées spatiales. Donnons maintenant une variation
arbitraire au champ ϕ(ξµ ) → ϕ0 (ξµ ) = ϕ(ξµ ) + δϕ 6 et calculons la variation de premier ordre de
l’action comme suit
∂L ∂L
Z ( )
δS = δϕ(ξ) + ∂µ δϕ(ξ) dn+1 ξ
∂ϕ(ξ) ∂∂µ ϕ(ξ)
∂L ∂L
Z ( !)
= − ∂µ δϕ(ξ)dn+1 ξ. (3.48)
∂ϕ(ξ) ∂∂µ ϕ(ξ)
En passant de la première à la deuxième ligne, nous avons utilisé la forme multidimensionnelle du
théorème de la divergence
Z Z
µ n+1
∂µ A d ξ = Aµ nµ dS
Ω ∂Ω
∂ϕ
6. Comme d’habitude, la variation doit être conçue comme suit δϕ =  µ ∂ µ en effet, nous pouvons représenter ϕ0 (ξµ )
∂ϕ
comme ϕ0 (ξµ ) ≡ ϕ(ξµ ,  µ ) = ϕ(ξµ , 0) +  µ ∂ µ où ϕ(ξµ , 0) ≡ ϕ(ξµ ).
3.11 Principe variationnel appliqué aux champs 87

où Ω est une région spatio-temporelle et ∂Ω sa frontière.


Ici dS est l’élément de surface sur la frontière, et nµ la normale extérieure. Comme avant, nous
prenons δϕ nul sur la frontière et, par conséquent, il n’y a pas de contribution de la frontière à la
variation de l’action. Le résultat est que
δS [ϕ] ∂L ∂L
!
= − ∂µ ,
δϕ(ξ) ∂ϕ(ξ) ∂∂µ ϕ(ξ)
et l’équation du mouvement suit en posant cette variation égale à zero. Notez qu’une somme sur
l’index µ est implicite. Notez également ceci : le mouvement d’un système discret avec un nombre
fini n de degrés de liberté est décrit par n équations d’Euler-Lagrange, tandis qu’un système qui a
un nombre infini de degrés de liberté, est associé à autant d’équations qu’il y a de coordonnées ξµ
(qui, on le repé̀té, ne sont pas des coordonnées généralisées !).
Exercise 3.9 Utilisez l’équation d’Euler-Lagrangian pour trouver l’équation de mouvement du
barreau vibrant décrit par la densité lagrangienne
1 2 
L= ρη̇ − Yη02 .
2
Solution. L’équation différentielle de mouvement décrivant la vibration longitudinale de la
tige élastique est la suivante

∂L ∂L
∂i − =0
∂∂i η ∂η
qui, une fois appliqué à la densité Lagrangienne donnée, impliques

∂L ∂L ∂L
∂t + ∂x 0 − = ρη̈ − Yη00 = 0.
∂η̇ ∂η ∂η


La corde de guitare vibrante


Un autre système dynamique continu simple est la corde de guitare qui vibre transversalement
dans le plan [x, y] (voit Figure 3.8). La corde a des extrémités fixes, est de longueur L et a une
masse par unité de longueur µ. Nous supposons que la corde est tendue avec une tension T > 0. La
tension est juste la force qui est appliquée aux deux extrémités x = 0 et x = L afin de tendre la corde.
Si la seule force agissant sur la corde est la tension, alors la corde se stabilise dans une position
d’équilibre qui n’est autre que le segment [0, L]. Nous supposons en outre qu’un point initialement
situé au repos avec coordonnées (x, 0) ne se déplace que verticalement (x, y(x, t)). C’est encore une
fois une hypothèse de modélisation. Ce n’est pas vrai à proprement parler. En réalité, le point en
question se déplace aussi un peu vers la gauche ou vers la droite. Cependant, cette hypothèse est
∂y
raisonnable lorsque le déplacement est faible, c.-à-d. la dérivée y0 (x, t) = ∂x a une petite valeur
absolue, et la tension T sur la corde est constante. 7
Si un point de la corde est tirée vers le haut (où vers le bas) dans la direction y, la corde, étant
élastique, s’allonge de la quantité élémentaire dl. Le travail effectué par la tension interne, qui
s’oppose a cet étirement, est donc dW = −T dl = −dV, où dV est le changement dans l’énergie
potentielle élastique de la corde
1
q
dl = 1 + y02 dx ≈ y02 dx.
2
7. La corde de guitare n’est donc pas modélisée comme une chaîne d’oscillateurs, pour laquelle la tension à chaque
point change dans le temps. Ceci est pour faire en sorte que chaque élément de masse ne vibre que le long de l’axe y sans
oscillations latérales le long de l’axe x.
88 Chapitre 3. Calcul des Variations

L’énergie cinétique d’un petit élément de corde avec masse dm(x) = µ(x)dx, identifié, par la
coordonnée x, est dT = 12 (µdx) v2y où

∆y y(x, t + ∆t) − y(x, t) ∂y


vy = lim = lim = ≡ ẏ.
∆t→0 ∆t ∆t→0 ∆t ∂t
En intégrant sur tous les éléments de la corde on obtient le Lagrangien de tout le système.
Z L ( )
1 2 1 0 2
L = T −V = dx µẏ − T y . (3.49)
0 2 2

Nous pouvons donc interpréter l’intégrande comme une densité lagrangienne L. La variation de
l’action est
Z T Z Ln o
δS = µẏδy
˙ − κy0 (δy)0 dxdt
0 0
Z TZ L
= κy − µÿ δy(x, t)dxdt
 00
(3.50)
0 0

Pour atteindre la deuxième ligne j’ai intégré par parties, et, parce que les extrémités sont fixes, et
donc δy = 0 à x = 0 et L, il n’y a pas de termes de surface. En exigeant que δS = 0 pour toutes les
variations autorisées δy, on obtient, ensuit, l’équation du mouvement

∂2 y 1 ∂2 y
− = 0. (3.51)
∂x2 v2 ∂t2
C’estpl’équation décrivante des ondes transversales se propageant dans la corde avec une vitesse
v = T/µ.
Enfin, nous notons que puisque la densité lagrangienne ne dépend pas explicitement du temps,
le système continu doit admettre une intégrale première du mouvement. En écrivant l’intégrale
première pour ce système continu, nous devons remplacer la somme des indices discrets par une
intégrale :
X ∂L Z (
δL
)
E= q̇i −L → dx ẏ(x) −L
i
∂q̇i δẏ(x, t)

La dérivée fonctionnelle par rapport à ẏ est obtenue en faisant varier le lagrangien par rapport à la
fonction ẏ et en imposant, comme toujours, que
L
δL
Z
δS = dxδẏ(x, t) = 0.
0 δẏ(x, t)

On obtient
δL
= µẏ
δẏ

qui conduit à
Z L ( )
1 2 1 0 2
I= dx µẏ + T y .
0 2 2

qui, comme prévu, est l’énergie totale, cinétique plus potentielle, de la corde.
3.11 Principe variationnel appliqué aux champs 89

Figure 3.8 – Cordes vibrante transversalement.

La ficelle coulissante
Supposons, maintenant, que notre corde de guitare de tension T ne soit pas fixée aux extrémités
(donc ce n’est plus une corde de guitare ! ) Ses extrémités spatiales sont libres de glisser vers le
haut et vers le bas. Le lagrangien de ce système sera toujours du type que nous avons rencontré
dans le problème de la corde de guitare (eq. 3.49). Ce qui est différent maintenant, c’est la façon
dont nous traitons les conditions aux limites. Une fois que l’on fait varier l’action, on obtient

Z tf Z L
δS [y, δy] = T y − µÿ δy(x, t)dxdt
 00
t0 0
Z L Z tf
t
+ [ρẏδy]t0f dx + [T y0 δy]0L dt (3.52)
0 t0

Le principe de moindre action nous dit que l’équation de mouvement de la corde coulissante suit
en imposant que l’action soit stationnaire sous des variations très spécifiques de y(x, t), celles qui
s’annulent aux instant initial t0 et final t f ( δy(x, t0 ) = δy(x, t f ) = 0). Notez que ce principe n’exige
pas que δy(x, t) s’annule aussi aux extrémités de la corde, en x = 0 et x = L.. Dans ce problème
spécifique, la configuration du système est telle que l’on ne peut pas supposer que la variation soit
nulle aux extrémités spatiales de la corde. Par conséquent, seul le deuxième terme de l’équation
précédente est égal à zéro et il ne nous reste plus que
Z tf Z L
δS [y, δy] = T y − µÿ δy(x, t)dxdt
 00
t0 0
Z tf Z tf
+ 0
T y (L, t)δy(L, t)dt − T y0 (0, t)δy(0, t)dt (3.53)
t0 t0

Puisque les variations δ(x, t) sont arbitraires, l’équation de mouvement ne suit que si on met à
zéro séparément les arguments des trois intégrales. On obtient donc toujours l’équation d’onde 3.51
90 Chapitre 3. Calcul des Variations

mais, maintenant, les conditions aux limites, qui proviennent des variations aux extrémités, sont les
suivantes

y0 (L, t) = y0 (0, t) = 0.

Il s’agit des conditions aux limites physiquement correctes, qui doivent être utilisées pour résoudre
l’equation différentielle du mouvement 3.51.

3.12 Exercises
Exercise 3.10 Une boîte à chaussures a des côtés de longueur (x, y) et de hauteur z. Étant
donné que son volume est de L3 /2 pour L fixe, trouvez les dimensions (x, y, z) de la boîte qui
minimisent sa surface. Ce problème peut être résolu directement, en résolvant la contrainte,
ou indirectement, en utilisant la méthode des multiplicateurs de Lagrange. Faites-le avec une
méthode et contrôlez votre réponse avec l’autre stratégie de solution. 

Exercise 3.11 Nous voulons construire un réservoir d’eau ayant un volume V = (1/2)m3 et nous
voudrions utiliser moins de matériel que possible. Quelle forme donner à la boîte pour minimiser
sa surface ? 

Exercise 3.12 Une compagnie aérienne accepte les bagages ayant la forme d’un parallélépipède,
seulement si la somme de la longueur et du périmètre latérale est, au plus, 130 cm (le périmètre
latérale est la longueur autour du colis dans un plan perpendiculaire à la dimension maximale
c.-à-d. à la longueur du colis). Quel est le volume maximale d’un bagage que cette compagnie
peut expédier ?


Exercise 3.13 En utilisant les multiplicateurs de Lagrange, trouvez la distance la plus courte
entre le point (x0 , y0 , z0 ) et le plan ax + by + cz = d. 

Exercise 3.14 Un fabricant fabrique deux modèles d’un article, la version standard et celle de
luxe. Le prix de fabrication des deux modèles est 40$ et 60$. Un étude de marché estime que
si le prix du modèle standard est de x dollars et le prix du modèlle luxe est de y dollars, alors
le fabricant vendra 500(y − x) articles standard et 45000 + 500(x − 2a) articles deluxe chaque
année. Comment le prix de vente des articles doit-il être fixé pour maximiser le profit ? 

Exercise 3.15 Considérons une particule quantique de masse m dans une boîte à forme de
parallélépipéde rectangulaire avec côtés a, b et c. L’énergie de l’état fondamental de la particule
est donnée par :

h2 1
!
1 1
E= + + .
8m a2 b2 c2

Trouvez la forme de la boîte à volume constant qui minimisera l’énergie E de la particule. 

pi = 1 maximise l’entropie d’ information


PN
Exercise 3.16 Quelle probabilité pi satisfaisant i=1
S =−
P
i pi log2 pi ? 
3.12 Exercises 91

Exercise 3.17 Montrer qu’une droite est la courbe de moindre longueur, appelée géodésique,
entre deux points du plan euclidien. 

Exercise 3.18 Trouvez le chemin géodésique (le plus court) reliant deux points sur une sphère.


Exercise 3.19 On dit souvent que Galilée pensait que la courbe qui décrit une chaîne suspendue
était parabolique et que la courbe suivie d’une chaîne n’est pas une parabole a été prouvée
par Joachim Jungius (1587-1657). Plus tard, en 1691, Leibniz, Huygens et Johan Bernoulli
en déduisirent la forme exacte, qui s’appelle maintenant caténaire du latin catena qui signifie
chaîne. Trouvez la forme de la courbe qu’une chaîne ou un câble suspendu de masse uniforme
prend sous son propre poids lorsqu’il n’est soutenu qu’à ses extrémités. 

Exercise 3.20 Le lagrangien decrivant une particule de charge q en mouvement dans un champ
électromagnétique est
1
L[x, ẋ] = m ẋ2 − qϕ + q ẋ · A(x)
2
Montrer que les équations d’Euler-Lagrange conduisent à l’équation de mouvement suivante

m ẍ = q (E + ẋ · B)


∂A
E = −∇ϕ − B = ∇∧ A
∂t


Exercise 3.21 L’action qui décrit le comportement d’un ensemble de particules ponctuelles
massives libres qui ne peuvent se déplacer que selon l’axe x est la suivante
Z X
1
S [x] = dt mk ẋk2 .
k
2

Dans le cadre des transformations de Galilei, les coordonnées spatiales et temporelle sont
modifiées comme suit

x0 (t) = x(t) − vt
t0 = t

où v est une vitesse constante (et petite par rapport à la lumière) le long de l’axe x. Montrez que
la transformation de Galilee, c.-à-d. le déplacement δ s x(t) = −vt, est une symétrie du système, et
trouvez la charge de Noether résultante. 

Exercise 3.22 Déterminer l’action S qui décrit la dynamique d’un pendule simple de longueur L
composé d’une chaîne de masse négligeable m et d’un masse ponctuelle m (négliger toute source
de friction). Trouvez les équations des mouvements du système et, s’il existe, une intégrale
première du mouvement. 
92 Chapitre 3. Calcul des Variations

Figure 3.9 – Système avec multiples degrés de liberté.

Figure 3.10 – Tige élastique utilisée comme colonne pour soutenir une masse M.

Exercise 3.23 Déterminer l’action S qui décrit la dynamique du système oscillant masse-
ressort représenté en figure 3.9 (négliger toute source de friction). Trouvez les équations des
mouvements et, le cas échéant, une intégrale première du mouvement. 

Exercise 3.24 Tiges élastiques. L’énergie élastique par unité de longueur d’une tige d’acier
pliée est donnée par 12 Y I/R2 . Ici R est le rayon de courbure dû à la flexion, Y est le module de
Young de l’acier et I est le moment d’inertie de la section transversale de la tige autour d’un
axe à travers son centroïde. a) Considérons une tige de longueur L selon l’axe z. Si on pose
une masse au dessus de la tige, celle-ci va légèrement fléchier dans le plan y, z c.-à-d. la tige se
déforme légèrement avec les deux extrémités restant sur l’axe z et les autres points ne s’éloigner
pas trop de l’axe des z. Montrent que l’énergie élastique de la tige peut être approchée comme
suit
Z L
1
U[y] = Y L(y00 )2 dz
0 2

où y0 = dy/dz. b) La tige est utilisée comme colonne qui supporte une charge de compression
Mg dirigée le long de l’axe verticale z (voir la figure 3.10). Montrer que lorsque la tige fléchie
l’énergie totale, y compris l’énergie potentielle gravitationnelle de la masse de chargement M,
peut être approchée par
Z L( )
1 00 2 1
Y[y] = 0 2
Y I(y ) − Mg(y ) dz.
0 2 2

c) Montrer que la colonne est instable et va s’effondrer si Mg > π2 Y I/L2 . 

Exercise 3.25 La forme d’une peau de tambour déformée est décrite par la fonction h(x, y), qui
donne la hauteur à laquelle le point (x, y) ∈ D (D représente l’ensemble des points dé́crivants la
3.12 Exercises 93

peau plate, au repos, du tambour) est déplacé.


1. Montrer que la surface de la peau de tambour déformée est égale à
s
!2 !2
∂h ∂h
Z
A[h] = dxdy 1 + +
∂x ∂y

où l’intégrale est prise sur la zone de la peau de tambour plate.


2. Montrer que pour des petites distorsions, la surface se réduit à
Z
1
A[h] = const + dxdy |∇h|2 .
2
3. Montrer que si h satisfait l’équation de Laplace bi-dimensionnelle, A est stationnaire par
rapport aux variations qui s’annulent à la frontière.
Solution 1) L’élément de ligne décrivant un point générique de la surface est

dl2 = dx2 + dy2 + dz2

Puisque z = h(x, y) nous avons

dl2 = dx2 + dy2 + (h x dx + hy dy)2 = gi j dxdy

où hi = ∂i h et où

1 + h2x h x hy
!
gi j = . (3.54)
h x hy 1 + h2y
q
L’élément de surface est par définition dS = det(g)dxdy ≈ 1 + h2x + h2y dxdy (puisque
p

les déformations h sont petites, nous avons négligé les termes de deuxième ordre.) Avec une
intégration sur le domaine D nous arrivons au résultat. Considérons la variation h(x, y) →
h(x, y) + δh(x, y). Cela nous donne

hi (x, y) → hi (x, y) + ∇i δh(x, y) i = 1, 2

, et donc
"
h x ∇ x δh + hy ∇y δh
δA[h] = dxdy q .
D 1 + h2x + h2y

En intégrant par parties, nous avons

"
     
     
hx hy

 

δA = − δh +

     
dxdy  ∇ ∇


 x
 q 
 y  q 
 

   1 + h2x + h2y   1 + h2 + h2 
      
D 
      

x y

94 Chapitre 3. Calcul des Variations

plus les termes de surface. Pour traiter correctement les conditions aux extrémités, nous devons
nous demander si nous devons imposer des conditions à la frontière de la région D. Toute surface
minimale satisfera l’equation différentielle non linéaire.
   
   
hx hy
 + ∇y  q  = 0.
   
∇ x  q
1 + h x + hy
2 2 1 + h x + hy 
2 2
   

C’est l’équivalent de l’équation

(1 + h2y )h xx + (1 + h2y )hyy − 2h x hy h xy = 0

Si nous pouvons ignorer les non-linéarités au motif que |∇h| << 1, alors l’équation décrivante la
surface minimale devient h xx + hyy = 0, qui est l’équation de Laplace. Une solution évidente de
l’équation est

h(xy) = Ax + By + C

Exercise 3.26 Quelle est l’équation fondamentale de la physique que nous obtenons si nous
posons égale à zero la variation de l’action suivante ?

h̄2
Z " #

S= 3
d xdt ∇ψ · ∇ψ + Vψ ψ +
∗ ∗
ψψ − ψψ ,
∗ ∗
2m 2πi

Ici, ψ(x, t) et ψ∗ (x, t) sont deux champs indépendants. 


4. FONCTIONS ORTHOGONALES

Dans ce chapitre, nous voulons jeter un regard neuf sur un vieux sujet : les fonctions ! Nous
voulons reconsidérer les fonctions f dans une nouvelle perspective, en les considérant comme des
vecteurs. Manifestement pas des vecteurs géométriques, mais des éléments d’un espace vectoriel
(bien que nous n’utiliserons pas le caractère gras pour le souligner). En effet, l’ensemble F [a, b]
de toutes les fonctions réelles f (x) définies dans l’intervalle [a, b] satisfait à tous les axiomes de
l’espace vectoriel. 1 On peut donc penser aux nombre f calculé pour x ∈ [a, b] comme un composant
du vecteur f . Puisqu’il y a une infinité de composants indépendants – un pour chaque point x –
l’espace des fonctions est typiquement de dimensions infinies.
Cet espace de fonctions est trop grand pour être utile et nous nous limiterons donc à des
sous-espaces intéressants pour les physiciens. Il s’agit généralement d’espaces qui contiennent
des fonctions avec de propriétés intéressantes, telles que la continuité ou la différentiabilité. Il y a
une notation assez standard pour ces espaces. Par exemple l’espace C n [a, b] des fonctions avec n
dérivées continues dans l’intervalle [a, b]. Pour des fonctions smooth, celles qui ont une infinité de
dérivées continues nous écrivons donc C ∞ [a, b]. Ou l’espace des fonctions analytiques, celles dont
l’expansion de Taylor converge effectivement vers la fonction, qui est indiqué par C ω [a, b]. Dans
ce chapitre, nous allons rencontrer d’autres espaces de fonctions très intéressants et utiles tels que
les espaces normés, les espaces L p , les espaces muni d’une forme sesquilineaire (inner product en
anglais), les espaces de Banach et de Hilbert, que vous connaissez probablement depuis vos cours
de mécanique quantique.

R
La convergence d’une suite de fonctions fn vers une fonction limite f n’est pas un concept
aussi simple que la convergence d’une suite de nombres xn vers une limite x. La convergence
signifie que la distance entre la fonction fn et la fonction limite f devient de plus en plus
petite à mesure que n augmente. Bien que les physiciens n’aient normalement pas les mêmes
responsabilités intellectuelles que les mathématiciens, nous devrions au moins avoir à l’esprit
ce que nous voulons dire lorsque nous écrivons fn → f . Il y a trois définitions courantes de
convergence :

1. Les fonctions complexes sont également membres d’un espace vectoriel.


96 Chapitre 4. FONCTIONS ORTHOGONALES

1. Convergence ponctuelle : si, pour chaque x dans son domaine de définition D, l’en-
semble des nombres fn (x) converge vers f (x), la suite converge ponctuellement, et nous
indiquons ce fait par la notation fn → f .
2. Convergence Uniforme : si la séparation maximale 2

S up| fn (x) − f |
x∈D

va à zéro quand n → ∞.
3. Convergence en moyenne : si
Z
| fn (x) − f (x)| dx
D

va à zéro quand n → ∞.

Par exemple, la convergence uniforme implique une convergence ponctuelle, mais


pas l’inverse. Si D est un intervalle fini, alors la convergence uniforme implique une
convergence dans la moyenne, mais la convergence dans la moyenne n’implique ni
la convergence uniforme ni la convergence ponctuelle. Dans ce qui suit, nous verrons
que d’autres notions spécifiques de convergence doivent être introduites si l’on veut
exploiter la richesse des informations encodées dans les espaces fonctionnels.

Exercise 4.1 Considérons la suite fn = xn (n = 1, 2, ....) et D = [0, 1). Ici, la notation signifie que
le point x = 0 est inclus dans l’intervalle, mais le point 1 est exclu.
a) Lorsque n devient grand, la séquence converge-t-elle ? Avec quel type de convergence ? b)
Quel type de convergence avons-nous si le domaine est D = [0, 1]

Solution. a) Nous avons xn → 0 ponctuellement en D, mais la convergence n’est pas uniforme


car

S up|xn − 0| = 1
x∈D

quel que soit la valeur de n.

b) Les deux crochets signifient maintenant que x = 0 et x = 1 doivent être inclus dans
l’intervalle. Dans ce cas, nous avons pas de convergence ponctuelle (la limite n’est pas unique)
et donc pas de convergence uniforme (ce qui est une exigence plus forte). Mais xn → 0 dans la
moyenne. 

Nous allons maintenant passer en revue certains des espaces de fonctions les plus importants
rencontrés en physique avant d’introduire le sujet central de ce chapitre qui sont une suite spéciale
de fonctions fn appelée polynômes orthogonaux.

4.1 Espaces de fonctions


Si nous voulons considérer les fonctions comme des éléments vectoriels, nous devons clairement
définir leur taille, c’est-à-dire définir la notion d’amplitude d’une fonction. Nous définissons la
‘taille’ d’une fonction f comme étant la norme || f ||. Bien évidement, il y a plus d’une façon de
mesurer la norme d’une fonction. Quelle que soit la prescription que l’on choisit, il s’agit d’un
nombre réel, df́ini positif et satisfaisant aux axiomes 1.1.10.
2. Ici Sup, abréviation de borne supérieure d’un ensemble de nombres, indique le plus petit nombre qui est dépassé
par aucun nombre dans l’ensemble. Ce concept est plus utile que celui de maximum parce que la borne supérieure n’est
pas forcement un élément de l’ensemble.
4.1 Espaces de fonctions 97

Figure 4.1 – Dans les images suivantes, les deux fonctions sont très différentes sur les ensembles de mesure du zéro.
Ils ont différente sup-norme, mais la même norme L2 .

Une norme en C[a, b] pourrait par exemple être établie en définissant la sup-norme.

|| f ||c ≡ S up | f (t)|.
a≤t≤b

Vous pouvez vérifier que cette définition satisfait aux axiomes 1.1.10. Cependant, il s’avère que
cette quantité est d’importance marginale en physique. Une norme plus utile est la norme L p .
Definition 4.1.1 — Espace normé L. L’espace normé L p [a, b], pour tout 1 ≤ p < ∞ est l’espace
des fonctions f dans l’intervalle [a, b] pour lequel la norme L p , définie comme suit
Z b !1/p
p
|| f || p ≡ | f (x)| dx (4.1)
a

est finie.
Par exemple, L2 [a, b] est l’espace normé des fonctions de carré intégrable dans l’intervalle [a, b].
Nous avons défini ||| f || p comme norme. En effet on peut montrer (bien que ce ne soit pas
trivial à faire) que les normes L p satisfont aux axiomes 1.1.10. Cependant, certains aspects subtils
méritent d’être soulignés. Il est possible, en effet, qu’une fonction ait ||| f ||| p = 0 sans que f soit
identiquement zéro – une fonction qui s’annule partout sauf pour un ensemble fini de points, par
exemple. Cette fonction pathologique viole le premier axiome de notre liste 1.1.10, mais nous
contournons le problème en déclarant simplement que ces fonctions sont des fonctions nulles. Cela
signifie que les éléments des espaces L p ne sont pas vraiment des fonctions, mais seulement des
classes d’équivalence de fonctions – deux fonctions étant considérées comme identiques si elles
diffèrent par une fonction de longueur nulle (voir Figure 4.1). Il est clair que ces espaces ne sont
pas destinés à être utilisés lorsque quelque chose de significatif dépend de la valeur de la fonction à
un point précis. Ils sont utiles en physique, cependant, parce que nous ne pouvons jamais mesurer
une quantité à une position exacte dans l’espace ou dans le temps. Nous mesurons habituellement
une sorte de moyenne locale.
La norme permet de définir un nouveau type de convergence, appelé convergence en norme.
98 Chapitre 4. FONCTIONS ORTHOGONALES

Definition 4.1.2 — Convergence en norme. On dit qu’une suite de fonctions fn converge en


norme à la fonction f si lim || fn − f || = 0, un fait qui est souvent simplement énoncé en utilisant
n→∞
la notation simplifiée || fn − f || → 0

Puisque || fn − f || mesure la distance entre les éléments vectoriels fn et f dans un espace normé (voir
1.2) on peut dire que la convergence en norme implique que les distances entre les éléments de la
suite et la fonction f tendent vers zéro.
Une propriété importante qui peut être associée à des espaces normés et qui enrichit leur
structure est celle de la complétude. Ce nouveau concept repose sur sur la notion de suite de
Cauchy. 3
Definition 4.1.3 — Suite de Cauchy. Une suite fn dans un espace vectoriel normé est dite de
Cauchy si pour n’importe quel  > 0 on peut trouver un N (independent de ) tel que ∀n, m > N
on a || fm − fn || < .

Cette définition peut être vaguement paraphrasée pour dire que les éléments d’une suite de Cauchy
se rapprochent uniformément et arbitrairement les uns des autres comme n → ∞. Considérons, par
exemple, l’espace vectoriel normé Q des nombres rationnels avec la distance mesurée de la manière
habituelle comme suit ||q1 − q2 || ≡ |q1 − q2 |. La suite q0 = 1.0,√q1 = 1.4, q2 = 1.41, q3 = 1.414, .......
√ de 2, satisfait |qn − qm | < 10
consistant en des approximations décimales successives −min(n,m) et

donc est une suite de Cauchy. Pythagore a montré que 2 est irrationnel, cependant, et donc cette
suite de nombres rationnels n’a pas de limite en Q. Donc Q n’est pas un espace complet. L’espace
R des nombres réels est construit en remplissant les ‘trous’ entre les rationnels, et en complétant
ainsi Q.
Dans un espace métrique, toute suite convergente est de Cauchy. La réciproque n’est vraie que
dans un espace complet, comme on verra maintenant, en donnant la definition d”espace complet de
fonctions normées.
Definition 4.1.4 — Espace de Banach. Un espace vectoriel normé de fonctions est complet
par rapport à sa norme si chaque suite de Cauchy converge effectivement vers un élément de
l’espace. Un espace vectoriel normé et complet s’appelle un espace de Banach.

Si nous interprétons les normes comme des intégrales de Lebesgue, alors le L p [a, b] n’est pas
seulement un espace normé, mais aussi un espace normé complet, et donc un espace de Banach. Le
‘L’ en L p honore Henri Lebesgue. Les espaces de Banach sont nommés d’après Stefan Banach, qui
a été l’un des fondateurs de l’analyse fonctionnelle.
Exercise 4.2 Dans l’intervalle [−1, 1] considérer la fonction discontinue

0 −1 ≤ x < 0

f (x) = 

(4.2)
1 0 < x ≤ 1

et la suite des fonctions discontinues






 0 −1 ≤ x ≤ 1/n
fn (x) =  nx + 1 −1/n < x < 0

(4.3)



0≤x<1

1

On peut montrer que la suite est de Cauchy (démontrez-le !). On peut aussi démontrer qu’elle

3. L’uniformité dans la définition est importante : il ne suffit pas que la différence des termes consécutifs d’une suite
tende vers 0 pour que cette suite soit de Cauchy. Par exemple, la suite Hn des sommes partielles de la série harmonique
vérifie Hn+1 − Hn = 1/(n + 1) → 0 mais Hn n’est pas de Cauchy.
4.1 Espaces de fonctions 99

converge vers f dans la norme de L2 . En effet


s sZ
Z 1 0
lim || f − fn ||2 = lim | f − fn |2 dx = lim (nx + 1)2 dx
n→∞ n→∞ −1 n→∞ −1/n
1
= lim √ = 0. (4.4)
n→∞ 3n

donc une suite de fonction continue converge vers une fonction discontinue. 

L’exemple précédent montre qu’une suite de Cauchy de fonctions continues peut en général
converger vers une suite discontinue. Par conséquent, le sous-espace de L2 [a, b] ne contenant que
des fonctions continues, c’est-à-dire des éléments de C 0 [a, b] n’est pas un espace complet. L’espace
de Banach L2 [a, b] peut donc être interprété comme étant l’achèvement de l’espace des fonctions
continues.
Les espaces muni d’une forme sesquilinéaire, que nous avons déjà rencontrés dans la section
1.1.4, sont des exemples importants d’espaces normés. Ce sont des espaces de fonctions dans
lesquels on peut définir un fonctionnel ( f, g) qui ‘avale’ deux éléments f et g de l’espace vectoriel
et retourne un scalaire qui satisfait aux axiomes definissants une forme sesquilinéaire 1.1.12. Il y a
plus d’une façon de définir ces fonctionnels. Un example important de forme sesquilinéaire est le
produit scalaire, défini par
Z b
( f, g) = f¯(x)g(x)g(x)dx ≡ h f |gi
a

où nous avons introduit la convention de Dirac, dite des ‘bra-kets’, pour indiquer que la forme
sesquilinéaire qu’on considère est le produit scalaire. Notez que le produit scalaire défini ci-dessus
entre les éléments d’un espace de fonctions est la généralisation la plus simple du produit scalaire
u · v défini entre les vecteurs géométriques u et v.
L’intérêt des espaces munis d’une forme sesquilinéaire
p est que nous pouvons toujours définir
une norme pour leurs éléments. En effet la quantité ( f, f ) satisfait à toutes les propriétés de la
norme. En particulier, nous indiquerons simplement par le symbole ||...|| la norme induite par le
produit scalaire
p
|| f || ≡ h f | f i (4.5)

On peut immédiatement voir que la norme induite par le produit scalaire coïncide avec la norme
d’un espace normé L2 . En effet
Z b !1/2
|| f || ≡ 2
| f (x)| dx ≡ || f ||2 . (4.6)
a

Nous sommes donc naturellement amenés à considérer les espaces fonctionnels dotés d’une
forme sesquilinéaire comme ayant un statut particulier parmi tous les espaces vectoriels nor-
més.
Definition 4.1.5 — Espace de Hilbert. Un espace de fonctions muni d’une forme sesquilinéaire
qui est complet par rapport à la norme induite par cette forme, est appelé espace de Hilbert.

Par conséquent, tout espace de Hilbert est aussi un espace de Banach, mais pas l’inverse.
Dans les espaces de fonctions dotés d’une forme sesquilinéaire nous pouvons étudier un concept
aussi fondamental que celui de l’orthogonalité entre fonctions. En fait, puisque les fonctions sont
des vecteurs, nous aimerions pouvoir les développer sous forme de combinaisons linéaires d’une
certaine base, qui, dans les espaces de fonctions, doivent nécessairement être d’autres fonctions.
100 Chapitre 4. FONCTIONS ORTHOGONALES

Les vecteurs géométriques d’un espace V3 peuvent être décomposés en termes de trois vecteurs
de base. Mais de combien de fonctions, se comportant comme une base, avons-nous besoin pour
representer une fonction générique f (x) ? Je vais aborder cette question dans la prochaine section.

4.2 Bases orthonormales des fonctions


Autant que pour les vecteurs géométriques, il serait intéressant de représenter une fonction
donnée en fonction de ses composantes (a0 , a1 , a1 , a2 ........aN ) par rapport à une base. De cette façon,
par exemple, nous pourrions facilement étendre aux fonctions toutes les propriétés et théorèmes
que nous avons déjà établi pour les vecteurs géométriques.
Il semble que, pour atteindre cet objectif, nous ayons besoin de pouvoir representer une fonction
f (x) dans un intervalle donné [a, b] comme une combinaison linéaire de certaines fonctions de base
bn (x). Nous explorons donc la définition provisoire suivante :

?
f (x) = fN (x) ≡ a0 b0 (x) + a1 b1 (x) + ....... + aN bN (x) ≡ an bn (x) n = 0, 1, 2, ......N (4.7)

où an , les composantes (constantes) de la fonction f (x) dans la base donnée bn (x), sont données par
le produit scalaire
Z b
c ≡ hb | f (x)i =
n n
en (x) f (x)dx
a

Ce que nous devons examiner est si fN donné par l’expansion 4.7 coïncide effectivement avec la
fonction f (x). Pour ce faire, nous devons prouver que l’ensemble bn (x) constitue effectivement une
base pour l’espace de fonction. Nous avons déjà expliqué pourquoi une base orthonormale un (x) est
habituellement le choix privilégié lorsque nous voulons représenter un vecteur : simplement parce
que la base et son duale coïncident et, par conséquent, les coefficients de combination linéaires an
peuvent être simplement déterminés par le biais du produit scalaire de la fonction avec l’élément
de base un (x). Pour aller plus loin, nous devons maintenant clarifier ce que nous entendons quand
nous disons qu’un ensemble de fonctions est orthonormal dans un intervalle donné [a, b].
Definition 4.2.1 — Ensemble orthonormal de fonctions. Un ensemble de fonctions un (x) est
orthonormal dans l’intervalle [a, b] par rapport au produit scalaire si
Z b
hun (x)|um (x)i = un (x)um (x)dx = δnm (4.8)
a

Sauf indication contraire, nous supposerons que l’orthonormalité est induite par le produit scalaire
et nous allons simplement parler d’orthonormalité des fonctions. Par exemple l’ensemble des
fonctions

un = 2 sin nπx n = 1, 2, 3..... (4.9)

appelée fonctions sinusoïdales, est orthonormale dans l’espace de Hilbert L2 [0, 1] puisque
Z 1
2 sin(nπx) sin(mπx)dx = δnm .
0

Le problème qu’il nous reste à résoudre est maintenant de savoir si l’ensemble des fonctions
un est une base. Un instant de réflexion montre que la formule d’expansion 4.7 ne tient pas en
général pour un ensemble fini de fonctions orthogonales un (x) dans l’intervalle [a, b]. Supposons
que nous développons une fonction f (x) , 0 et que f (x) est orthogonale à chaque fonction un (x).
4.2 Bases orthonormales des fonctions 101
Rb
Le coefficients an = hun | f (x)i = a un (x) f (x)dx seraient tous 0 dans ce cas, alors que f (x) n’est pas
zéro par définition ! Afin de pouvoir développer une fonction arbitraire f (x) définie sur [a, b], il
doit y avoir suffisamment de fonctions un (x) dans l’ensemble de sorte que si hun (x)| f (x)i = 0 pour
tous n, alors f est nécessairement la fonction nulle. En d’autres termes, nous avons besoin d’un tel
ensemble un (x) pour former une base de l’espace. Et un espace de dimension infinie tel que celui
des fonctions, nécessite d’un nombre infini de vecteurs de base !
Ainsi, un ensemble orthonormal, pour être d’une certaine utilité, doit être complet. Notez que
la complétude d’un ensemble de vecteurs de base n’a rien à voir avec la notion de complétude de
l’espace évoquée plus haut ;
Definition 4.2.2 — Complétude d’un ensemble orthonormal de fonctions. Un ensemble ortho-
normal de fonctions un (x) est complet dans un intervalle [a, b] si c’est une base de l’espace de
Hilbert L2 [a, b], c.à.d. si une fonction f de L2 [a, b] a une expansion convergente

f (x) = cn un n = 0, 1, 2, 3.........∞ (4.10)


Z b
c = hu | f i =
n n
un (x) f (x)dx (4.11)
a

La série est appelée série de Fourier, tandis que les cn sont des paramètres constants appelés
coefficients de Fourier.
Notez que nous avons exploité le fait que, pour la base orthonormale, la base duale un coïncide avec
un . 4 Notez également que la convergence signifie que la séquence des sommes partielles fN = cn un
pour n = 0, 1, 2...N est convergente dans le sens de la norme L2 [a, b], c.-à-d.

lim || f − fN ||2 = 0 (4.12)


N→∞

Pas tous les éléments d’un espace de fonctions peuvent pas être représentés dans une base ! Afin de
pouvoir être décomposée sur une base complète, une fonction doit appartenir à l’espace de Hilbert
Rb
L2 [a, b], c’est-à-dire a | f (x)|2 dx doit être fini. Bien qu’un calcul (souvent) simple suffise à prouver
si un ensemble un est orthogonal, la complétude de l’ensemble est beaucoup plus difficile à prouver.
Exercise 4.3 Montrer que la base duale un (x) coïncide avec un (x) si les fonctions un (x) sont
orthonormales.
Solution. Puisque les fonctions un (x) forment un ensemble orthonormal nous obtenons
Z b
hum |un i = um (x)un (x)dx = δnm .
a

4. Une subtilité doit être discutée correctement. Le fait que le composant d’un vecteur peut être calculé à l’aide d’un
produit scalaire est une conséquence du théorème de Riesz-Fréchet démontré dans 1.2.3 pour les espaces vectoriels avec
dimension finie. Dans les espaces de Hilbert, qui sont généralement de dimensions infinis, le théorème de Riesz-Fréchet
ne tient que si le fonctionnel linéaire ϕ(...) agissant sur les fonctions f est borné c.-à-d. il existe un M > 0 tel que, pour
tout f

|ϕ( f )| ≤ M || f ||2
102 Chapitre 4. FONCTIONS ORTHOGONALES

De plus, en raison du principe de dualité


Z b
hu |un i =
m
um (x)en (x)dx = δmn . (4.13)
a

et comme la position des indices sur le delta de Kronecker n’a aucune importance, nous
concluons, en comparant les expressions précédentes que les fonctions um (x) sont identiques à
um (x). 

A titre d’exemple, développons la fonction f = 1 dans l’intervalle [0, 1] en termes des fonctions
R1
sinusoïdales 4.9. Puisque 0 | f (x)|2 dx = 1 est fini, la fonction f (x) peut être représentée comme une
somme convergente des un . Puisque la base est orthonormale les coefficients d’expansion cn sont
Z 1√ 
0 √ n pair

cn = (un , f ) = 2 sin(nπx)dx = 

(4.14)
0  2 2 n impair

Donc

X 4
f (x) = sin [(2n + 1)πx] , in L2 [0, 1]
n=0
(2n + 1)π

Il est important de comprendre que la somme converge dans l’intervalle fermé [0, 1] seulement dans
le sens de L2 . La série ne converge pas de façon ponctuelle vers l’unité à x = 0 ou x = 1 - chaque
terme est nul à ces points. Il n’est pas surprenant qu’un ensemble de fonctions qui s’annulent aux
bornes de l’intervalle puisse être utilisé pour representer une fonction qui ne s’annule pas aux
extrémités, car l’espace de Hilbert L[2 a, b] est défini comme l’achèvement de l’espace des fonctions
continues. Le sous-espace défini par la fonction continue qui s’annulent aux extrémités n’est pas
complet, tandis que l’espace de Hilbert est complet.

R Comme le montre l’exemple, une suite de Cauchy de fonctions continues un qui s’annulent
aux extrémités d’un intervalle peut converger vers une fonction continue qui ne s’annule pas à
ces extrémités. Toute somme finie de fonctions continues un qui s’annulent aux extrémités est
également une fonction continue qui s’annule aux extrémités. Le ‘sous-espace’ défini par ces
sommes finies n’est donc pas complet. L’ensemble des fonctions continues un qui s’annulent
aux extrémités sont des membres de l’espace de Hilbert, tout comme les nombres rationnels
sont aussi de nombres réels : une somme finie de rationnels est un nombre rationnel, mais
une somme infinie de rationnels n’est en général pas un nombre rationnel et nous pouvons
obtenir tout nombre réel comme limite d’une suite de nombres rationnels. Les rationnels Q
sont donc un sous-ensemble dense des réels, et, comme expliqué précédemment, les réels
sont obtenus en complétant l’ensemble des rationnels en ajoutant à cet ensemble ses points
limites. Dans le même sens, l’ensemble des fonctions continues qui s’annulent aux extrémités
est un sous-ensemble dense de tout l’espace de Hilbert et l’espace de Hilbert tout entier est
obtenu en ajoutant les fonctions limites.

Puisque nous pouvons re-écrire (4.10) comme



X Z b Z b ∞
X
f (x) = un (x) f (x0 )un (x0 ) f (x0 )dx0 = f (x0 ) un (x0 )un (x)dx
n=0 a a n=0

il en suit que nous pouvons également exprimer la condition de complétude comme l’affirmation
selon laquelle

X
un (x0 )un (x)dx = δ(x − x0 ). (4.15)
n=0
4.2 Bases orthonormales des fonctions 103

pour x0 = 0.3., N = 40 (panneau de gauche) et N = 100


PN 0)
Figure 4.2 – On montre la somme n=0 2 sin(nπx) sin(nπx
panneau de droite.

Un ensemble un est complet si l’on peut exprimer le delta de Dirac (voir le chapitre suivante) en
termes de un (les coefficients de l’expansion sont simplement le conjugué des fonctions un ).

R La convergence de la somme 4.15 n’est ni ponctuelle ni dans le sens de L2 . La somme tend


vers une limite seulement dans le sens d’une distribution, ce qui signifie que nous devons
multiplier les sommes partielles par une fonction de test smooth et intégrer sur x avant
d’avoir quelque chose√qui converge réellement. A titre d’illustration, considérons l’ensemble
orthonormal un (x) = 2 sin(nπx) dans l’interval [0, 1]. La figure 4.2 présente les premiers
termes de la somme. Les ondulations des deux côtés du pic à x = x0 ne diminuent pas en
amplitude à mesure que le nombre N des termes augmente. Elles deviennent cependant de
plus en plus fréquentes. Lorsqu’elle est multipliée par une fonction smooth et intégrée, la
contribution des régions positives et négatives adjacentes a tendance à s’annuler, et ce n’est
qu’après cette intégration que la somme tend à être nulle loin du pic.

Quelle est l’imprécision attendue si nous développons f en utilisant seulement un ensemble fini
de fonctions orthonormales ? En d’autres termes, quelle est la différence entre f et fN = an un où
n = 0, 1, 2...N ? Une mesure appropriée de l’erreur est donnée par la distance entre f et fN définie
comme suit

σ2N ≡ || f − fN ||2 = ( f − fN , f − fN ) || f ||2 − an h f |un i − am hum | f i + am an hum |un i


= || f ||2 − an h f |un i − am hum | f i + an an
(4.16)

Dans la dernière ligne, nous avons utilisé l’orthonormalité des un . Nous pouvons réécrire la fonction
d’erreur comme suit
σ2N = || f ||2 + han − hun | f i|an − hun | f ii − hun | f ihun | f i
ou, equivalentement,
σ2N = || f ||2 + ||an − cn ||2 − cn cn
où les coefficients cn ≡ hun | f i sont en principe différents des coefficients d’expansion an puisque
l’ensemble fini un . ne constitue pas une base de l’espace de Hilbert. Nous cherchons à minimiser
l’erreur par un choix approprié de coefficients an . L’erreur plus petit qu’on puisse commettre est
σ2N = || f ||2 − cn cn (4.17)
et nous atteignons cette limite en mettant chacun des ||an − cn || à zéro, c’est-à-dire en prenant
an = hun | f i. Ainsi, les coefficients de Fourier sont toujours le choix optimal même lorsque l’on
approche une fonction par le biais d’une suite finie des sommes partielles !
104 Chapitre 4. FONCTIONS ORTHOGONALES

R
Supposons que nous ayons une collection non orthogonale de fonctions gn , n = 1, ..., N, et que
PN
nous ayons trouvé la meilleure approximation n=1 an gn (x) à f (x). Supposons maintenant
qu’on nous donne un gN+1 à ajouter à notre collection. On peut alors chercher une approxi-
PN+1 0
mation améliorée n=1 an gn (x). en incluant cette nouvelle fonction – mais trouver cette
meilleure adéquation implique, généralement, d’ajuster tous les an , et pas seulement d’essayer
de trouver la bonne valeur de aN+1 . Le grand avantage de l’approximation par fonctions
orthogonales est que, en ajoutant un autre membre à la famille des fonctions orthonormales,
nous pouvons améliorer la précision du ‘fit’ en ajustant seulement le coefficient du nouveau
terme. Nous n’avons pas à perturber les coefficients obtenus précédemment.

Theorem 4.2.1 — Théorème de Parseval. Si f est décomposé en termes d’un ensemble complet
de fonctions orthonormales, alors,

X
|| f || =
2
cn cn = |cn |2 (4.18)
n=0

où cn = hun | f i sont les coefficients de Fourier de la decomposition.

Proof La démonstration est simple. Dans la limite N → ∞ la série converge en moyenne vers la
fonction, donc
lim || f − fN ||2 = 0 (4.19)
N→∞

et donc l’erreur σ2N tends à zero. Les résultats découlent de la mise à zéro du terme de gauche
en 4.17.

Le théorème de Parseval est souvent utilisé à l’envers, comme définition d’un ensemble complet de
fonctions orthonormales. Comprenons ce point important plus en profondeur. Comme nous l’avons
mentionné dans une remarque précédente, un ensemble de points S est un sous-ensemble dense
d’un espace T si un point donné x ∈ T est la limite d’une suite de points en S , c’est-à-dire qu’il
y a des éléments de S se rapprochant arbitrairement de x. Par exemple, l’ensemble des nombres
rationnels Q est un sous-ensemble dense de R. En utilisant ce langage, nous disons qu’un ensemble
de fonctions orthonormales {un (x)} est complet si l’ensemble de toutes les combinaisons linéaires
finies de un est un sous-ensemble dense de l’espace de Hilbert entier. Ceci garantit que, en prenant
N suffisamment grand, notre meilleure approximation fN se rapprochera arbitrairement de notre
fonction cible f (x). Puisque la meilleure approximation contenant tous les un jusqu’à uN est la
somme partielle d’ordre N de la série de Fourier, cela montre que la série de Fourier converge
effectivement vers f .
Par exemple, considérons les coefficients de l’expansion de Fourier de la fonction f (x) = 1
donnée dans 4.14. Puisque || f ||2 = 1 on en déduit, en utilisant le théorème de Parseval, que

X 1
π2 = 8 (4.20)
n=0
(2n + 1)2

qui fournit un moyen utile d’estimer la valeur approximative de π.

4.3 Polynômes orthonormaux


L’ensemble des fonctions Pn (x) avec les propriétés que Pn est un polynôme de degré n et
Z b
hPn |Pm i = Pn (x)Pm (x)dx = δnm
a
4.3 Polynômes orthonormaux 105

sont appelés polynômes orthogonaux dans l’intervalle [a, b] par rapport au produit scalaire.
Pour les construire nous considérons une base bi (x) formée par les puissances monomiales
{1, x, x2 , x2 , x3 , x4 .......xN } qui couvrent l’espace de polynômes d’ordre N. En effet, tout polynôme
d’ordre N est construit comme une combinaison linéaire de cette base. Cependant, bien que simple
cette base n’est pas orthonormale. Il est immédiatement clair que – le bi formant une base – nous
pouvons exprimer n’importe quel autre polynôme q(x) d’ordre N comme une combinaison linéaire
de bi .
q(x) = ai bi (x) i = 0, 1, 2, ...N
mais il n’est pas simple de calculer la valeur des coefficients ai , car cela nécessite la connaissance
de la base polynomiale duale bn (x). On peut simplifier le problème en orthogonalisant la base, par
exemple dans l’intervalle [−1, 1]. Nous pouvons le faire, par exemple, au moyen de la procédure de
Gram − S chmidt.
P0 (x) = b0
P0 hP0 |b1 i
P1 (x) = b1 −
hP0 |P0 i
P0 hP0 |b2 i P1 hP1 |b2 i
P2 (x) = b2 − −
hP0 |P0 i hP1 |P1 i
.....
N−1
X Pi hPi |bn i
Pn (x) = bn − (4.21)
i=0
hPi |Pi i
(4.22)
Par cette procédure, je trouve
P0 (x) = 1
h1|xi
P1 (x) = x − 1 = x−0 = x
h1|1i
h1|x2 i hx|x2 i 2/3 1
P2 (x) = b2 − 1 −x = x2 − − 0 = x2 −
h1|1i hx|xi 2 3
3
P3 (x) = x3 − x
5
6 3
P4 (x) = x4 − x2 +
7 5
..... (4.23)
(4.24)
On peut facilement vérifier que les Pn obtenus sont orthogonaux dans l’intervalle [−1, 1], c.-à-d. ils
vérifient la condition
Z 1
hPn |Pm i = 0 f or n , m. (4.25)
−1
Cependant, ces polynômes ne sont pas normalisés. Il suffit pour cela de diviser chaque polynôme
Pn par sa norme ||Pn ||
Pn
pn = .
||Pn ||
Notez que n’importe quel polynôme q(x) de degré N peut être développé en termes de poly-
nômes orthonormaux p0 , p1 , ...pN
q(x) = ci pi (x)
106 Chapitre 4. FONCTIONS ORTHOGONALES

où les coefficients ci sont les coefficients de Fourier de l’expansion et sont donnés par hpi (x)|q(x)i.
Maintenant, la question urgente est de savoir si un ensemble de polynômes orthonormaux
(continus) est complet, afin de pouvoir developper n’importe quelle fonction de L2 en termes de
ces polynômes. La complétude d’une famille de polynômes orthogonaux sur un intervalle fini est
garantie par le théorème d’approximation de Weierstrass qui affirme que pour toute fonction réelle
continue f (x) sur [a, b], et pour tout  > 0, il existe un polynôme p(x) tel que | f (x) − p(x)| <  pour
tout x ∈ [a, b]. Cela signifie que les polynômes sont denses dans l’espace des fonctions continues
équipées de la sup-norme ||...||∞ . La contrainte | f (x) − p(x)| <  implique que
Z b Z b
| f (x) − p(x)| dx ≤ 
2 2
dx
a a

les polynômes constituent également un sous-ensemble dense de l’espace des fonctions continues
au sens de la convergence L2 [a, b]. Puisque l’espace de Hilbert L2 [a, b] est défini comme étant
l’achèvement de l’espace des fonctions continues, les fonctions continues sont automatiquement
denses en L2 [a, b]. Maintenant, l’inégalité triangulaire nous dit qu’un sous-ensemble dense d’un en-
semble dense est dense dans l’ensemble le plus large, donc les polynômes sont eaux-mêmes denses
dans L2 [a, b]. Les polynômes orthogonaux normalisés constituent donc un ensemble orthonormal
complet et peuvent être utilisés pour developper toutes fonctions de L2 .
Les polynômes orthogonaux ont un certain nombre d’autres propriétés fascinantes.

Theorem 4.3.1 Si la suite des polynômes {Pk (x)}∞


k=0 est orthogonale, alors le polynôme Pn+1 est
orthogonal à tout polynôme qk de degré k ≤ n

Proof Ceci peut être démontré en notant que nous pouvons developper n’importe quel polynôme
dans la base orthogonale Pn comme suit

qn = bn Pn + bn−1 Pn−1 + ..... + b0 P0

et en observant que

hPn+1 |qi = bn hPn+1 |Pn i + bn−1 hPn+1 |Pn−1 i + ........ + b0 hPn+1 |P0 i = 0

la dernière égalité résultant de l’orthogonalité des polynômes Pn .

Le théorème fondamental de l’algèbre affirme que chaque polynôme de degré n a, comptés


avec multiplicités, exactement n racines complexes (ou de manière équivalent, au plus n racines
réelles). Assez étonnamment, on peut démontrer que les polynômes orthogonaux ont exactement n
zéros réels strictement à l’intérieur de l’intervalle d’orthogonalité, c’est-à-dire qu’aucun zéro ne se
trouve aux bornes de l’intervalle.
Theorem 4.3.2 Les zéros de Pn sont tous réels, simples et se situent dans l’intervalle (a, b).

Proof Puisque h1|Pn i = 0, la fonction Pn doit changer de signe, et il existe donc au moins un zéro de
Pn en (a, b). Soient x0 , x1 , ...., xk en (a, b) les zéros d’une multiplicité impaire de Pn ; c.-à-d.
x0 , x1 , ...., xk sont les points où Pn change de signe. Si k = n − 1, le théorème est démontré,
puisque {xi }n−1 i=0 sont les n racines simples de Pn . Si k < n − 1, on considère le polynôme

q(x) = (x − x0 )(x − x1 ).......(x − xk ).

Puisque deg(q) = k + 1 < n, on a, à cause de l’orthogonalité,

hpn+1 |qi = 0.
4.3 Polynômes orthonormaux 107

D’autre part, le produit Pn (x)q(x) ne peut pas changer de signe sur (a, b) puisque chaque
changement de signe dans Pn (x) est annulé par un changement correspondant dans q(x). Il
s’ensuit que

hpn+1 |qi , 0

ce qui est une contradiction.

Theorem 4.3.3 Tous les ensembles de polynômes orthogonaux Pn obéissent à une relation de
récurrence à trois termes.

αn+1 Pn+1 = (x − βn )Pn − γn pn−1

Proof Considérons le polynôme αk+1 Pk+1 − xPk = q(x). Pour un choix judicieux du paramètre
αk+1 , q(x) sera un polynôme d’ordre ≤ k. Nous pouvons developper ce polynôme q comme
combinaison linéaire de la base Pn comme suit

k−2
X
αk+1 Pk+1 − xPk = βk Pk + γk−1 Pk−1 + δ j P j.
j=0

Prenons maintenant le produit scalaire de cette équation avec P j où j < k − 1. Nous obtenons

−hP j |xPk i = δ j hP j |P j i.

Mais le terme gauche est nul, en effet hP j |xPk i = hxP j |Pk i et xP j est un polynôme d’ordre
< k de sorte que le produit scalaire s’annule. Nous concluons donc que δ j = 0 pour tout j.

Nous sommes maintenant en mesure de donner une définition formelle de ce qu’est une classe
de polynômes orthonormaux. L’orthogonalité d’un ensemble de fonctions est une propriété qui
dépend d’un intervalle et du choix de la forme sesquilineaire utilisée pour enforcer l’orthogonalité.
Jusqu’à présent, nous ne considérions l’orthogonalité que par rapport au produit scalaire. Cependant
on peut élargir la classe des polynômes orthogonaux, c’est-à-dire les fonctions satisfaisant à la
propriété (Pm , Pn ) = 0, par le biais de la définition suivante.
Definition 4.3.1 — Polynômes orthogonaux. Les polynômes orthogonaux associés à un interval
Rb
[a, b], un poids positif w(x) tel que l’integrale a
w(x)dx est finie, et le produit scalaire pondéré
dans l’espace de Hilber Lw2 [a, b]
Z b
h f |giw ≡ w(x) f (x)g(x)dx (4.26)
a

n=0 de degré Pn = n tels que


sont une suite de polynômes {Pn }∞

hPn |Pm iw = 0 f or n,m (4.27)

Les solutions d’équations différentielles fondamentales apparaissant dans divers domaines de la


physique sont souvent exprimées sous la forme d’une expansion en série en termes d’ensembles
complets de polynômes orthogonaux. Dans ce qui suit, je vais donc faire un recensement et présenter
quelques propriétés de base des polynômes orthogonaux les plus populaires que vous êtes le plus
susceptible de rencontrer dans votre carrière : les polynômes de Legendre, Laguerre, Hermite et
Tchebychef. Les notions et formules presentées vous permettront d’apprécier l’importance des
polynômes orthonormaux. Cependant l’examen ne portera pas sur le contenu de ces sections.
108 Chapitre 4. FONCTIONS ORTHOGONALES

4.3.1 Polynômes de Legendre


Les polynômes de Legendre sont des solutions de l’équation différentielle

n (x) − 2xPn (x) + n(n + 1)Pn = 0


(1 − x2 )P00 0
(4.28)

pour tout entier n ≥ 0, qui satisfont à la convention de normalisation Pn (1) = 1. On rencontre cette
équation lors de la résolution de l’équation de Laplace en coordonnées sphériques. Par conséquent,
vous le verrez surgissant dans des problèmes de gravitation, d’électromagnétisme, de mécanique
quantique ou de conduction thermique qui présentent une symétrie sphérique.
Notons que toute équation différentielle du second ordre de la forme p0 (x)y00 (x) + p1 (x)y0 (x) +
p2 (x, n)y(x) = 0, où n est un paramètre, peut toujours être réécrite dans la forme de Sturm-Liouville
1
(w(x)p0 (x)y(x)0 )0 + p2 (x, n)y = 0
w(x)

Z
1 p1
w= exp dx. (4.29)
p0 p0
la forme Surm-Liouville est particulièrement adaptée pour comprendre les propriétés des solutions
y(x), notamment pour vérifier leur orthogonalité éventuelle.
Theorem 4.3.4 — Orthogonalité des solutions de l’équation differentielle de Sturm-Liouville.
Si un ensemble de fonctions yn satisfait à l’équation de Sturm-Liouville et w ou p0 , s’annulent
aux extrémités de l’intervalle [a, b], alors les fonctions yn sont orthogonales dans cet intervalle
par rapport au poids w.

Proof Considérons la combinaison suivante


! !
1 1
ym (wp0 yn ) + p2 (x, n)yn − yn (wp0 ym ) + p2 (x, m)ym = 0
0 0 0 0
w w

et intégrons la dans l’intervalle [a, b]. Nous avons


Z b Z b
[wp0 y0n ]0 ym − [wp0 y0m ]0 yn yn ym wdx = 0

dx − [p2 (x, n) − p2 (x, m)]
a a

d’où l’on obtient


Z b Z b
1 b b
yn ym wdx = wp0 y0m y0n − wp0 y0n y0m dx + wp0 y0n ym a − wp0 y0m yn a
 
a p2 (x, n) − p2 (x, m) a

Si w ou p0 s’annulent aux bornes, le dernier terme du côté droit disparaît. Puisque le premier
est trivialement nul, nous concluons que l’ensemble yn des solutions doit être orthogonal en
[a, b].

L’équation différentielle de Legendre sous la forme de Sturm-Liouville est la suivante

[(1 − x2 )P0n ]0 + n(n + 1)Pn = 0.

D’après le théorème (4.3.4), les solutions Pn , de l’équation différentielle de Legendre sont orthogo-
nales dans l’intervalle [−1, 1] par rapport à la fonction de poids w = 1. Ceci est garanti par le fait
que le terme p0 = (1 − x2 ) s’annule à ces bornes.
4.3 Polynômes orthonormaux 109

Definition 4.3.2 — Polynômes de Legendre. Les polynômes de Legendre sont un ensemble


complet de polynômes orthogonaux associés à l’intervalle [−1, 1], la fonction de poids w(x) = 1
et générés par la formule de récurrence à trois termes

P0 = 1
P1 (x) = x
(2n + 1)Pn+1 (x) = (2n + 1)xPn (x) − nPn−1 (x) n ≥ 1. (4.30)

Ils ne sont pas normalisés, en effet on peut vérifier que leur produit scalaire pondéré hPn |Pm iw
est
Z 1
2
Pn (x)Pm (x)dx = δmn .
−1 2n + 1
Les premiers polynômes de Legendre sont les suivants
P0 = 1
P1 (x) = x
1 2 
P2 (x) = 3x − 1
2
1 3 
P3 (x) = 5x − 3x
2
1 4 
P4 (x) = 35x − 30x2 + 3
8
...
N
n n+k−1
X ! !
Pn (x) = 2 n 2 xk . (4.31)
k=0
k n
Notez que nous avons déjà obtenu les polynômes de Legendre en orthogonalisant, avec la
méthode de Gram-Schmidt la base {1, x, x2 , x3 , x3 ......} dans l’intervalle [−1, 1] avec le poids w(x) = 1.
Les résultats 4.24 et 4.31 ne diffèrent que par une constante de redimensionnement globale. En
effet, en imposant la condition P(1) = 1 on peut rendre (??) identiques à (4.31).
Les polynômes orthogonaux peuvent également être obtenus par leur fonction génératrice. Une
fonction génératrice G est un moyen d’encoder dans une structure compacte une suite infinie de
fonctions Pn (x) en les traitant comme les coefficients d’une série de puissance dans la variable t.
C’est une fonction de deux variables (x et t), qui peut être exprimées comme suit

X
G(x, t) = Pn (x)tn .
n=0

Exercise 4.4 Trouver la fonction génératrice des suites de nombres suivantes


a) la suite constante an = {1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ......}
b) la suite géométrique an = {1, x, x2 , x2 , x3 , x4 .........}

Solution
a) En développant en série de Taylor autour de t = 0 la fonction (1 − t)−1 on obtient

1 X
= 1 + t + t + t + ...... =
2 3
tn
1−t n=0

qui est la série géométrique. Les coefficients de la série de puissances sont la suite que nous
recherchons, on déduit donc que G(t) = (1 − t)−1 est leur fonction de génératrice.
110 Chapitre 4. FONCTIONS ORTHOGONALES

b) La fonction (1 − tx)−1 , est la somme ‘formelle’ de la série géométrique des coefficients


ax donc

1 X
= xn t n
1 − xt n=0

donc G(x, t) = 1/(1 − xt) est la fonction génératrice recherchée. 

La fonction génératrice des polynômes de Legendre est



X 1
G(x, t) = Pn (x)tn = √ (4.32)
n=0 1 − 2tx + t2

Exercise 4.5 Calculez les premiers polynômes de Legendre en utilisant leur fonction génératrice.
Solution. La formule binomiale (négative)
∞ ∞ ∞
j n+ j−1 j Γ(n + j)
! !
1 X −n j X X
= y = (−1) y = (−1) j yj (4.33)
1 + y)n j
j j
j j
Γ( j + 1)Γ(n)

où Γ est la fonction gamma d’Euler (voir exercice 4.17) nous donne


1 n(n + 1) 2 n(n + 1)(n + 2) 3
= 1 − ny + y − y ....
(1 + y)n 2! 3!

et, en identifiant n = 1/2 et y = t2 − 2xt, on obtient

1 1 ( + 1) 2
1 1
( + 1)( 12 + 2) 2
1 1
√ = 1 − (t2 − 2tx) + 2 2 (t − 2tx)2 − 2 2 (t − 2tx)3
1 − 2tx + t 2 2 2! 3!
ou
3 135
1 t2
√ = 1 − + tx + 4 (t4 − 4xt3 + 4x2 t2 ) − 2 2 2 (t2 − 2tx)3 ....
1 − 2tx + t2 2 2! 3!

que nous réarrangeons maintenant en puissances de t, comme l’exige la formule génératrice


4.52 en obtenant
1 1  1 
√ = 1 + tx + 3x2 − 1 t2 + 5x3 − 3x t3 + .....
1 − 2tx + t2 2 2

à partir duquel on peut lire les premiers polynômes de Legendre. 

Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez

2−n dn  2 2
Pn (x) = x −1 . (4.34)
n! dxn

Exercise 4.6 Obtenez la formule de Rodrigues pour les polynômes de Legendre.


Solution En appliquant l’expansion binomiale 4.33 à la fonction génératrice du polynôme
de Legendre (4.52), on obtient
4.3 Polynômes orthonormaux 111

∞ ∞
Γ( j + 1/2)
!
1 X −1/2 h 2 j
i X
√ = (−1)(2tx − t ) = (−1) j (−1) j (2tx − t2 ) j
1 − 2xt − t2 j=0
j j=0
j!Γ(1/2)
∞ j
Γ( j + 1/2) X j
X !
= (2tx) j−m (−t2 )m
j=0
j!Γ(1/2) m=0
m
j
∞ X
X (2 j)! j!
= (−1)m (2x) j−m t j+m
j=0 m=0
22 j ( j!)2 m!( j − m)!
j
∞ X
X (2 j)! (2x) j−m j+m
= (−1)m t
j=0 m=0
22 j ( j!) m!( j − m)!
(4.35)

où nous utilisons les résultats de l’exercice 4.17, notamment que Γ(1/2) = π et Γ( j + 1/2) =
√ (2 j)!
π 22 j j! . En réarrangeant l’ordre de sommation on obtient

∞ [n/2]
1 X X (2n − 2m)! (2x)n−2m k
√ = (−1)m 2n−2m t
1 − 2xt − t2 n=0 m=0
2 (n − m)! m!(n − 2m)!
∞ [n/2]
X X (2n − 2m)! xn−2m
= (−1)m n tk
n=0 m=0
2 (n − m)! m!(n − 2m)!
(4.36)
P∞ n
où [n/2] désigne la partie entière. Puisque cette dernière expression doit être égale à n=0 Pn (x)t
on en déduit que
[n/2]
X (2n − 2m)! xn−2m
Pn (x) = (−1)m .
m=0
2n (n − m)! m!(n − 2m)!

Nous notons maintenant que


dn 2n−2m (2n − 2m)! n−2m
x = x .
dxn (n − 2m)!
et en déduisons alors que
[n/2] n
X 1 dn 2n−2m 1 dn X n!
Pn (x) = (−1) n m
n
x = n n
(−1)m x2n−2m
m=0
2 m!(n − m)! dx 2 n! dx m=0
m!(n − m)!

où la dernière égalité résulte du fait que


dn 2n−2m
x =0
dxn
pour m > n/2. On conclut donc que
1 dn
Pn (x) = (x2 − 1)n .
2n n! dxn

112 Chapitre 4. FONCTIONS ORTHOGONALES

Exercise 4.7 En utilisant la fonction génératrice, démontrer que la formule de récurrence à trois
termes des polynômes de Legendre est (4.30).

Solution On peut différencier G(x, t) par rapport à t pour montrer que

∂G x−t
= ,
∂t (1 − 2xt + t2 )3/2
d’où nous déduisons
∂G
(1 − 2xt + t2 ) = (x − t)G
∂t
et donc

X ∞
X
(1 − 2xt + t2 ) nPn (x)tn−1 = (x − t) Pn (x)tn .
n=0 n=0

En comparant maintenant les coefficients de t0 , on obtient

P1 (x) = xP0 (x)

de sorte que, comme P0 = 1, nous avons P1 = x, comme prévu. En comparant le coefficient


général de tn , n > 0, on obtient

(n + 1)Pn+1 − 2xnPn + (n − 1)Pn−1 = xPn − Pn−1

et, en réarrangeant les termes qu’on a, on obtient (4.30)


Notons d’ailleurs qu’en différenciant G(x, t) par rapport à x, et en procédant de la même
façon, on obtient le résultat suivant

P0n+1 − 2xP0n + P0n−1 = Pn , n≥1

de sorte qu’en combinant ce résultat avec le précédent, on obtient une formule récursive utile
pour les dérivés premiè̀res des polynômes de Legendre

P0n+1 − P0n−1 = (2n + 1)Pn .

4.3.2 Polynômes de Laguerre


Les polynômes de Laguerre sont des solutions de l’équation différentielle

xLn00 (x) + (1 − x)Ln0 (x) + nLn (x) = 0

pour tout entier n ≥ 0, qui satisfont à la convention de normalisation Ln (0) = 1.


Cette équation, que l’on peut réé́crire sous la forme de la Sturm-Liouville comme suit

[xe−x Ln (x)0 ]0 + ne−x Ln (x) = 0,

règle le comportement radial de la fonction d’onde d’un atome à un électron (notamment l’atome
d’hydrogène).
4.3 Polynômes orthonormaux 113

Definition 4.3.3 — Polynômes de Laguerre. Les polynômes de Laguerre sont un ensemble


complet de polynômes orthonormaux associés à l’intervalle [0, ∞], le poids w(x) = e−x et
générés par la formule de récurrence à trois termes

L0 = 1
L1 (x) = 1 − x
(n + 1)Ln+1 (x) = (2n + 1 − x)Ln (x) − nLn−1 (x) (4.37)
(4.38)

Les polynômes de Laguerre sont normalisés, en effet on peut vérifier que leur produit scalaire
pondéré hLn |Lm iw est
Z 1
e−x Ln (x)Lm (x)dx = δmn
−1

Les premiers polynômes de Laguerre sont les suivants

L0 = 1
L1 (x) = x
1 2 
L2 (x) = x − 4x + 2
2
1 3 
L3 (x) = −x + 9x2 − 18x + 6
6
1  4 
L4 (x) = x − 16x3 + 72x2 − 96x + 24
24
.....
n
n (−1)k k
X !
Ln (x) = x. (4.39)
k=0
k k!

La fonction génératrice des polynômes de Laguerre est la suivante


tx ∞
e− 1−t X
G(x, t) = = Ln (x)tn . (4.40)
1 − t n=0

Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
e x dn −x n 
Ln (x) = e x . (4.41)
n! dxn

4.3.3 Polynômes d’Hermite


Les polynômes d’Hermite sont des solutions de l’équation différentielle

Hn00 (x) − 2xHn0 (x) + 2nHn (x) = 0

pour n ∈ N.
Cette équation différentielle, qui peut être réécrite sous la forme de Sturm-Liouville comme suit
2 2
[e−x Hn0 (x)]0 + 2ne−x Hn (x) = 0.

survient lors de la résolution, par exemple, de l’oscillateur harmonique quantique.


114 Chapitre 4. FONCTIONS ORTHOGONALES

Definition 4.3.4 — Polynômes d’Hermite. Les polynômes d’Hermite sont un ensemble complet
2
de polynômes orthogonaux associés à l’intervalle [−∞, ∞], le poids w(x) = e−x et générés par
la formule de récurrence à trois termes

H0 = 1
H1 (x) = 2x
Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) (4.42)

Les polynômes d’Hermite ne sont pas normalisés, en effet on peut vérifier que leur produit
scalaire pondéré hHn |Hm iw est
Z ∞
2 √
e−x Hn (x)Hm (x)dx = π2n n!δmn
−∞

Les premiers polynômes d’Hermite sont les suivants

H0 = 1
H1 (x) = 2x
H2 (x) = 4x2 − 2
H3 (x) = 8x3 − 12x
H4 (x) = 16x4 − 48x2 + 12
..... (4.43)

La fonction génératrice des polynômes d’Hermite est



2xt−t2
X Hn (x)
G(x, t) = e = tn . (4.44)
n=0
n!

Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez
2 dn  −x2 
Hn (x) = (−1)n e x e . (4.45)
dxn

4.3.4 Polynômes de Tchebychef de première espèce


Les polynômes de Tchebychef de première espèce sont des solutions de l’équation différentielle

(1 − x2 )T n00 (x) − xy0 (x) + n2 T n (x)

pour tout entier n ≥ 0, qui satisfont à la convention de normalisation T n (1) = 1. Cette équation peut
être réécrit sous la forme de Sturm-Liouville comme suit
p n2
[ 1 − x2 T n0 ]0 + √ T n = 0.
1 − x2
Ces polynomes, comme ailleurs le polynômes de Tchebychef de seconde espèce, sont particu-
lièrement utiles en analyse numérique pour l’interpolation polynomiale de fonctions.
Definition 4.3.5 — Polynômes de Tchebychef de première espèce. Les polynômes de Tche-
bychef de première espèce sont un ensemble complet de polynômes orthogonaux associés à
l’intervalle [−1, 1], la fonction poids w(x) = (1 − x2 )−1/2 et générés par la formule de récurrence
4.3 Polynômes orthonormaux 115

à trois termes

T0 = 1
T 1 (x) = x
T n+1 (x) = 2xT n (x) − T n−1 (x) (4.46)
Les polynômes de Tchebychef de première espèce ne sont pas normalisés, en effet on peut
vérifier que leur produit scalaire pondéré hT n |T m iw donne
Z ∞
2
e−x Hn (x)Hm (x)dx = tn δmn
−∞

où tn = π/2 if n > 0 tandis que h0 = π.


Les premiers polynômes de Tchebychef de première espèce sont les suivants
T0 = 1
T 1 (x) = x
T 2 (x) = 2x2 − 1
T 3 (x) = 4x3 − 3x
T 4 (x) = 8x4 − 8x2 + 1
.....
T n (x) = cos(n arccos(x)) (4.47)
La fonction génératrice des polynômes de Tchebychef de premiere espèce est

1 X T n (x)
G(x, t) = ln √ = tn . (4.48)
1 − 2xt + t 2
n=0
n

Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez

(−1)n π dn  n−1/2
T n (x) =   (1 − x2 )1/2 n 1 − x2 n≥0 (4.49)
2n n − 12 ! dx

4.3.5 Polynômes de Tchebychef de seconde espèce


Les polynômes de Tchebychef de seconde espèce sont des solutions de l’équation différentielle

(1 − x2 )Un00 (x) − 3xy0 (x) + n(n + 2)Un (x)

pour tout entier n ≥ 0 qui satisfont à la convention de normalisation Un (1) = 1. Cette équation peut
être réécrite sous la forme de Sturm-Liouville comme suit
p
[(1 − x2 )3/2 Un (x)0 ]0 + n(n + 2) 1 − x2 Un (x) = 0.

Definition 4.3.6 — Polynômes de Tchebychef de seconde espèce. Les polynômes de Tche-


bychef de seconde espèce sont un ensemble complet de polynômes orthogonaux associés à
l’intervalle [−1, 1, le poids w(x) = (1 − x2 )1/2 et générés par la formule de récurrence à trois
termes

U0 = 1
U1 (x) = 2x
Un+1 (x) = 2xUn (x) − Un−1 (x) (4.50)
116 Chapitre 4. FONCTIONS ORTHOGONALES

Les polynômes de Tchebychef de seconde espèce ne sont pas normalisés, en effet on peut
vérifier que leur produit scalaire pondéré hUn |Um iw est

π
Z ∞
2
e−x Hn (x)Hm (x)dx = δmn m, n ≥ 0
−∞ 2
Les premiers polynômes de Tchebychef de seconde espèce sont les suivants

U0 = 1
U1 (x) = 2x
U2 (x) = 4x2 − 1
U3 (x) = 8x3 − 4x
U4 (x) = 16x4 − 12x2 + 1
sin((n + 1) arccos(x))
.....Un (x) = (4.51)
sin(arccos(x))
La fonction génératrice des polynômes de Tchebychef de seconde espèce est la suivante

1 X
G(x, t) = = Un (x)tn . (4.52)
1 − 2xt + t 2
n=0

Vous pouvez vérifier qu’ils peuvent également être générés par la formule de Rodriguez

(−1)n (n + 1) π dn  n+1/2
Un (x) =   (1 − x2 )−1/2 n 1 − x2 n ≥ 0. (4.53)
22+1 n + 12 ! dx

4.4 Resumé
Le but de ce chapitre était de présenter les espaces de Hilbert ainsi que d’étudier les propriétés
d’orthogonalité de certains de ses habitants.
L’espace de Hilbert sur le champ des nombres complexes est d’une grande importance en
physique puisqu’il représente l’environnement abstrait dans lequel la mécanique quantique est
développée. Pour arriver aux espaces de Hilbert, nous procédons graduellement, en commençant
par les espaces mathématiquement moins structurés, vers des espaces de plus en plus riches en
structures, en considérant, par ordre de complexité : les espaces vectoriels de fonctions, les espaces
normés, les espaces muni d’une forme sesquilinéaire, et, enfin, les espaces de Hilbert, qui sont
des espaces vectoriels muni d’une forme sesquilinéaire, avec la propriété supplémentaire de la
complétude.
Il faut observer qu’un espace muni d’une forme sesquilinéaire ayant dimensions finies est
toujours complet, et par conséquent c’est toujours un espace de Hilbert. 5 Au lieu de cela, si l’espace
est de dimensions infinies, la complétude n’est pas assurée.
La notion d’espace de Hilbert nous a permis d’explorer les propriétés d’orthogonalité de
ses éléments. Nous avons donc présenté un formalisme assez efficace, la théorie de Fourier, qui
nous permet d’exprimer n’importe quelle fonction à carré intégrable (un élément de l’espace de
Hilbert L2 [a, b]) comme combinaison linéaire d’un ensemble complet de fonctions orthonormales.
Nous avons ensuite passé en revue les propriétés de certaines familles importantes de fonctions
orthogonales qu’on rencontre souvent dans les application physiques, telles que les polynômes de
Legendre, de Laguerre, d’Hermite et le polynômes de Tchebychefs de première et seconde espèce.
5. Une (petite) blague racontée dans les couloirs des labos de physique est la suivante : "Connaissez-vous Hilbert ?
Non ? Alors qu’est-ce que tu fais dans son espace ?
4.5 Exercises 117

4.5 Exercises
+1 2
Exercise 4.8 La suite fn = nx
nx+1 nx + 1 converg-t-elle uniformément sur l’intervalle D = [1, 2]?


Exercise 4.9 La suite fn (x) = nx/(nx + 1) converge-t-elle uniformément sur l’intervalle D =


[0, 1]? 

Exercise 4.10 Montrer que la suite de fonctions fn (x) = cos(nx) est orthogonale en [−π, π]. Quel
est l’ensemble orthonormal correspondant dans L2 [−π, π] ? Quel est l’argument des cosinus
 orthogonaux en [−L, L] ? Cet ensemble est-il complet ? L’ensemble fn (x) =
s’ils doivent être
π
cos (2n + 1) 2 x est-il orthogonal et complet en [0, 1] ? 


Exercise 4.11 a) Montrer que l’ensemble des fonctions un (x) = √1 ei L nx sont orthonormales
L
2k
dans tout intervalle de longueur L. b) développez la fonction √1 ei L Lx sur cette base dans
L
l’intervalle [−L/2, L/2] et déterminez ses coefficients de Fourier. 

Exercise 4.12 Évaluer l’intégrale


Z ∞
2 2 2
F(s, t) = e−x e2sx−s e2tx−t dx
−∞

et developper le résultat sous la forme d’une série à double puissance en s et t. En examinant le


coefficient de sn tm , montrez que
Z ∞
2 √
Hn (x)Hm (x)e−x dx = 2n n! πδnm
−∞

où Hn sont les polynomes d’Hermite. 

Exercise 4.13 Considérons la série de puissance


P n
qui converge vers la fonction S (s).
n an x
Argumenter si ses coefficients an peuvent être obtenus au moyen du produit scalaire, c’est-à-dire
si an = (xn , S (x)). 

Exercise 4.14 Soit fn (x) un ensemble orthogonal de fonctions sur [a, b] par rapport au produit
scalaire pondéré avec poids w(x) ∈ R. Supposons f ∈ L2 [a, b] et développons cette function sur
la base fn

f (x) = an fn (x) n = 0, 1, ..., ∞.

Cette expansion est appelée une série de Fourier généralisée, car la base n’est pas orthonormale.
Trouver l’expression des coefficients d’expansion an .
Solution. Nous savons que les composantes d’un vecteur par rapport à une base sont données
par
Z b
am = f m (x) f (x)dx
a
118 Chapitre 4. FONCTIONS ORTHOGONALES

où f m est la base duale associée à fm . L’équation précédente peut être obtenue en multipliant les
Rb
deux côtés de f = an fn par f m et en rappelant que, à cause du principe de dualité, a f m fn dx = δm
n.
Afin de déterminer l’ensemble f m (x), nous développons ces fonctions sur une base orthogonale
comme suit

f m (x) = γmk fk (x),

où γmk sont des coefficients constants, et nous imposons que le principe de dualité soit respecté
Z b
δm
n = ( f m
, f n ) = γ mk
( f ,
k nf ) = γ mk
w(x) fk (x) fn (x)dx
a
Rb
mk a k
f (x) fn (x)w(x)dx Z b Z b
= γ Rb | fk (x)| w(x)dx = γ δn
2 mk k
| fk (x)|2 w(x)dx
2
| f (x)| w(x)dx a a
a k

où, la dernière égalité découle des propriétés d’orthogonalité de l’ensemble fn . En comparant le


premier et le dernier terme, nous déduisons que
δm fm
γmk = R b k
→ fm = R b
a
| fk (x)|2 w(x)dx a
| fm (x)|2 w(x)dx

et donc nous obtenons


Rb
fm (x) f (x)w(x)dx
a = aR b
m
.
| f (x)|2 w(x)dx
a m

Une autre façon d’arriver à la même solution est la suivante. Commencez par multiplier les
côtés gauche et droit de f = an fn par w(x) fm et intégrez le résultat dans l’intervalle d’orthogona-
lité. Nous obtenons
Z b Z b Rb
n a m
f (x) fn (x)w(x)dx Z b
fm (x) f (x)w(x)dx = a n
fm (x) fn (x)w(x)dx = a R b | fm (x)|2 w(x)dx
a a 2
| f (x)| w(x)dx a
a m
Z b
= a m δmn | fm (x)|2 w(x)dx (4.54)
a

où la dernière égalité découle des propriétés d’orthogonalité de l’ensemble fn . Nous concluons


donc que
Rb
fm (x) f (x)w(x)dx
a = aR b
m
.
| f (x)| 2 w(x)dx
a m

Exercise 4.15 Trouver une représentation en série de la fonction de Heaviside, c.-à-d. la fonction


0
 x<0
Θ(x) = 

(4.55)
1
 x ≥ 0,
4.5 Exercises 119

qui converge dans l’intervalle [−1, 1].


Solution. Les polynômes de Legendre forment un ensemble complet sur l’intervalle [−1, 1],
et toute fonction peut être développée dans une série de ces polynômes.

X
Θ(x) = cn Pn
n=0

Puisque l’ensemble des fonctions Pn n’est pas orthonormal, les coefficients de l’expansion ne
sont pas les coefficients de Fourier ! Nous devons plutôt les calculer. En multipliant les côtés
gauche et droit de l’équation ci-dessus par Pm (x) et en intégrant le résultat, nous obtenons
∞ +1 ∞
1
2n + 1 2m + 1
Z X Z X
Θ(x)Pm (x)dx = cn Pn (x)Pm (x)dx = cn δnm = cm
−1 n=0 −1 n=0
2 2

d’où nous déduisons que

2m + 1 1
Z
cm = Θ(x)Pm (x)dx
2 −1

Puisque la fonction Heaviside est une fonction impaire dans l’intervalle [−1, 1] nous en déduisons
que c2m = 0, puisque les polynômes de Legendre P2m sont pairs. Pour les termes impairs des
polynômes de Legendre nous avons
Z 1 Z 1
c2m+1 = (2m + 1) Θ(x)P2m+1 (x)dx = (2m + 1) P2m+1 (x)dx.
0 0

Exercise 4.16 Déterminez les trois premiers polynômes de Laguerre L0 , L1 , L2 et L3 en utilisant


R ∞pour orthogonaliser la base de puissance {1, x, x , ...}.. Sugges-
la procédure de Gram-Schmidt 2
n n −x
tion : calculez les intégrales 0 x e e dx en utilisant l’intégration par parties....sauf si vous
reconnaissez ici une fonction spéciale importante de physique mathématique. 

Exercise 4.17 La fonction gamma est définie par la relation de récurrence fonctionnelle

Γ(p + 1) = pΓ(p) ∀p > 0.

a) Démontrer que pour n ∈ N la fonction Gamma coïncide avec la fonction factorielle


Γ[n + 1] = n!.
b) Démontrer que la fonction Gamma coïncide avec l’intégrale d’Euler de seconde espèce.
Z ∞
Γ[p] = e−x x p−1 dx p > 0.
0
R∞
Suggestion : considérez l’intégrale 0 e−tx dx = t−1 et dérivez le, à plusieurs reprises, par rapport
à t.
c) Démontrer que, si on connait la valeur de la fonction gamma entre 1 et 2, la relation
récursive peut être utilisée pour étendre la définition de la fonction gamma à tous les nombres
réels sauf les entiers non positifs.
 √
d) Démontrer que Γ 21 = π
120 Chapitre 4. FONCTIONS ORTHOGONALES
  √
e) Démontrer que Γ p + 12 = π 2(2n)!
2n n! 
5. FONCTIONS DE GREEN

À l’âge de trente-cinq ans, en 1828, un meunier anglais de Nottingham qui n’etait jamais allé à
l’école, 1 George Green, a écrit un essai sur l’application de l’analyse mathématique aux théories
de l’électricité et du magnétisme.
L’essai commence par des observations introductives soulignant le rôle central de la fonction
potentielle dans le contexte de l’électromagnétisme. Green a inventé le terme ‘potentiel’ pour
désigner les résultats obtenus en additionnant les masses de toutes les particules d’un système,
chacune divisée par sa distance d’un point donné. Les propriétés générales de la fonction potentielle
sont ensuite développées et appliquées à l’électricité et au magnétisme. La formule reliant les
intégrales de surface et de volume, maintenant connue sous le nom de théorème de Green, a été
introduite dans ce travail, de même que le concept de ‘fonctions de Green’.
Les fonctions de Green sont maintenant un outil clé de la physique. Elles sont largement utilisés
en électrodynamique et en théorie des champs quantiques, où les équations différentielles sont
souvent difficiles ou impossibles à résoudre exactement mais peuvent être résolus de manière
perturbative en utilisant les fonctions de Green. Dans les contextes de la théorie des champs, la
fonction de Green est souvent appelée ‘propagateur’ ou fonction de corrélation à deux points
puisqu’elle est liée à la probabilité de mesurer un champ à un point donné étant donné qu’il est
généré en un point différent.
Les fonctions de Green sont un dispositif utilisé pour résoudre des équations linéaires inho-
mogènes ordinaires ou aux dérivées partielles qui sont souvent insolubles par d’autres méthodes.
L’idée est de considérer une équation différentielle telle que

Ly(x) = f (x)

où L est un opérateur différentiel linéaire, c.-à-d. une combinaison linéaire d’opérateurs de dé-
rivation. Nous cherchons donc une solution qui obéit à un ensemble de conditions aux bornes
1. Apparement Green aurait étudié les mathématiques au dernier étage de son moulin, tout seul. Nous n’avons aucune
connaissance de la façon dont Green aurait pu se familiariser avec les mathématiques les plus avancées de son temps, qui
est en effet ce qui s’est passé. Il a été encouragé à fréquenter l’université de Cambridge à l’age de quarante ans d’âge. Il a
obtenu son diplôme (quatrième de son année) en 1837, mais il est mort quelques années plus tard en 1841.
122 Chapitre 5. FONCTIONS DE GREEN

et, au lieu de la chercher en utilisant la méthode de la variation des constantes, développée par
Lagrange, on cherche à inverser l’opérateur différentiel et à écrire la solution du problème comme
y = L−1 f. L’inverse d’un opérateur différentiel n’est pas un objet très bien défini ; des mathématiques
rigoureuses sont nécessaires pour justifier cette construction de façon plus précise. Par conséquent,
la construction des fonctions de Green est une procédure délicate et difficile en général. L’avantage
de la méthode de Green, par rapport à celle de la variation des paramètres, est qu’une fois que
la fonction de Green pour un opérateur différentiel et des conditions aux bornes spécifiques a été
trouvée, la solution pour toutes équations différentielles linéaire non homogène peut être écrite
immédiatement, sous la forme d’une intégrale.
Dans ce chapitre on introduira les fonctions de Green avec une approche piétonne basée sur les
propriétés de la delta de Dirac. En outre, bien que la méthode de Green soit applicable à la solution
des équations aux dérivées partielles, on traitera uniquement de l’utilisation des fonctions de Green
pour résoudre les equations différentielles ordinaires (EDO)

5.1 Delta de Dirac


Un opérateur A d’un espace vectoriel dimensionnel fini peut être représenté sous forme de
matrice. Son action sur un vecteur u, qui résulte en un nouveau vecteur v est donnée, en composants,
par le produit matriciel suivant
Ai j u j = vi .
Soit A−1 l’inverse d’un tel opérateur. On en déduit immédiatement que
uk = (A−1 )ki vi .
Considérons maintenant les vecteurs y(x), et f (x), tous les deux citoyens d’un espace de fonction
infinie-dimensionnel F . Suivant l’analogie de la matrice, l’opérateur L−1 qui inverse l’action de
Ly(x) = f (x), doit naturellement être considéré comme
Z
y(x) = G L (x, x0 ) f (x0 )dx0 (5.1)

où la somme sur les indices a été remplacée par une intégration sur la variable x0 . Si G L (x, x0 ) est
une fonction ordinaire, alors G(x, x0 ) est appelé fonction de Green ou noyau intégral.
L’essence de la méthode de Green consiste donc à trouver un noyau intégral G L (x, x0 ) en terme
duquel on peut exprimer la solution (satisfaisante toutes les conditions aux bornes données) du
problème différentiel Ly(x) = f (x). Par cette méthode, nous réduisons l’étude des propriétés de
l’opérateur différentiel L à l’étude des propriétés similaires de l’opérateur intégral correspondant G L .
Par exemple, l’opérateur d’identité dans un espace fonctionnel est l’opérateur I tel que Iy(x) = y(x).
Son inverse, qui coïncide avec l’opérateur I lui-même, doit être un opérateur G I (x, x0 ) qui satisfait
(5.1). Nous introduisons un symbole spécial pour l’opérateur d’identité dans un espace fonctionnel,
G I (x, x0 ) = δ(x0 − x), la ‘fonction’ delta de Dirac, et écrivons
Z
δ(x0 − x) f (x0 )dx0 = f (x) (5.2)

Le delta de Dirac, qui n’est pas une fonction ordinaire, 2 , joue le rôle de la matrice identité dans
les espaces fonctionnels, une sorte d’analogue continu du delta de Kronecker. On peut la définir
2. Certaines esprits mathématiquement bien élevées ont, dès le début, pris de fortes objections à cette δ. À l’avant-
garde de ce groupe se trouvait John von Neumann, qui a rejeté la fonction δ comme une ‘fiction’, et a écrit son
monumental Mathematische Grundlagen der Quantenmechanik largement pour démontrer que la mécanique quantique
peut (avec un effort suffisant !) être formulé sans aucune référence à une telle ‘fiction’. La situation changea cependant en
1950, lorsque Laurent Schwartz publia le premier volume de son ouvrage, Théorie des distributions. L’accomplissement
de Schwartz a été de montrer que les δ sont des objets mathématiques d’un type fondamentalement nouveau – les
distributions – qui vivent dans des espaces duales spéciaux toujours à l’ombre d’une intégrale implicite.
5.1 Delta de Dirac 123

formellement comme suit


Z b
δ(x0 − x)dx0 = θ(b − x) (5.3)
−∞

où θ est la fonction de Heaviside (ou fonction échelon unité)






 0 si x < 0
θ(x) =  si x = 0

1

 2

1 six ≥ 0.

Notez que la valeur θ(0) est conventionnelle (et sans conséquence), certains auteurs la mettant à
zéro, d’autres à un. Notre choix est équivalent à la stipulation que la fonction ‘signe’ S (x) ≡ 2θ(x) − 1
(égale à 1 si x > 0 et à −1 si x < 0) est une fonction impaire c’est-à-dire S (0) = 0.
La nature ‘pathologique’ du delta de Dirac est évidente :
Z b
δ(x0 − x)dx0 = θ(b − x) − θ(a − x)
a

implique que seulement si l’intervalle d’intégration [a, b] contient le point x l’intégrale évalue à un
et non à zéro ! De même, on peut noter que (5.3) implique formellement
d
δ(x − x0 ) = θ(x − x0 ).
dx
On est souvent temptés d’ interpréter le δ comme quelque chose qui est nul partout sauf à x0 = x où,
pour rendre l’intégrale finie et égale à 1, le delta diverge. Ceci n’est qu’une representation formelle :
nous traitons le δ comme une fonction bien que ce ne soit pas le cas ! Nous pensons souvent à
δ(x) comme étant la limite d’une suite de fonctions dont les graphiques deviennent de plus en plus
étroits alors que leur hauteur augmente pour garder l’aire sous la courbe fixée à l’unité. Un exemple
serait la fonction rectangulaire δ (x) centré à x = 0 dont la taille selon l’axe x est  et dont la hauteur
est 1/. La norme L2 de δ ,
Z ∞ Z /2
1 1
||δ || =
2
|δ (x)| dx =
2
dx =
−∞ −/2 
2 

tend vers l’infini comme  → 0, donc δ ne peut pas converger à aucune fonction dans L2 . 3

R Au lieu de la représentation intégrale, commune mais purement formelle, les auteurs à l’esprit
mathématique utilisent la notation
ˆ x [ f ] = f (x)
delta (5.4)

étant entendu que δ̂[ f ] = f (0) et que f est une element d’un bien specifique espace des
ˆ
fonctions T appellé espace des fonction test. Cette notation soulignent le fait que le delta[...]
n’est pas une fonction ordinaire de l’espace de fonction T , mais un fonctionnel, un citoyen
du dual de T . L’expression précédente représente l’appariement de l’élément f de l’espace T
avec l’élément δ̂ de son dual, c.-à-d. l’espace T ∗ . Quand on agit sur une fonction f (x) ∈ T ,
le δ̂ x évalue la fonction f à la position x et renvoie le nombre f (x). La relation 5.4 ne doit
pas être considérée comme une forme sesquilinéaire (δ, f ) (où δ est l’element de T qui est
isomorphique à δ̂) car une des propriétés intéressantes des espaces T à dimensions infinies,
tels que par exemple L2 , est que les elements de leur dual T ∗ ne pouvaient pas être identifiées,
comme dans les cas à dimensions finies, avec les éléments de T , ce qui conduit naturellement
3. La simple pic divergent en zero n’est pas la seule façon de ‘visualiser’ une fonction delta. Il y a beaucoup de
contre-exemples au fait souvent affirmé que δ(x) = 0 pour tout x , 0. Voir, par exemple, la figure 4.2.
124 Chapitre 5. FONCTIONS DE GREEN

à séparer les notions d’espace vectoriel et son dual. En effet, le théorème de Riesz-Fréchet
ne s’applique pas directement aux espaces avec dimensions infinies. Le théorème de Riesz-
Fréchet affirme que tout fonctionnel linéaire continu F[...] agissant sur des éléments de
l’espace de Hilbert H (F[...] : H → R) peut être écrit comme F[ f ] = (l, f ) où l est la fonction
de H qui représente le fonctionnel F. Cependant, le delta n’est pas un fonctionnel continue
lorsqu’il agit sur une élément f de l’espace de Hilbert L2 . Un petit changement arbitraire
f → f + ∆ f peut produire un changement arbitrairement grand de f (0). Ainsi l’espace dual
de L2 ne peut pas accommoder le delta.
Une autre façon de comprendre cela est de se rappeler que nous considérons deux fonctions
de L2 comme étant les mêmes lorsque || f1 − f2 ||| = 0. Cette distance sera nulle même si
f1 et f2 diffèrent l’un de l’autre sur un ensemble dénombrable de points. Comme nous
l’avons remarqué plus tôt, cela signifie que les éléments de L2 ne sont pas vraiment des
fonctions - ils n’ont pas de valeur assignée à chaque point. Il ne s’agit plutôt que de classes
d’équivalence de fonctions. Puisque f (0) n’est pas défini, toute tentative d’interprétation de
l’énoncé δ(x) f (x)dx = f (0) pour f un élément arbitraire de L2 est nécessairement voué à
R
l’échec. Les fonctions continues, cependant, ont des valeurs bien définies à chaque point.
Si nous prenons l’espace T comme étant celui constitué de toutes les fonctions continues,
mais pas forcement différentiables, alors T inclura le δ, mais pas sa ’dérivée’ δ0 (x), car cela
nous oblige à évaluer f 0 (0). Si nous demandons que les fonctions de test soient une fois
différentiables, alors T inclura δ0 (x) mais pas δ00 (x), etc. Cet argument nous indique donc que
les fonctions de test sont donc des fonctions smooth (infiniment différentiables) qui tendent
rapidement à zéro à l’infini. La classe de fonction que nous pouvons choisir pour T dépend du
problème rencontré. Un espace populaire de fonctions de test est celui composé de fonctions
C ∞ de support compact – ce qui signifie que chaque fonction est identique à zéro en dehors
d’un intervalle fini. Ce n’est que si nous voulons prouver des théorèmes qu’une spécification
précise de T est essentielle. Pour la plupart des calculs de physique, une différentiabilité
infinie et une décroissance assez rapide à l’infini est tout ce dont nous avons besoin.

5.2 Propriétés de la fonction de Green


Considérons un opérateur différentiel linéaire L x défini dans un intervalle a ≤ x ≤ b et dont
l’action est décrite par

L x y(x) = f (x). (5.5)

Nous avons formellement défini la fonction de Green associée à L x comme étant le noyau de
l’intégrale
Z b
y(x) = G L (x, x0 ) f (x0 )dx0 . (5.6)
a

qui permet de trouver une solution particulière y(x) de l’équation (5.5). Notons que si l’on souhaite
trouver la solution générale complète de (5.5), il faut ajouter la solution yc (x) de l’équation
complémentaire (ou équation homogene) L x yc (x) = 0 (5.6).

R La fonction de Green est souvent interprétée comme une fonction de propagation, reliant
une perturbation ou ‘signal d’entrée’ f (x0 ) imprimé en x0 à la ‘réponse’ y(x) ressentie en
x. On peut gagner de l’intuition physique sur ces mathématiques en suivant les intuitions
originales de Green lui-même. Green remarqua que la solution de l’équation de Poisson
∇2 φ(x) = ρ(x), qui décrit le potentiel électrostatique généré par une distribution de charge
donnée ρ(x), peut être obtenu par superposition des potentiels générés par une population
de charges ponctuelles ; c’est-à-dire que le problème général peut être réduit au problème
particulier

∇2 φ(x, x0 ) = δ(x0 − x)

où maintenant la fonction δ− est utilisée pour décrire une charge ponctuelle positionnée au
point x. Suivant cette vision inspirante, au lieu de résoudre un problème linéaire inhomogène
5.2 Propriétés de la fonction de Green 125

L x y(x) = f (x), nous recherchons la fonction G(x, x0 ) qui satisfait le problème spécial associé
L xG(x, x0 ) = δ(x0 − x). G(x, x0 ) peut être considéré physiquement comme la réponse d’un
système à une impulsion unitaire à x0 = x. La solution du problème original sera simplement
une superposition pondérée des solutions du problème spéciale, où le poids est le terme non
homogène f (x) de l’équation différentielle.

Nous devons maintenant découvrir comment calculer G L (x, x0 ) en pratique. Puisque G L est
l’inverse de L, nous pouvons écrire formellement

L xG L (x, x0 ) = δ(x0 − x). (5.7)

Il est facile de comprendre que cela a un sens en multipliant chaque côté de la relation précédente
par f (x0 ) et en l’intégrant. Nous obtenons
Z b Z b
L xG L (x, x ) f (x )dx =
0 0 0
δ(x0 − x) f (x0 )dx0 = f (x)
a a

et, donc,
Z b
Lx G L (x, x0 ) f (x0 )dx0 = f (x).
a

En comparant avec (5.5) nous trouvons toujours le résultat (5.6).


Puisque la fonction de Green peut donc être identifiée comme la solution de l’équation (5.7)
elle doit être symétrique, c’est-à-dire G(x, x0 ) = G(x0 x). En plus de (5.7), nous devons cependant
imposer deux autres restrictions sur G(x, x0 ). La première découle de l’exigence que la solution (5.6)
obéit aux conditions aux bornes. Dans le cas de conditions aux bornes homogènes ou de conditions
initiales, dans lesquelles y(x) et/ou ses dérivés doivent être nuls à des points spécifiés, la solution la
plus simple consiste à exiger que G(x, x0 ) lui-même obéisse aux conditions aux bornes lorsqu’elle
est considérée comme une fonction de x seulement ; si, par exemple, nous exigeons y(a) = y(b) = 0
alors nous devrions également exiger G(a, x0 ) = G(b, x0 ) = 0. De même, si y(a) = y0 (a) = 0 nous
0)
demandons aussi G(a, x0 ) = dG(a,xdx = 0..
La deuxième restriction concerne la continuité ou la discontinuité de G(x, x0 ) et de ses dérivés
à x = x0 . L’équation (5.7) nous dit que G(x, x0 ) doit être continu à x = x0 car sinon, les deux
différenciations appliquées à une fonction de Heaviside nous donneraient la dérivée d’une fonction
delta, et nous voulons seulement un simple δ(x − x0 ).
Le comportement des dérivés des fonctions de Green peut être étudié en intégrant (5.7) en x
sur le petit intervalle [x0 − , x0 + ] et en prenant la limite pour  → 0. Considérons l’opérateur
d2
différentiel de second ordre linéaire le plus général L = p0 (x) dx 2 + p1 (x) dx + p2 (x) de sorte que
d

x0 + " Z x0 +
d2G(x, x0 ) dG(x, x0 )
Z #
lim p0 + p1 + p2G(x, x ) dx = lim
0
δ(x0 − x)dx (5.8)
→0 x0 − dx2 dx →0 x0 −

Nous remarquons que la limite de l’intégrale sur le côté droit de (5.8) est
Z x0 +
δ(x0 − x)dx = lim θ((x0 + ) − x) − θ((x0 − ) − x) = 1
 
lim
→0 x0 − →0

ainsi, en intégrant les termes du côté gauche de 5.8 par parties deux fois et en imposant la condition
de continuité à G, l’équation 5.8 devient
# x=x0 +
dG(x, x0 )
"
lim p0 (x) =1
→0 dx x=x0 −
126 Chapitre 5. FONCTIONS DE GREEN

Nous concluons donc que le terme dG/dx0 doit être discontinu à x = x0 , et sa valeur limite pour
 → 0 doit être 1/p0 (x).
On peut généraliser le résultat précédent à n’importe quel opérateur différentiel linéaire L
d’ordre n et conclure que la fonction de Green associée à l’opérateur doit avoir les propriétés
détaillées ci-dessous.

Property 5.2.1 — Propriétés de la fonction de Green. Les propriétés de la fonction de Green


G L (x, x0 ) associées à un opérateur différentiel linéaire L d’ordre n et à des conditions aux bornes
homogènes pour la solution y(x) sont :
(i) G(x, z) obéit à LG(x, x0 ) = δ(x0 − x).
(ii) Lorsqu’elle est considérée comme une fonction de x, G(x, x0 ) obéit aux conditions au bornes
homogènes satisfaites par y(x).
(iii) Les dérivés de G(x, x0 ) par rapport à x jusqu’à l’ordre n − 2 sont continus à x = x0 , mais la
dérivée d’ordre (n − 1) a une discontinuité, un saut de taille 1/p0 (x) à ce point, ou p0 (x) est le
coefficient qui multiplie la dérivée plus élevée de l’opérateur L.

5.3 Calcul de la fonction de Green I : la méthode d’intégration directe


Il y a plusieurs façons de calculer la fonction de Green. Un approche est fournie par la méthode
de l’intégration directe. Ce processus peut être illustré comme suit. Tout d’abord, on écrit la forme
générale des solutions de (5.7) de chaque côté de x0 = x :


c1 (x0 )y1 (x) + c2 (x0 )y2 (x)
 x < x0
G(x, x0 ) = 

d1 (x0 )y1 (x) + c2 (x0 )y2 (x)
 x > x0

où les paramètres c1 , c2 , d1 , d2 dépendent du paramètre x0 et y1 (x), y2 (x) sont deux solutions indé-
pendantes de l’équation différentielle homogène de second ordre L xG(x) = 0, (équation complé-
mentaire). La fonction de Green peut être exprimée de manière équivalente comme suit

G(x, x0 ) = (c1G1 (x) + c2G2 (x)) θ(x0 − x) + (d1G1 (x) + d2G2 (x)) θ(x − x0 ).

Ensuite, nous imposons les deux conditions aux bornes. Ceci fixe deux des paramètres par rapport
aux deux autres. Troisièmement, nous imposons la continuité dans la variable x de G(x, x0 ) au point
x = x0 . Ceci fixe l’un des deux paramètres restants. Enfin, on exige que dG
dx augmente de 1/p0 (x) à
x = x . Cette condition sur la variation de la dérivée fixe la dernière constante et nous permet de
0

determiner la fonction Green.


Un point très important à comprendre est que la fonction G(x, x0 ) est associée à un opérateur
différentiel et aux conditions au bornes c.-à-d. le même opérateur différentiel avec des conditions
aux bornes différentes génère une fonction de Green différente.
En tant qu’application, nous voulons résoudre l’EDO

y00 (x) + p1 (x)y0 (x) + p2 (x)y(x) = 0

soumise aux conditions homogènes



y0 (a) − Ay(a) = 0


y0 (b) − By(b) = 0.

Nous considérons l’équation de Green


d2G(x, x0 ) dG(x, x0 )
L xG(x, x0 ) = + p 1 (x) + p2 (x)G(x, x0 ) = δ(x0 − x)
dx2 dx
5.3 Calcul de la fonction de Green I : la méthode d’intégration directe 127

loin du point critique x = x0 . Supposons que y1 (x) soit une solution de L x y = 0 pour x < x0 , c.-à-d. du
côté gauche de l’intervalle [a, b]. De même y2 (x) devrait résoudre L x y = 0 pour x > x0 , c’est-à-dire
du côté droit. La fonction de Green doit donc être de la forme suivante

G(x, x0 ) = c1 (x0 )y1 (x) + c2 (x0 )y2 (x) θ(x0 − x) + d1 (x0 )y1 (x) + d2 (x0 )y2 (x) θ(x − x0 ).
 
(5.9)

Un moyen simple d’incorporer les conditions aux bornes homogènes dans la solution finale du
problème (5.6) est d’imposer que la fonction de Green satisfait aux mêmes conditions

G0 (a, x0 ) − AG(a, x0 ) = 0


G0 (b, x0 ) − BG(b, x0 ) = 0.

En imposant ces contraintes on obtient


 
c2 y02 (a) − Ay2 (a) = 0
 
d1 y01 (b) − By1 (b) = 0 (5.10)

ce qui implique c2 (x0 ) = d1 (x0 ) = 0 et donc que

G(x, x0 ) = c1 (x0 )y1 (x) θ(x0 − x) + d2 (x0 )y2 (x) θ(x − x0 ). (5.11)

La continuité à x = x0 implique

y2 (x0 )
c1 (x0 ) = d2 (x0 ) ,
y1 (x0 )

et, en exigeant que les dérivés sautent par unité à x = x0 , on a

y2 (x0 ) 0 0
!
0
d2 (x ) y02 (x0 ) − y (x ) =1
y1 (x0 ) 1

dans lequel nous lisons que

y1 (x0 )
d2 (x0 ) =
W(x0 )

et, donc,

y2 (x0 )
c1 (x0 ) =
W(x0 )

où W(x0 ) = y1 (x0 )y02 (x0 ) − y2 (x0 )y01 (x0 ) est le Wronskian. Nous concluons que

y2 (x0 )y1 (x) y1 (x0 )y2 (x)


G(x, x0 ) = θ(x 0
− x) + θ(x − x0 ). (5.12)
W(x0 ) W(x0 )

qui montre que la fonction de Green est symétrique (G(x, x0 ) = G(x0 , x)), comme il se doit ! La
solution à notre problème est donc

x b
y1 (x0 )y2 (x) y2 (x0 )y1 (x)
Z Z
y(x) = f (x0 )dx0 + f (x0 )dx0 .
a W(x0 ) x W(x0 )
128 Chapitre 5. FONCTIONS DE GREEN

5.3.1 Ondes stationnaires électromagnétiques en 1D


Les fonctions de Green sont largement utilisées pour décrire l’émission d’ondes acoustiques et
électromagnétiques et leur interaction avec divers types de matériels. Il s’agit d’un vaste sujet dont
les détails sont couverts dans des cours avancés en physique théorique et en ingénierie. Ici, nous
donnons un bref aperçu d’une application unidimensionnelle simple.
Considérons les ondes électromagnétiques polarisées dans la direction z− se propageant dans
une dimension, la direction x, dans une cavité résonante de longueur L. Il s’agit d’un agencement de
miroirs qui forme une cavité résonnante contenante des ondes lumineuses stationnaires. Supposons
que les ondes se propagent dans un milieu de densité de courant J(x). L’équation de Maxwell pour
la composante z du champ électrique de ces ondes est la suivante

d2
!
− k E x = J(x)
2
dx2

où la constante k est donnée par k2 = gω2 /c2 avec c la vitesse de la lumière, ω la fréquence angulaire
de la lumière, et g une constante appelée coefficient de gain. Comme la cavité est entourée de
miroirs conducteurs, les conditions aux bornes sont homogènes :

Ez (0) = 0
Ez (L) = 0.

Notre tâche est de trouver la solution générale pour le champ électrique entre les miroirs. A cette
fin nous considérons l’équation de Green

d2
!
− k G(x, x0 ) = δ(x0 − x)
2
dx2
et le résoudre loin du point critique x = x0 , en obtenant
   
G(x, x0 ) = c1 ekx + c2 e−kx θ(x0 − x) + d1 ekx + d2 e−kx θ(x − x0 ). (5.13)

Les conditions limites G(0, x0 ) = G(L, x0 ) = 0 imposent les contraintes suivantes aux coefficients :

c1 + c2 = 0
d1 e + d2 e−kL = 0.
kL

En résolvant par rapport à c2 et d2 et en utilisant les résultats en (5.14) on obtient

G(x, x0 ) = 2c1 sinh(kx)θ(x0 − x) + 2d1 ekL sinh[k(x − L)]θ(x − x0 ).

L’application de la continuité à x = x0 entraîne l’état suivant

2c1 sinh(kx0 ) = 2d1 ekL sinh[k(x0 − L)],

et en exigeant que les dérivés sautent par unité à x = x0 nous donne

2c1 k cosh(kx0 ) = 1 + 2d1 ekL k cosh[k(x0 − L)].

En résolvant les systèmes de deux équations dans les deux inconnues c1 et d1 on obtient
sinh[k(x0 − L)]
c1 = −
2k sinh(kL)
sinh(kx0 )
d1 = −e−kL
2k sinh(kL)
5.3 Calcul de la fonction de Green I : la méthode d’intégration directe 129

La fonction de Green de l’opérateur d2 /dx2 +k2 +k2 satisfaisant aux conditions aux bornes G(0, x0 ) =
G(L, x0 ) = 0 est
sinh[k(L − x0 )] sinh(kx) 0 sinh[k(L − x)] sinh(kx0 )
G(x, x0 ) = θ(x − x) + θ(x − x0 )
k sinh(kL) k sinh(kL)
et le champ électrique permanent qui en résulte est donc
Z L
Ez (x) = G(x, x0 )J(x0 )dx0
0
ou
x L
sinh[k(L − x)] sinh(kx0 ) 0 0 sinh[k(L − x0 )] sinh(kx) 0 0
Z Z
Ez (x) = J(x )dx + J(x )dx .
0 k sinh(kL) x k sinh(kL)

5.3.2 Loi du mouvement de Newton


Considérons le problème classique du mouvement d’une particule qui se déplace dans une
dimension sous l’influence d’une force F(t).

d2 x(t) F(t)
F(t) = m a(t) ≡ .
dt2 m
Supposons que le mouvement a lieu dans l’intervalle de temps t1 ≤ t ≤ t ≤ t2 et que les conditions
aux bornes sont les suivantes
x(t1 ) = 0
x(t2 ) = 0.
Ce qu’il y a de beau avec la fonction de Green, c’est qu’elle nous donne immédiatement la solution
du problème au niveau formel
Z t2
x(t) = G(t, t0 )a(t0 )dt0 .
t1

Nous recherchons maintenant la forme de la fonction de Green associée à l’opérateur différentiel


d2 /dt2 et aux conditions limites G(t1 , t0 ) = G(t2 , t0 ) = 0.
Pour ce faire, nous résolvons d’abord l’équation de Green

d2
G(t, t0 ) = δ(t0 − t)
dt2
loin du point critique t = t0 , en obtenant

G(t, t0 ) = c1 (t0 ) + c2 (t0 )t θ(t0 − t) + d1 (t0 ) + d2 (t0 )t θ(t − t0 ).


 
(5.14)

Nous devons maintenant imposer les restrictions pertinentes sur G(t, t0 ) afin de déterminer les
fonctions c1 (t0 ), c2 (t0 ) etc. La première est que G(t, t0 ) devrait lui-même obéir aux conditions aux
limites homogènes G(t1 , t0 ) = G(t2 , t0 ) = 0.
c1 (t0 ) + c2 (t0 )t1 = 0
d1 (t0 ) + d2 (t0 )t2 = 0.
En résolvant par rapport à c2 (t0 ) et d2 (t0 ) et en utilisant les résultats en (5.14) on obtient
c1 d1
G(t, t0 ) = (t1 − t)θ(t0 − t) + (t2 − t)θ(t − t0 ).
t1 t2
130 Chapitre 5. FONCTIONS DE GREEN

L’imposition de la continuité à t = t0 entraîne la condition suivante


c1 d1
(t1 − t0 ) = (t2 − t0 ),
t1 t2
et en exigeant que les dérivés aient une discontinuitée d’amplitude unitaire à t = t0 on obtient
c1 d1
− + = 1.
t1 t2
En résolvant les systèmes de deux équations dans les deux inconnues c1 (t0 ) et d1 (t0 ) on obtient
t2 − t 0
!
c1 (t ) = t1
0
t2 − t1
t1 − t 0
!
d1 (t ) = t2
0
t2 − t1
La fonction de Green est donc
t2 − t 0 t1 − t0
! !
G(t, t ) =
0
(t1 − t)θ(t − t) +
0
(t2 − t)θ(t − t0 )
t2 − t1 t2 − t1
et le mouvement cherché
Z t2
x(t) = G(t, t0 )a(t0 )dt0
t1

ou, de manière équivalente,


Z t Z t2
t1 − t 0 t2 − t0
! !
x(t) = (t2 − t)a(t )dt +
0 0
(t1 − t)a(t0 )dt0 .
t1 t2 − t1 t t2 − t1

Exercise 5.1 Utilisez la méthode de la fonction de Green pour résoudre le problème suivant

d2 y(t)
+ y(t) = cosect (5.15)
dt2
avec les conditions aux bornes y(0) = y(π/2) = 0.
Solution. La fonction de Green G(t, t0 ) doit satisfaire

d2G(t, t0 )
+ G(t, t0 ) = δ(t0 − t) (5.16)
dt2
Il est clair que pour t , t0 le membre de droite de l’équation précédente est zéro, et il nous
reste à trouver la solution générale à l’équation homogène, c’est-à-dire la fonction complémen-
taire. Celle ci consiste en une superposition linéaire de sin t et cos t. Notamment on s’attend deux
différentes superpositions de chaque côté de t = t0 , puisque la dérivée première doit comporter
une discontinuité. Par conséquent,

G(t, t0 ) = c1 (t0 ) sin t + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
 

Les conditions aux bornes G(0, t0 ) = G(π/2, t0 ) = 0 imposent les contraintes c2 (t0 ) = d1 (t0 ) = 0 et
donc on a

G(t, t0 ) = c1 (t0 ) sin t θ(t0 − t) + d2 (t0 ) cos t θ(t − t0 )


5.3 Calcul de la fonction de Green I : la méthode d’intégration directe 131

En imposant la continuité à t = t0 avec les contraintes que dG/dt ait un bond de amplitude
unitaire à ce point, on obtient

d2 (t0 ) cos t0 − c1 (t0 ) sin t0 = 0


−d2 (t0 ) sin t0 − c1 (t0 ) cos t0 = 1 (5.17)

En résolvant ces équations pour c1 (t0 ) et d2 (t0 ), on obtient

c1 (t0 ) = − cos t0 , d2 (t0 ) = − sin t0

On a donc

G(t, t0 ) = − cos t0 sin t θ(t0 − t) − sin t0 cos t θ(t − t0 ).

Par conséquent, la solution à (5.15) qui obéit aux conditions aux bornes y(0) = y(π/2) = 0 est
Z π/2 Z t Z π/2
y(t) = G(t, t )cosect dt = −
0 0 0 0 0 0
cos t sin t cosect dt − sin t cos t0 cosect0 dt0
0 0 t
= −t cos t + sin t log(sin t) (5.18)

Ainsi, par exemple, la solution de d2 y/dt2 + y = f (t), avec y(0) = y(π/2) = 0, est donnée
immédiatement par

Z π/2 Z t Z π/2
y(t) = G(t, t0 ) f (t0 )dt0 = − cos t sin t0 f (t0 )dx0 − sin t cos t0 f (t0 )dt0
0 0 x

Par exemple, vous pouvez vérifier que si f (t) = sin 2t, alors on a y(t) = (− sin 2t)/3, une
solution facilement vérifiable par substitution directe. 

Exercise 5.2 Considérons à nouveau l’EDO résolue dans l’exercice 5.1, mais avec des condi-
tions aux bornes différentes. Résolvez maintenant
d2 y
+ y = f (x)
dx2
avec les données initiales y(0) = y0 (0) = 0.
Solution. La fonction de Green satisfait à l’équation différentielle (5.16) et sera de la forme

G(t, t0 ) = c1 (t0 ) sin x + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
 

Cependant, nous avons maintenant besoin de G(t, t0 ) pour respecter les conditions limites
G(0, t0 ) = G0 (0, t0 ) = 0. Puisque le mouvement a lieu dans l’intervalle de temps 0 ≤ t ≤ ∞ nous
déduisons que c1 (t0 ) = c2 (t0 ) = 0. Donc nous avons

G(t, t0 ) = 0 θ(t0 − t) + d1 (t0 ) sin x + d2 (t0 ) cos x θ(t − t0 ).




L’application des conditions de continuité sur G(t, t0 ), et de discontinuité pour sa dérivée, nous
donnent

d1 (t0 ) sin t0 + d2 (t0 ) cos t0 = 0


d1 (t0 ) cos t0 − d2 (t0 ) sin t0 = 1 (5.19)
132 Chapitre 5. FONCTIONS DE GREEN

et donc

d1 (t0 ) = cos t0 d2 (t0 ) = − sin t0 .

Ainsi, la fonction de Green est

G(t, t0 ) = sin(t − t0 ) θ(t − t0 )

et la solution générale qui obéit aux conditions limites y(0) = y0 (0) = 0 est
Z ∞ Z t
y(t) = G(t, t ) f (t )dt =
0 0 0
sin(t − t0 ) f (t0 )dt0 .
0 0

En comparant les résultats de cet exercice avec ceux de (5.1) nous voyons, comme prévu, que
les fonctions de Green associées au même opérateur différentiel, mais à des conditions au bornes
différentes, sont en général différent. 

5.4 Causalité
Considérons une équation différentielle inhomogène dont la variable indépendante est le temps.
Supposons en outre que nous ne spécifions pas de conditions initiales ni de conditions aux bornes. 4
A titre d’exemple, considérons l’équation différentielle rencontrée dans les problèmes (5.1) et (5.2)
d2 y
+ y = f (t)
dt2
et appliquons la méthode de la fonction de Green pour la résoudre. Nous avons déjà vu que la
solution de
∂2G(t, t0 )
+ G(t, t0 ) = δ(t − t0 ) (5.20)
∂t2
peut être exprimée comme
G(t, t0 ) = c1 (t0 ) sin t + c2 (t0 ) cos t θ(t0 − t) + d1 (t0 ) sin t + d2 (t0 ) cos t θ(t − t0 ).
 

La continuité à t = t0 de la fonction de Green nous donne la contrainte suivante


c1 (t0 ) sin t0 + c2 (t0 ) cos t0 = d1 (t0 ) sin t0 + d2 (t0 ) cos t0
tandis que le saut de dérivée (d’amplitude un) à t = t0 se traduit par
(d1 (t0 ) cos t0 − d2 (t0 ) sin t0 ) − (c1 (t0 ) cos t0 − c2 (t0 ) sin t0 ) = 1.
Les solutions du système linéaire
(d1 − c1 ) sin t0 + (d2 − c2 ) cos t0 = 0
−(d2 − c2 ) sin t0 + (d1 − c1 ) cos t0 = 1
sont
d1 − c1 = − sin t0 d2 − c2 = cos t0 (5.21)
de sorte que
G(t, t0 ) = c1 + θ(t − t0 ) cos t0 sin t0 + c2 − θ(t − t0 ) sin t0 cos t0
 

ou, de manière équivalente,


G(t, t0 ) = c1 (t0 ) sin t0 + c2 cos t0 + θ(t − t0 ) sin(t − t0 ). (5.22)

4. Ou que les données initiales et aux bornes ne sont pas suffisantes pour déterminer de manière univoque la fonction
de Green.
5.4 Causalité 133

Exercise 5.3 Vérifiez que (5.22) résout y00 (x) + y = δ(t0 − t). Solution. On a

∂2
θ(t − t0 ) sin(t − t0 ) = δ0 (t − t0 ) sin(t − t0 ) + 2δ(t − t0 ) cos(t − t0 ) − θ(t − t0 ) sin(t − t0 )

∂t 2

Puisque, formellement, f (t)δ0 (t − t0 ) = − f 0 (t0 ) et f (t)δ(t − t0 ) = f (t0 ) on obtient l’expression


suivante

δ0 (t − t0 ) sin(t − t0 ) = −δ(t − t0 ) cos(t − t0 ) = −δ(t − t0 ) δ(t − t0 ) cos(t − t0 ) = δ(t − t0 ).

On peut donc écrire

∂2
θ(t − t0 ) sin(t − t0 ) = δ0 (t − t0 ) − θ(t − t0 ) sin(t − t0 )

∂t 2

de sorte que

∂2
G(t, t0 ) = − (c2 cos t + c1 sin t) − θ(t − t0 ) sin(t − t0 ) + δ(t − t0 ) = −G(t, t0 ) + δ(t − t0 ).
∂t2


La solution du problème est donc

y(t) = yh (t) + y p (t)

ou

yh (t) = A sin t + B cos t

et
Z
y p (t) = G(t, t0 ) f (t0 )dt0 .

Puisque (5.20) est une équation différentielle de second ordre dans la variable t, la solution
(5.22) contient deux fonctions indéterminées du paramètre t0 (c(t0 ) et c2 (t0 )). Nous n’avons pas de
données initiales ou aux bornes pour éliminer cette dégénérescence. Toutefois, comme il s’agit d’un
problème physique bien posé, nous pouvons rechercher des considérations physiques qui aident à
éliminer l’indétermination mathématique. Pour ce faire, nous invoquons le principe de causalité,
l’affirmation selon laquelle les effets ne peuvent précéder les causes !
Considérez le problème y00 (t) + y(t) = f (t). Physiquement, cela correspond à une force dé-
pendante du temps f (t) qui excite un système élastique. La perturbation y p (x)du mouvement
harmonique est l’effet qui résulte de l’action de la force externe f (t) (la cause). Il est clair qu’il
ne peut y avoir aucune perturbation avant que la force ne soit appliquée ! De même, aucune per-
turbation au temps t ne peut être induite par une force appliquée au temps t0 > t. Nous pouvons
incorporer cette considération, assez raisonnable, dans notre formalisme en disant que

G(t, t0 ) = 0 si t < t0

puisque la réponse d’un système (y p ) au temps t ne peut pas dépendre de la valeur de la source à un
moment successif.
Si nous imposons le principe de causalité, nous déduisons immédiatement que c1 = c2 = 0 et
que

G(t, t0 ) = θ(t − t0 ) sin(t − t0 )


134 Chapitre 5. FONCTIONS DE GREEN

Notons que la fonction de Green prend maintenant une dépendance fonctionnelle spécifique
de la différence t − t0 . Une fois le principe de causalité pris en compte, les effets dépendront
uniquement de l’intervalle de temps écoulé à partir d’un certain moment. On voit ici la signature
de l’homogénéité du temps : que l’on commence une expérience à midi ou à l’heure du goûter ne
change pas le résultat observé après une heure !
Le signe + indique que la fonction de Green est causale ou, comme on l’appelle souvent, la
fonction de Green retardée, c’est-à-dire une fonction qui est nulle. chaque fois que t − t0 < 0. 5

5.5 Calcul de la fonction de Green II : la méthode de la transformée de Fourier


Une méthode courante de calcul des fonctions de Green se base sur l’analyse de Fourier et
l’utilisation d’outils de calcul complexes comme les intégrales de contour et le théorème des résidus.
En pratique, lorsque l’equation differentielle est une equation à coefficient constantes la méthode
de choix consiste à passer par la transformée de Fourier.
Une fonction à carré intégrable f (x) ∈ L2 [−∞, ∞] peut s’exprimer comme suit
Z ∞
1
f (x) = fˆ(k)e−ikx dk
2π −∞

Z ∞
0
fˆ(k) = f (x0 )eikx dx0 (5.23)
−∞

est la transformée de Fourier de la fonction. Nous voyons immédiatement, en substituant la


deuxième intégrale à la première, que
Z ∞
1 0
eik(x −x) dk = δ(x0 − x).
2π −∞
En utilisant ce résultat, nous pouvons reécrire l’équation différentielle pour la fonction de Green
comme suit
Z ∞
1 0
L xG(x, x ) =
0
eik(x −x) dk.
2π −∞

Si est la transformée de Fourier de la fonction de Green Ĝ(k, x0 ) existe, on a


Z ∞
G(k, x ) =
0
G(x, x0 )eikx dx.
−∞

et donc
" Z +∞ # Z ∞
1 1 0
Lx 0
Ĝ(k, x )e −ikx
dk = eik(x −x) dk,
2π −∞ 2π −∞

5. Nous définissons de manière similaire la fonction de Green avancée (ou fonction de Green anticausale) qui
s’annule pour tous les t > t0 .. En imposant que l’équation (5.22) s’annule pour t > t0 nous obtenons c1 = − cos t0 et
d1 = sin t0 qui résulte en

G(t, t0 ) = −θ(t0 − t) sin(t − t0 ) ≡ G− (t − t0 )

On peut dire que si G+ propage les effets d’une cause dans le futur, G− les propage dans le passé. Notons aussi que

G− (t − t0 ) = G+ (t0 − t)

qui exprime la symétrie par inversion temporelle d’un système mécanique (non soumis à des effets dissipatifs, comme
celui considéré dans notre exemple).
5.5 Calcul de la fonction de Green II : la méthode de la transformée de Fourier 135

ou, de manière équivalente,


Z +∞ h
0 i
Ĝ(k, x0 )L x e−ikx − eikx e−ikx dk = 0.
−∞
La transformée de Fourier de la fonction de Green est
e−ikx ikx0
Ĝ(k, x0 ) = e . (5.24)
L x e−ikx
Enfin, on obtient la fonction de Green en appliquant la transformée de Fourier inverse :
Z ∞ " −ikx #
1 e ikx0 −ikx
G(x, x ) =
0
e e dk
2π −∞ L x e−ikx
Cette intégrale peut généralement être évaluée à l’aide de techniques d’intégration dans le plan
complexe.

5.5.1 Équation Schrödinger indépendante du temps


Nous cherchons la fonction de Green de l’équation de Schrödinger unidimensionnelle et
indépendante du temps

d2
!
2m
2
+ k0 ψ(x) = 2 V(x)ψ(x)
2
dx h̄
avec k0 = 2mE/h̄2 .
Selon (5.24), la transformée de Fourier de la fonction de Green est
0
eikx
Ĝ(k, x ) = 2 2
0
k0 − k
La fonction de Green est maintenant formellement définie par la transformée inverse
Z ∞ 0
1 e−ik(x−x )
G(x, x ) =
0
dk.
2π −∞ (k0 − k)(k0 + k)
Cette intégrale peut être résolue en utilisant l’intégration de contour dans le plan complexe, voir
l’exercice 5.9.
Exercise 5.4 Considérons un oscillateur harmonique amorti soumis à une force externe arbi-
traire, c.-à-d. une particule de masse m dont l’equation de mouvement est

d2 x dx F(t)
2
+ 2γ + ω20 x =
dt dt m
où γ est le coefficient d’amortissement, et ω0 est la fréquence propre de l’oscillateur. Notre
objectif est de déterminerle mouvement x(t) à l’aide de la fonction de Green.
Solution.
Considérons l’équation pour la fonction de Green

d2 x dx
2
+ 2γ + ω20 x = δ(t0 − t).
dt dt
Pour la résoudre, nous utilisons la transformée de Fourier. Supposons pour l’instant que la
transformée de Fourier de G(t, t0 ) par rapport à t soit convergente. Nous supposerons également
que l’oscillateur n’est pas amorti de manière critique, c’est-à-dire ω0 , γ.
136 Chapitre 5. FONCTIONS DE GREEN

L’équation (5.24) nous permet de calculer la transformée de Fourier de G,


0
e−iωt iωt0 eiωt
G(ω, t ) =0
e = −
Lt e−iωt ω2 + 2iγω − ω20

Nous récupérons la fonction de Green en utilisant la transformée de Fourier inverse :


∞ 0
e−iω(t−t )
Z
1
G(t, t ) = −
0
.
−∞ ω + 2iγω − ω0
2π 2 2

Intégrons maintenant cette expression. Le dénominateur de l’intégrale est une expression


quadratique, ce qui permet de la réécrire comme :
∞ 0
e−iω(t−t )
Z
1
q
G(t, t ) = −
0
ω± = −iγ ± ω20 − γ2
2π −∞ (ω − ω+ )(ω + ω− )

Ceci peut être évalué par l’intégration dans le plan complexe. La fonction intégrande a deux
pôles, tous deux situés dans le plan complexe négatif. Pour t < t0 , le lemme de Jordan nous oblige
à fermer le contour dans le demi-plan supérieur ; ceci n’entoure aucun pôle, donc l’intégrale est
nulle. Pour t > t0 , il faut fermer le contour dans le demi-plan inférieur, en enfermant les deux
pôles. Les résidus sont
0
e−iω+ (t−t )
Resω+ =
ω+ − ω−
0
e−iω− (t−t )
Resω− =
ω− − ω+
On a donc
0 0 #
e−iω+ (t−t ) e−iω− (t−t )
"
G(t, t ) = i
0
+ θ(t − t0 )
ω+ − ω− ω− − ω+

qui, après un peu d’algèbre, peut être reé́crit comme


 q 
√ 1
sin ω 2 − γ2 (t − t0 ) γ < ω0



0  ω20 −γ2
 0
G(t, t0 ) = θ(t − t0 )e−γ(t−t )  q 
 √γ2 −ω2 sinh γ − ω0 (t − t ) γ > ω0


 1 2 2 0

0

5.6 Exercises
Exercise 5.5 Résoudre, à l’aide de la fonction Green, l’équation différentielle

dy(t)
− Q(t)y(t) = f (t)
dt
avec la condition initiale y(0) = 0. 
5.6 Exercises 137

Exercise 5.6 Résoudre, à l’aide de la fonction Green, l’équation différentielle

d2 y(x)
− = f (x)
dx2
avec les conditions limites y(0) = y(1) = 0. 

Exercise 5.7 L’équation de mouvement pour un oscillateur harmonique (avec les termes de
force et d’amortissement) peut être écrite comme suit

ẍ + 2 ẋ + (1 + k2 )x = f (t),

où k , 0. Supposons que le mouvement commence au repos en x(0) = 0 (c.-à-d. x0 (0) = 0.)


Trouvez la fonction de Green correspondante G(t, t0 ) et vérifiez qu’elle peut être écrite en
fonction de t − t0 seulement. Trouvez la solution explicite lorsque la force motrice est la fonction
de Heaviside, i.e. f (t) = θ(t). 

Exercise 5.8 Montrer que la fonction de Green de l’équation

d2 y
+ = f (x)
dx2 4
avec les conditions limites y(0) = y(π) = 0, est donné par


1 1
−2 cos 2 x sin 2 x0
 0 ≤ x0 ≤ x
G(x, x ) = 
0

(5.25)
−2 sin 1 x cos 10

2 x x ≤ x0 ≤ π.

Exercise 5.9 La fonction de Green de l’équation de Schrödinger indépendante du temps est

∞ 0
e−ik(x−x )
Z
1
G(x, x ) =
0
dk.
2π −∞ (k0 − k)(k0 + k)

Trouvez la solution explicite de cette intégrale.


Suggestion : la fonction intégrande, considérée comme une fonction de variable complexe, a
deux pôles simples à ±k0 . Le contour fermé d’integration est un demi-cercle dans le demi-plan
supérieur ou inférieur, dont le rayon est pris à l’infini. Le choix du demi-plan supérieur ou
inférieur dépend du signe de x − x0 .

Index

A Ensemble orthonormal de fonctions . . . . . . 100


Espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . 99
Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Espace dual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
Espace Euclidien . . . . . . . . . . . . . . . . . . . . . . . . . 9
B Espace euclidien . . . . . . . . . . . . . . . . . . . . . . . . 10
Base canonique . . . . . . . . . . . . . . . . . . . . . . . . . 36 Espace normé L p . . . . . . . . . . . . . . . . . . . . . . . . 97
Base de l’espace dual . . . . . . . . . . . . . . . . . . . . 16 Espace vectoriel des fonctions . . . . . . . . . . . . . 7
Base duale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17 Espace vectoriel de vecteurs géométriques . . 6
Base orthonormale . . . . . . . . . . . . . . . . . . . . . . 21 Espace vectoriel normé . . . . . . . . . . . . . . . . . . . 8
Basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Espaces hernitiens . . . . . . . . . . . . . . . . . . . . . . . 11
Espaces linéaires . . . . . . . . . . . . . . . . . . . . . . . . . 6
C Espaces vectoriels . . . . . . . . . . . . . . . . . . . . . . . . 5
Espaces vectoriels linéaires . . . . . . . . . . . . . . . . 7
Champ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Coefficients métriques . . . . . . . . . . . . . . . . . . . 24 F
Complétude d’un ensemble orthonormal . . 101
Composantes d’un vecteur . . . . . . . . . . . . . . . 15 Fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Composantes d’un vecteur dual . . . . . . . . . . . 16 Fonction de Green . . . . . . . . . . . . . . . . . . . . . 124
Convention de somme d’Einstein . . . . . . . . . 13 Fonctionnel linéaire . . . . . . . . . . . . . . . . . . . . . . 8
Convergence des fonctions . . . . . . . . . . . . . . . 95 Fonctions stationnaires . . . . . . . . . . . . . . . . . . 62
Convergence en norme . . . . . . . . . . . . . . . . . . 98 G
D Groupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Delta de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . 122 H
Derivèe Fonctionnelle . . . . . . . . . . . . . . . . . . . 62
Distance entre vecteurs . . . . . . . . . . . . . . . . . . . 9 Homomorphisme . . . . . . . . . . . . . . . . . . . . . . . . . 7

E I

Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Inégalité de Schwarz . . . . . . . . . . . . . . . . . . . . 10


INDEX 139

Intégrale première . . . . . . . . . . . . . . . . . . . . . . . 70

Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Le théorème de Riesz-Fréchet . . . . . . . . . . . . 17

Métrique associée à une base . . . . . . . . . . . . . 25

Norme des vecteurs . . . . . . . . . . . . . . . . . . . . . . 9

Points critiques . . . . . . . . . . . . . . . . . . . . . . . . . 56
Points stationnaires . . . . . . . . . . . . . . . . . . . . . . 56
Polynômes de Legendre . . . . . . . . . . . . . . . . 109
Polynômes d’Hermite . . . . . . . . . . . . . . . . . . 114
Polynômes de Laguerre . . . . . . . . . . . . . . . . . 113
Polynômes de Tchebychef de première espèce
114
Polynômes de Tchebychef de seconde espèce
115
Polynômes orthonormaux . . . . . . . . . . . . . . . 104
Principe de dualité . . . . . . . . . . . . . . . . . . . . . . 15
Principe de Fermat . . . . . . . . . . . . . . . . . . . . . . 76
Produit scalaire entre vecteurs . . . . . . . . . . . . 11

Scalaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Symétrie infinitésimale . . . . . . . . . . . . . . . . . . 82
Symbole de Kronecker . . . . . . . . . . . . . . . . . . 18
Symbole de Levi-Civita . . . . . . . . . . . . . . . . . . 13

Théorème de Noether . . . . . . . . . . . . . . . . . . . . 81
Théorème de Parseval . . . . . . . . . . . . . . . . . . 104
Transformation linéaire . . . . . . . . . . . . . . . . . . . 7

You might also like