Carte - Representations Temps - Frequences ENSIETA

ENSIETA, BREST
FRANCE
CENTRE DE RECHERCHE "EXTRACTION ET EXPLOITATION DE

L'INFORMATION EN ENVIRONNEMENTS INCERTAINS
R
REEPPR
REESSE
ENNTTA
ATTIIO
ONNSS T
TEEMMPPSS--FFR
REEQ
QUUE
ENNC
CEE
EETTT
TEEMMPPSS--E
ECCH
HEELLL LE
E
André QUINQUIS. Cornel IOANA

- Janvier, 2002 -
SOMMAIRE
1 Introduction……………………………………………………………... 1
1.1. La notion de signal………………………………………………………………..1

1.2. Structure d'une chaîne de traitement……………………………………………1
1.3. Place de la discipline "Analyse temps-fréquence" ……………………………...2
1.4. Organisation de cet ouvrage……………………………………………………...3
2 Rappels mathématiques.…………………...……………………………5
2.1. Les concepts de base……………………………………………………………...5

2.1.1. La norme et le produit scalaire ………………………………………………………...5
2.1.2. Les espaces de Hilbert……………...…………………………………………………...6
2.1.3. Rappel sur la théorie des opérateurs linéaires ..………………………………………...7
2.1.4. Bases des fonctions dans un espace de Hilbert …………………………………………8
2.2. La représentation du signal……………………………………………………...9

2.2.1. La décomposition atomique……………………………………………………….……9
2.2.2. Les bases orthonormales ……….……………………………………………………...9
2.2.3. Les bases de Riesz ……………………………………………………….…………….10
2.2.4. La théorie des cadres ………………………………………………………………….11
2.2.5. La procédure d'orthogonalisation de Gramm-Smidt ………………………………...12
2.3. Rappel sur la théorie des matrices…..………………………………………….13

2.3.1. Notion de déterminant……………………………………………….…………….…..14
2.3.2. Vecteurs et valeurs propres………………………………………….…………….…..15
2.3.3. Matrices spéciales…………..……………………………………….…………….…...16
2.3.4. Propriétés de dérivation des matrices……………………………….…………….…..16
2.4. Rappel sur les variables et signaux aléatoires...……………………………….17

2.4.1. Variable aléatoire réelle et rappels………………………………….…………….…..17
2.4.2. Processus aléatoires………………………………………………….…………….….20
2.5. Conclusions……………………………………...……………………………….23
Exercices et problèmes ………………………………………………………………………24
3 Généralités sur les signaux non-stationnaires.…………………...…...27
3.1. Méthodes de base pour le traitement des signaux stationnaires..…………….27

3.1.1. Les structures temporelles et fréquentielles………………………….…………….….27
3.1.2. Eléments d'analyse spectrale………………...……………………….…………….….28
3.2. Le concept de signal non-stationnaire…………………………....…………….34

3.2.1. Définition de la non-stationnarité……………………...…………….…………….….34
3.2.2. Mesures de non-stationnarité……………...…………….…………….……………....35
3.3. Modèles et approches non-stationnaires………………………....…………….40
3.3.1. Approche adaptative………………….………………...…………….…………….….40
3.3.2. Approche évolutive……...…………….………………...…………….…………….….40
3.3.3. Stationnarité par morceaux…………..………………...…………….…………….….41
3.3.4. Modèle à coefficients aléatoires………...……………...…………….…………….….41
3.3.5. Représentations temps-fréquence et/ou temps-échelle……………....…………….….41
3.4. Limitations de la transformée de Fourier….…………………....………….….42
4 Représentations temps-fréquence linéaires.…. .……………….…..…46
4.1. Transformée de Fourier à court terme. Spectrogramme……....………….….46

4.1.1. Définitions………………….………………...……………………….…………….….46
4.1.2. Propriétés générales de la TFCT et du spectrogramme……………..…………….….47
4.1.3. Le pavage temps-fréquence généré par le spectrogramme………….…………….….50
4.1.4. Considérations sur la discrétisation du spectrogramme…………….…………….….51
4.1.5. Conclusion………...……….………………...……………………….…………….….51
4.2. La transformée de Gabor…………………………………...…....………….….52

4.2.1. Définition………….……….………………...……………………….…………….….52
4.2.2. Implémentation de la transformée de Gabor………….……….………………...…….52
4.2.3. Sélection optimale de l'ensemble dual des fonctions……..………….…………….….55
4.2.4. Conclusions……….……….………………...……………………….…………….…..57
4.3. La transformée ondelettes continue……………………...…....………….…....57

4.3.1. La notion d'ondelette. Exemples…………...……………..………….…………….….52
4.3.2. La transformée ondelettes continue directe……………..………….…………….…...61
4.3.3. La transformée ondelettes continue inverse……………..………….…………….…...61
4.3.4. La discrétisation de la transformée ondelettes continue……..…….…………….…...64
4.3.5. Le scalogramme. Comparaison entre la TFCT et la TOC………....…………….…...65
4.3.6. La transformée ondelettes supracomplete……..………..………….…………….…...66
5 Analyse multirésolution et paquets d'ondelettes.…....……………….70
5.1. Analyse multirésolution……....……………………………………………...….70

5.1.1. Définition et propriétés de l'analyse multirésolution…….………….…………….….70
5.1.2. Les classes de bases ondelettes……………………………………….…………….….74
5.2. Les ondelettes et les bancs de filtres………………………………………...….82

5.2.1. La transformation ondelettes rapide……………………...………….…………….….82
5.2.2. Les bancs de filtres à reconstruction parfaite………….....………….…………….….87
5.3. Ondelettes biorthogonales…………………………………………………...….90

5.3.1. Ondelettes biorthgonales splines………….……………...………….…………….…..92
5.3.2. Pseudo-coiflets…………………………….……………...………….…………….…..93
5.4. Analyse en paquets d'ondelettes …………………………………………...….94
5.4.1. Préliminaires……...……………………….……………...………….…………….….94
5.4.2. La notion d'arbre de décomposition……...………………………....…………….…..95
5.4.3. Sélection de la meilleure base…………….……………...………….…………….…..97
5.4.4. La reconstruction du signal………...…….……………...………….…………….…101
5.4.5. Exemples d'application……..…………….……………...………….…………….….102
5.4.6. Décomposition en paquets d'ondelette 2D……………...………….…………….…..104
5.5. Analyse en paquets d'ondelettes invariante en temps……………………...106

5.5.1. Préliminaires……...……………………….……………...………….…………….…106
5.5.2. La librairie de paquets d'ondelettes invariante en temps……...…………………….106
5.5.3. Sélection de la meilleure base…………….……………...………….……………….108
5.5.4. Comparaison entre la décomposition en paquets d'ondelette classique et celle
invariante en temps………………………………………………………………………….110
5.5.5. La décomposition en paquets d'ondelettes invariante en temps 2D………..……….111
Exercices et problèmes ……………………………………………………………………..113
6 Représentations temps-fréquence bilinéaires…..…....……………...116
6.1. La transformée de Wigner-Ville…………………………………………….116

6.1.1. Définition………….……….………………......……………………….…………….116
6.1.2. Propriétés générales de la distribution de Wigner-Ville……...……….…………….118
6.1.3. Les termes d'interférence générés par la DWV………….……….………………....122
6.1.4. La DWV discrète….……….………………......……………………….…………….124
6.1.5. L'implémentation de la DWV discrète….……….………………......……………….126
6.2. La transformée de Pseudo Wigner-Ville……………………………………128

6.2.1. Définition………….……….………………......……………………….…………….128
6.2.2. Comparaison entre la distribution de pseudo Wigner-Ville et le spectrogramme….128
6.2.3. La distribution de pseudo Wigner-Ville lisée………………………….…………….129
6.2.4. Implémentation de la PWVL……..………......……………………….……………..132
6.3. La classe de Cohen………………………………………………...…………133

6.3.1. La fonction d'ambiguïté………….………........……………………….…………….133
6.3.2. La définition de la classe de Cohen……….......……………………….…………….137
6.3.3. Les membres de base de la classe de Cohen……….......……………………….……139
6.3.4. Conclusion……………………………...….......……………………….…………….147
6.4. Le noyau gaussien adaptatif……………………………………...…………148
Exercices et problèmes ……………………………………………………………………..154
7 Représentations temps-fréquence modernes…..…....……………...157
7.1. Motivations……………………..…………………………………………….157
7.2. Le principe des décompositions temps-fréquence adaptatives……………158
7.3. La distribution de Wigner-Ville modifiée……………………..……………159
7.4. Le dictionnaire adaptatif chirplets à 4 paramètres…………...……………161
7.4.1. Expression mathématique des fonctions chirplet……..……………….…………….162
7.4.2. La RTFA obtenue à partir de DAC4…………………..……………….…………….162
7.5. Résultats exprerimentaux…………………………….………...……………166

7.6. Conclusion. Perspectives……..……………………….………...……………169
ANNEXE 1. Implémentation des décompositions en paquets d'ondelettes……………………….171

1. Introduction
1
INTRODUCTION
1.1. La notion de signal
Par définition, un signal est le support physique d'une information. Il s'agit d'une notion tout à
fait générale que l'on peut rencontrer dans des domaines aussi variés que l'électricité, l'électronique,
l'acoustique, l'optique, la mécanique, l'astronomie, la biologie, l'économie etc. En fait, on évoquera un
signal lors qu'il y a mesure et/ou transmission d'information d'une source vers un destinataire.
Traiter un signal, c'est essentiellement en extraire l'information que l'on juge utile, la mettre en
forme pour mieux l'analyser, la transmettre ou la stocker, l’épurer de parasites éventuels.
1.2. Structure d'une chaîne de traitement
Le signal matérialise le transfert d'une information. On peut alors distinguer un certain nombre
d'opérations ou de situations qui sont communes à toute chaîne de traitement. On peut en tout premier
lieu distinguer les opérations :
§ Le pré-traitement qui est essentiellement relatif à la prise d'information elle-même, aux capteurs
et à leurs propriétés;
§ Le traitement proprement dit qui constitue le cœur de ce qu'on appelle le traitement du signal;
§ Le post-traitement qui inclut les actions (on parle alors plutôt d'automatique) ou des méthodes
symboliques ou de contexte (vision, intelligence artificielle etc…).
D'une manière assez générale, on peut résumer une chaîne de traitement du signal par le
schéma suivant :
Représentations
Etats Signaux Observables
Décisions
Figure 1.1. Le schéma général d'une chaîne de traitement
Ce schéma met en jeu plusieurs espaces et des applications entre ces espaces. Les espaces sont
ceux :
§ Des états : c'est là que se trouve l'information utile;
§ Des signaux : ce sont eux qui matérialisent les états possibles;
§ Des observables : ce sont les seules grandeurs disponibles pour l'utilisateur;
§ Des décisions : c'est là que se matérialisent les opérations relatives aux signaux;
§ Des représentations : elles permettent de changer la façon dont on regarde un signal et peuvent
soit aider à l'analyse seule, soit constituer un détour utile pour construire une décision.
ENSIETA, Janvier 2002 1
Centre de Recherche "Extraction et Exploitation de l'Information en Environnements Incertains"
1. Introduction
Les liens qui unissent ces différents espaces correspondent à des opérations de
§ Codage entre états et signaux;
§ Transmission (au sens large) entre signaux observables et décisions (l'espace des décision étant
supposé isomorphe à l'espace des états).
Nous pouvons donc formuler une problématique générale du traitement du signal de la façon
suivante :
Il s'agit d'élaborer la meilleure règle de décision, c'est-à-dire celle qui, à partir
des seules données observables, permet de caractériser au mieux une information utile
véhiculée par un signal
Il est clair qu'un tel objectif nécessite d’expliciter ce que l'on entend par "meilleure" et par "au
mieux". Il faudra donc définir des critères qu'il s'agira d'optimiser. Par ailleurs, l'objectif ne pourra
être atteint que si un certain nombre d'informations (a priori) supplémentaires sont disponibles.
Celles-ci pourront concerner :
− La nature ou les états d'un système;
− Le type de codage;
− Les informations relatives au canal de transmission et au bruit d'observation, etc.
Ceci étant supposé, le schéma décrit ci-dessus permet d'englober la majorité des tâches
essentielles auxquelles est confronté le traitement du signal :
- La détection : l'espace des états est alors discret (voire binaire) et le problème posé est de savoir
si une observation donnée correspond au signal utile mélangé du bruit ou à un bruit seul;
- L'analyse et l'estimation des paramètres : il s'agit cette fois, et toujours à partir d'une observation
imparfaite, de caractériser un signal par un jeu de paramètres qui le définite;
- Le filtrage : Il s'agit d'estimer un signal dans son ensemble et non par l'intermediaire d'un petit
nombre de paramètres caractéristiques.
Ces tâches élémentaires apparaissent souvent couplées, les problèmes réels faisant
fréquemment intervenir simultanément des opérations de filtrage et/ou de détection-estimation. On
peut aussi citer quelques exemples d'application pour lesquels le traitement du signal est
prépondérant:
§ Le traitement de la parole : analyse, synthèse, codage, transmission, reconnaissance, commande
vocale;
§ L'audio (compact disc) et la vidéo (TVHD) numériques;
§ Les télécommunications : téléphone, radio-mobile, vidéo-mobile, vidéo-conférence;
§ Le radar et le sonar (passif ou actif);
§ Le control non-destructif (par ultrasons ou par courrant de Foucault);
§ L'astronomie : imagerie optique et radio, interférométrie, optique adaptative;
§ La physique : turbulence, géophysique (interne et externe), sismique;
§ L'automobile et les industries mécaniques : diagnostic vibratoire;
§ Le nucléaire : surveillance et détection précoce d'incidents;
§ L'imagerie satellitale.
1.3. Place de la discipline "Analyse temps-fréquence"
De par ses objectifs, le traitement du signal est clairement à une situation carrefour. Il est en
effet en contact étroit avec ses champs d'applications (mentionnés ci-dessus) dans lesquels il puise ses
motivations et pour lesquels il élabore la spécificité de ses solutions. Il repose par ailleurs sur des
outils mathématiques (comme l'analyse harmonique, l'algèbre linéaire ou les statistiques) qui lui sont

1. Introduction
essentiels. Il est enfin un passage obligé pour des tâches comme la classification ou la reconnaissance
des formes.
Le traitement du signal est cependant une discipline autonome ; son originalité reposant d'une
part sur l'universalité de son langage et d'autre part sur l'enrichissement qu'elle a en retour par rapport
aux disciplines qui la nourrissent (développement d'algorithmes en mathématiques appliquées,
affinement de mesures en physique etc…).
La plupart des signaux réels sont de nature non-stationnaire (cette notion sera détaillée dans le
chapitre 3) et la difficulté de traiter ce type de signaux réside dans le fait que l'information portée par
ces signaux peut être utile ou nuisible. Par exemple, lors de la transmission d'un signal, la modulation
en fréquence ou en amplitude, donc la non-stationnarité - qui de ce point de vue constitue en
élément positif, sert à porter l'information utile. Mais, si un problème quelconque perturbe cette
modulation, alors l'information portée est en partie nuisible. Par conséquent, il faut trouver une
méthode pour récupère l'information utile, tout en sachant que les méthodes "classique" sont conçues
pour des signaux stationnaires. De ce point de vue, le caractère non-stationnaire devient un facteur
négatif dans le contexte de traitement de ce signal.
Les méthodes d'analyse temps-fréquence constituent la solution pour résoudre cette
ambiguïté. En conclusion, on peut dire que, dans le cadre général du traitement du signal, les
méthodes temps-fréquence sont les outils les plus aptes à traiter des signaux, dans un environnement
non-stationnaire.
1.4. Organisation de cet ouvrage
Ce travail a pour principal objectif la familiarisation des ingenieurs avec la problématique des
représentations temps-fréquence qui constituent, comme on a déjà vu, l'outil de base pour le
traitement des signaux dans un environnement non-stationnaire. Pour atteindre cet objectif, cet
ouvrage est structuré en quatre parties principales.
La première est dédiée aux rappels mathématiques et aborde les points suivants :
- La définition des notions mathématiques de base, directement liées à la problématique de
traitement du signal;
- La particularisation de ces notions dans le cadre de la représentation des signaux et l'introduction
des opérateurs qui peuvent être développés dans les espaces des signaux introduits;
- Les éléments de la théorie des matrices qui constituent la forme optimale (du point de vue
implémentation des algorithmes) pour la représentation des signaux ;
- Les notions de base sur les variables et les signaux aléatoires qui sont indispensables lorsqu'on
travaille dans un environnement bruité.
La deuxième partie, "Généralités sur les signaux non-stationnaires", est structurée en cinq
sections :
- dans la première section, on présente brièvement les méthodes de base pour l'analyse des signaux
stationnaires, en insistant sur les méthodes d'analyse spectrale;
- dans la deuxième section on définit le concept de "non-stationnarité" et on exemplifie cette notion
à partir de quelques situation pratiques;
- dans la troisième section on présente les mesures les plus usuelles de la non-stationnarité;
- la quatrième section aborde la présentation des méthodes mono-dimensionnelles pour la
modélisation des signaux non-stationnaires;
- La fin de cette partie, la section 5, à partir des limitations des méthodes présentées ci-dessus et des
limites de la transformée de Fourier, permet de justifier l'intérêt des représentations temps-
fréquence.
Le troisième chapitre, "Les représentations temps-fréquence linéaires", est structuré en

deux parties. Dans la première on aborde la problématique des RTFs issues par le fenêtrage de la
1. Introduction
transformé de Fourier, qui représente, de point de vue historique, les premières méthodes temps-
fréquence. On va voir que le fonctionnement de ces méthodes est limité par le principe de
Heisenberg, et, par conséquence, on va insister sur la transformée de Gabor, qui représente le meilleur
compromis temps-fréquence.
Dans l'autre partie, même s'il s'agit d'un décalage historique important entre ces deux
approches, on s'appuie sur les représentations temps-échelles : la transformée en ondelettes et ses
dérivées. A la fin de ce chapitre on mettra en évidence les limitations des méthodes linéaires actuelles
et, on présentera les perspectives qui peuvent être envisagée.
Enfin, le dernier chapitre concerne "Les représentations temps-fréquence bilinéaires", et,
notamment, celles qui appartiennent à la classe de Cohen. Après la présentation détaillée de tous les
aspects importants liés de ces outils, on étudie quelques méthodes pour l'amélioration des
performances de celles-ci.
Les exemples qui serviront de support pour les explications afférentes sont obtenus par des
simulations réalisées sous Matlab, en utilisant le "Didacticiel", qui est un produit conçu par le
"Laboratoire de Traitement du Signal" de l'ENSIETA.
Tous les chapitres s’achévent par une série d’"Exercices et de Problèmes". Ils constituent un
moyen efficace pour la compréhension des notions on présentées et donnant des exemples suggestifs
sur la signification physique de ces notions.

2. Rappels mathématiques
2
RAPPELS MATHEMATIQUES
Dans ce chapitre nous allons présenter les notions mathématiques de base qui seront utilisées
au cours de ce travail. Le but est de réaliser un rappel sur les concepts mathématiques sur lesquels est
basée la théorie des représentations temps-fréquence; pour des détails envisageant l'entière
problématique, les démonstrations des théorèmes et propriétés etc, le lecteur est invité de consulter
les références bibliographiques données à la fin du chapitre.
2.1. Les concepts de base
Ce paragraphe expose les éléments mathématiques basiques qui sont utilisés pour
l'introduction des notions suivantes. On note par H un espace linéaire (ou vectoriel), associé à un
produit scalaire.
2.1.1. La norme et le produit scalaire [1]
Une norme • est une application H → R + (où R+ représente l'ensemble des nombre réels)
qui associe à chaque élément f ∈ H une quantité positive réel f . Pour x, y∈ H et a∈ C, une norme
doit satisfaire les propriétés suivantes:
1. Positivité : x ≥ 0 et x = 0 ⇔ x = 0
2. Multiplication par un scalaire : ax = a ⋅ x
3. L'inégalité du triangle : x + y ≤ x + y .
Par définition, le produit scalaire •,• est une application H × H → C qui satisfaite les
conditions:
1. ax + by , z = a x, z + b y , z ,
*
2. x, y = y, x
2
3. x, x = x
pour tout (x, y, z) ∈ H3 et (a, b)∈ C2 .
Si x, y = 0 on dit que les vecteurs x et y sont orthogonaux.
Une conséquence de ces propriétés est que le produit scalaire satisfait l'inégalité de Cauchy-
Schwarz:
x, y ≤ x ⋅ y (2.1)
La notion de convergence en H [1]
Cette notion, directement liée au concept de norme, permet de définir tous les espaces
mathématiques utilisés en traitement du signal. Si on considère x n ∈ H une séquence définie en H on

dit que {x n } converge vers x si x − x n H

→ 0 quand n→ ∞. On peut également écrire x=limxn et si
limxn ∈ H pour toutes les séquences {x n } alors on dit que H est un espace fermé.
Par définition, une séquence {x n } est une séquence de Cauchy si x n − xm H
→ 0, ∀ m, n → 0 .
Si toutes les séquences Cauchy convergent en H on dit que H est espace complet. Les espaces des
vecteurs normés complets sont appelés des espaces Banach. Les espaces de Banach qui admettent un
produit scalaire sont appelés les espaces de Hilbert.
2.1.2. Les espaces de Hilbert [2]
Les espacés de Hilbert sont les espaces les plus intéressants en traitement du signal. D'une
manière intuitive, la notion d'espace de Hilbert peut être vue comme la généralisation de l'espace
Euclidien tri-dimensionel, par l'extension des concepts suivants: la distance (norme) et l'angle
(produit scalaire). Mathématiquement, l'espace de Hilbert H est un espace vectoriel complet, normé
qui est associé à un produit scalaire.
Les espaces de Hilbert particuliers et leurs significations physiques sont, par exemple :
A. L'espace des fonctions absolument intégrables
L1 (R) représente l'espace des signaux absolument intégrables, dans lequel la norme d'un
élément f∈ L1 (R) est définie par :
∆ ∞
f = ∫ f (t ) dt < ∞ (2.2)
−∞
Pour les fonctions f∈ L1 (R) on peut définir la transformée de Fourier (TF) selon:
∞
fˆ (γ ) = ∫ f (t )e
− j2πγ t
dt (2.3)
−∞
B. L'espace des fonctions à énergie finie
L2 (R) représente l'espace des signaux à l'énergie finie, dans lequel la norme d'un élément f∈
2
L (R) est définie par :
1/ 2
∆ ∞ 
f = ∫ f (t ) dt 
2
<∞ (2.4)
 
 −∞ 
Dans le cadre du traitement du signal, le carré de la norme peut être vue comme l'énergie du
signal.
Dans cet espace, le produit scalaire de deux fonctions f, g ∈ L2 (R) est défini par :
∞
f,g = ∫ f (t )g (t )dt
*
(2.5)
−∞
C. L'espace des fonctions à énergie finie périodiques
Parfois, il est souhaitable d'utiliser une T-périodisation d'un signal f, ∑ f (t + nT ) . Par

simplification, on effectue seulement l'analyse du signal dans l'intervalle [-T/2,T/2]. Dès lors, le
concept de l'énergie finie peut être étendue pour les signaux périodiques, en analysant le signal sur
cette seule période. On peut aussi définir l'espace L2 (-T/2,T/2) des fonctions à énergie finie sur [-
T/2,T/2]. Dans cet espace, la norme d'un signal f∈ L2 (-T/2,T/2) est défini par :
1/ 2
∆ T / 2 
f = ∫ f (t ) dt 
2
<∞ (2.6)
 
 −T / 2 
D. L'espace des fonctions concentrées en temps et en fréquence
TF(R) représente l'espace des signaux à énergie finie décroissant plus rapidement en temps (et
en fréquence) que la fonction 1/t (1/γ).
∆
{
TF ( R) = f ∈ L2 (R ) : f (t ) < C (1 + t )
− (1+ ε )
et fˆ (γ ) < C(1 + γ )
− (1+ ε )
}
, pour C < ∞, ε > 0 (2.7)
E. L'espace des séquences d'énergie finie
l 2 (Z) est l'espace de séquences numériques d'énergie finie définies sur l'ensemble des nombres
entiers. La norme d'un élément c∈ l 2 (Z) vaut :
c
2
∆
(
= ∑ cn )
2 1/ 2
<∞ (2.8)
et le produit scalaire de c, d ∈ l 2 (Z) vaut c, d = ∑ cn d * n .

Ces espaces peuvent être particularisés pour des valeurs finies de l'indice de sommation et en
définisant ainsi les espaces l 2 (J).
F. L'espace des fonctions de bande limitée (l'espace de Paley et Wiener)
Les espaces des signaux à bande limitée (introduis par Paley and Wiener, [2]) sont les espaces
de fonctions à un support compact (limité et fermé) dans le domaine fréquentiel. Pour Ω>0, l'espace
PWΩ est défini selon:
∆
{
PWΩ = f ∈ L2 ( R) : suppremum fˆ ⊆ [− Ω , Ω] () } (2.9)
2.1.3. Rappel sur la théorie des opérateurs linéaires [3]
Par définition, un opérateur linéaire est une application T qui transforme un espace Hilbert H1
dans un autre espace H2 . On dit que T ∈ B(H1 ,H2 ), où B(.,.) est l'espace de Banach des opérateurs
linéaires. La norme d'un élément T∈ B(H1 ,H2 ) est définie par :
Tx H
T = sup 2
<∞ (2.10)
x∈H1 x H
1
Les opérateurs que généralement il est souhaitable de les avoir verifiées sont :
1. Le noyau d'un opérateur T∈ B(H1 ,H2 ) est la fonction f∈ H1 pour laquelle Tf=0.
2. T est une application injective si Tf=Tg si et seulement si f=g.
3. T est une application surjective si T(H1 )=H2 (quelque soit l'élément de H1 il existe un élément
associé par T , défini en H2 .
4. T est une application bijective si elle est injective et surjective.

5. T admet un opérateur invers T-1:H2 →H1 si T est bijective. Dans ce cas, l'opérateur inverse est
défini par T-1g=f si g=Tf.
6. T est continue si x n → x implique Tx n → Tx.
7. L'adjoint de T est l'opérateur identité T* : H2 → H1 qui satisfait la condition
Tf , g H
= f ,T * g . T est auto-adjointe si T* =T.
2 H
1
8. T est un isomorphisme topologique si T est bijective, T∈ B(H1 ,H2 ) et T-1∈ B(H2 ,H1 ).
9. T est une isométrie si ∀ f ∈ H1 , Tf H = f H .
2 1
10. T est un opérateur unitaire s'il est linéaire, bijectif et isométrique. Si T est unitaire, alors T-1=T* .
Par la suite, on présente les opérateurs unitaires largement utilisés en traitement du signal. On
donne les expressions de ces opérateurs pour une fonction arbitraire f∈L2 (R) et a, b et s≠0 - des
nombre réels.
∆
1. L'opérateur de translation τ a : L2 (R ) → L2 (R ), (τ a f )(t ) = f (t − a ) (2.11)
∆
2. L'opérateur de modulation eb : L2 (R ) → L2 (R ), (eb f )(t ) = e j 2πbt f (t ) (2.12)
∆
3. L'opérateur de dilatation D s : L2 (R ) → L2 ( R), (D s f )(t ) = s f ( st )
1/ 2
(2.13)
Dans les applications pratiques il est souhaitable de travailler avec des opérateurs unitaires,
car ceci nous assure la conservation de l'énergie dans le domaine transformé.
2.1.4. Bases des fonctions dans un espace de Hilbert [1,2]
On suppose une séquence des fonctions {φ n }⊆ H . Dans la section suivante on décrit les
concepts plus importants qui sont associés à la représentation d'un signal quelconque comme une
combinaison linéaire de ces fonctions.
1. Par définition, l'envergure linéaire, env{φ n }, de l'ensemble des fonctions {φ n } est la suite de toutes
les fonctions générées par la combinaison linéaire des fonctions {φ n }:
 N 
env{φ n } =  ∑ c nφ n : c n ∈ C, N ∈ Z  (2.14)
 n=1 
_________ _________
2. {φ n } est dense dans H si env{φ n } = H , où l'expression env{φ n } contient les limites de la forme
N
lim ∑ c n φ n .
N→∞ n =1
3. {φ n } est complète dans H si ∀n, f , φn = 0 si et seulement si f=0.
4. {φ n } est orthonormale dans H si ∀ m , n , φ m , φ n =δ m ,n .
5. {φ n } est une base de Schauder (ou simplement une base) pour H si pour chaque f∈ H il existe une
séquence unique {cn }∈ C pour laquelle f = ∑ cnφ n .
6. Un ensemble orthonormal {φ n } représente une base orthonormale pour H si pour chaque f∈ H il
existe une séquence unique {cn }∈ C pour laquelle f = ∑ cnφ n . Dans ce cas, on peut également
écrire f :
f = ∑ f ,φ n φ n (2.15)
n
et
2 2
f = ∑ f ,φ n (Egalité de Parseval) (2.16)
n
7. Une base {φ n } est une base de Riesz pour H si elle est liée à une base orthonormale par un
isomorphisme topologique T : H→ H, φ n = Ten , avec {en } - base orthonormale pour H.
8. Supposant une autre séquence {ψ n } en H, {ψ n } et {φ n } sont bi-orthogonales si ψ m ,φ n = δ m, n .
Un ensemble important de fonctions pour le traitement du signal est constitué par les
exponentielles harmoniques complexes {ej2πnt}. En effet, toute la théorie de Fourier est batie sur la
décomposition d'un signal dans cette base.
2.2. La représentation du signal
Une idée dominante et utile en mathématique est que les fonctions (les signaux, dans notre
contexte) peuvent être décomposées en série de fonctions atomiques élémentaires.
f = ∑ c nφn (t ) (2.17)
La théorie de la problématique des décompositions (2.17), supposent initialement le cas des

fonctions {φ n } orthogonales et, par la suite, le cas plus général de la décomposition du signal sur des
cadres ("frames" ) mathématiques.
2.2.1. La décomposition atomique [4]
Le but principal de la décomposition atomique est de représenter un signal quelconque f par

une combinaison linéaire de fonctions atomiques {φ n }. La seule contrainte imposée à l'ensemble {φ n }
est qu'il «représente » tout l'espace H et, donc, quel que soit le signal f , il pourra toujours être
exprimé comme une combinaison linéaire de {φ n }. Plus spécifiquement, l'ensemble {φ n } doit former
un cadre pour H.
Etant donné un signal f∈H et un cadre {φ n }, les séquences c = {cn ( f )} qui satisfent
l'équation (2.17) peuvent être générées par l'opérateur de représentation associé L du signal f.
L'opérateur de représentation L représente l'outil mathématique de base pour la discrétisation et il
peut être défini par :
L : H → l 2 (Z )
f a { f ,φn }
(2.18)
2.2.2. Les bases orthonormales
La problématique de la représentation d'un signal sur une base orthonormale est reductrice
pour certaines applications. Une base orthonormale n'est intéressante que grâce à l'unicité de
l'ensemble des coefficients, mais aussi du fait que les coefficients de projection quantifient
directement la contribution de chaque fonction de base sur la structure du signal. Le fait que {φ n }

forme une base orthonormale (BON) pour H implique que c=Lf représente le choix unique des
coefficients qui satisfont (2.17) pour une fonction f ∈ H donnée.
En synthèse, une séquence orthonormale des fonctions {φn } ⊆ H est une base orthonormale
pour H si pour chaque f ∈ H il existe une sequence unique {cn } ∈ H telle que la relation (2.17) soit
verifiée.
Les relations de Parseval et de Plancherel
Soit f, g ∈ H et {φ n } une base orhtonormale. On note par L(H) le domaine de L défini par :
∆
L (H ) ={Lf : f ∈ H } (2.19)
− La relation de Plancherel pour une BON de H s’exprime par :
2 2 2
f H
= ∑ f , φn = Lf L (H )
(2.20)
− La relation de Parseval pour une BON de H s’exprime par :
*
f , g = ∑ f ,φ n g ,φ n = Lf , Lg L( H ) (2.21)
La reconstruction
Etant donnée une représentation orthonormale Lf d'un signal f ∈ H, la reconstruction de f à

partir de Lf est donnée par la relation suivante:
f = L* Lf = ∑ f , φ n φ n (2.22)
Ainsi, l'opérateur de représentation de L, associé à une base orthonormale, est un opérateur

unitaire :
{φ n }− BON pour H ⇒ L* L = I H (2.23)
2.2.3. Les bases de Riesz
Une base de Riesz est une généralisation d'une base orthonormale dans le cas où les
conditions de norme unitaire et de l'orthogonalité des éléments de la base sont relaxées. En effet, la
particularité dominante d'une base de Riesz {φ n } est le fait qu'elle est liée à une base orthnormale par
un isomorphisme topologique T : H → H tel que φ n =Tun , où {un } est une BON pour H. Par
l'inversabilité de T, il existe une autre base {ψ n } pour H avec laquelle {φ n } est bi-orthogonale :
φ n ,ψ m = δ m, n . Dans ce cas, on dit que {ψ n} et la base duale de {φ n}.
Une base de Riesz est donc une base obtenue à partir d'une base orthonormale, par
l'application d'un isomorphisme topologique.
La reconstruction à partir d'une base de Riesz est établie par le théorème suivant.
Theoreme 2.1.
Si L est un opérateur de représentation et T est un isomorphisme topologique associé à une

base de Riesz {φ n } de H, alors:

∀ f ∈ H , f = TT *( ) −1 *
L ( Lf ) (2.24)
La demonstration de ce théorème fait objet d’un exercice en fin de chapitre.
2.2.4. La théorie des cadres ("frames") [5]
a. Par définition ([5]), une séquence {φn } ⊆ H est un cadre ("frame") pour H s'il existe deux
limites A,B>0 telles que
2 2 2
∀ f ∈H, A f ≤ ∑ f ,φ n ≤B f (2.25)
n∈Z
b. L'opérateur-cadre du cadre {φn } ⊆ H est une fonction S : H → H définie par Sf = ∑ f , φ n φ n

c. Un cadre est étroit ("tight") si A=B;
d. Un cadre de H est nommé exact si l'ensemble obtenu par l'élimination d'un de ces éléments reste un
cadre pour H.
La propriété de base induite de la définition (2.25) et que l'énergie de la représentation du

signal dans ce cadre est bornée par l'énergie du signal de départ pondérée par deux constantes. Dans
la section "Exercice et Problèmes" on présente quelques cadres particuliers, souvent utilisés en
traitement du signal.
La reconstruction du signal à partir d'un cadre est donnée par la relation suivante:
∑ f ,φ n (t ) φ n (t ) + R f (t )
2
f (t ) = (2.26)
A+ B n
Ce résultat est basé sur quelques propriétés des cadres [2,5], exprimées dans le théorème
suivant.
Théorème 2.2.
(a) Si {φn } ⊆ H est un cadre avec les limites A, B alors S est un isomorphisme topologique qui
{ }
admet l'inverse S-1 ; de plus, S −1φ n est aussi un cadre avec les limites B-1 et A-1 et:
∀ f ∈ H , f = ∑ f , S −1φ n φ n = ∑ f , φ n S −1φ n (2.27)

n n
{ }
(b) Soit {φn } ⊆ H , soit L : F → l2 (Z) défini par Lf = f , φ n . Si {φ n } est un cadre alors S=L* L,
où L* est l'adjoint de L. (la demonstration de ce théorème est donnée en [5])
Dans l'expression (2.26), le terme Rf(t) représente le résidu issu de la représentation

redondante du signal dans le cadre supposé. L'avantage de la représentation dans un cadre tient du fait
que l'énergie de ce terme est borné par l'énergie du signal [5] :

∞ B− A ∞
∫ R f (t ) dt ≤ ∫ f (t ) dt
2 2
(2.28)
−∞ B + A −∞
On observe clairement que l'importance de résidu est réduite lorsque B-A tend vers 0.
Néanmoins, il existe des situations où il souhaitable que ce terme soit important, puisuq'il apporte un
certain degré de redondance, propriété souhaitée dans des applications comme la classification des
signaux (voir le paragraphe sur la transformation en ondelettes supra-complète). Il s'agit alors d'un
compromis concernant le choix de A et B, qui peut être résolu par l'utilisation de la matrice de
corrélation du cadre.
Théorème 2.3.
Etant donné un cadre {φ n } pour l'espace Hilbert H , la matrice de corrélation de ce cadre R a

pour expression :
∆
R = (R m,n ) = ( φ m ,φ n ) (2.29)
(Voir [2] pour la demonstration)
Dans le cas pratique, cette matrice n'est pas inversible, ce qui contraient à définir la pseudo-
inverse. Il existe plusieurs façons de définir cette matrice. Le théorème suivant décrit une de ces
méthodes.
Théorème 2.4.
Soit R la matrice de corrélation d'un cadre (R ∈ B(H1 ,H2 ) ). Alors l'application R+ : H2 → H1

définie par
R + x = argmin y − Rx (2.30)
y∈H2
est la pseudo-inverse de R.
Dans ces conditions, il est possible de déterminer les meilleures limites du cadre qui nous
assurent, à la fois, un résidu d'énergie réduite et un degré de redondance satisfaisant. Ces valeurs sont
données par le théorème suivant.
Théorème 2.5. (Les meilleures limites d'un cadre)
Soit {φ n } un cadre pour l'espace de Hilbert H avec les meilleures limites A et B du cadre, et la
matrice de corrélation du cadre, R. Ces deux notions sont liées entre elles par les relations :
−1
A = R+ ;B= R (2.31)
(Voir également [2] pour la demonstration de ce théorème)
2.2.5. La procédure d'orthogonalisation de Gramm-Schmidt [1]
Cette procédure permet d'obtenir, à partir d'un ensemble de fonctions linéairement

indépendantes sur H, {φ n }, un ensemble orthonormal de fonctions de base, {ϕn }. L'expression de ces
fonctions orthonormales vaut:

v i (t )
ϕ i (t ) =
v i (t )
(2.32)
où les fonctions v i(t) ont pour l'expression :

v1 (t ) = φ1 (t ), vi +1 (t ) = φi +1 (t ) − ∑ ϕ k ,φ i +1 ϕ k (t )
i
(2.33)
k =1
Pour plus de détails concernant la proposition d'orthogonalisation par la méthode de Gramm-

Schmidt, voir la référence [6].
2.3. Rappel sur la théorie des matrices [7]
La justification de la nécessité de ce rappel réside dans le fait que, pour l'implémentation

discrète des méthodes qui seront présentées dans cet ouvrage il est souvent indiqué d'utiliser la forme
matricielle des opérateurs temps-fréquence et, pour une exploitation optimale, on peut envisager
l'utilisation des propriétés matricielles.
Par définition, une matrice est un tableau constitué de m lignes et n colonnes
 a11 a12 L a1n 

 
L a2 n 
A = (a ij )m×n = (aij ) =  21
a a 22
M M L  (2.34)
 
 a m1 am 2 L a mn 
où les aij sont des scalaires. Alors la transposée AT de A est la matrice dans laquelle la valeur en i,j est
aji.
Par la suite, on définit les opérations de base associées aux matrices. Soit A=(aij), B = (bij)
deux matrices m × n, c ∈ C . On définit
i) la somme de deux matrices : (A+B) = (aij+bij)
ii) le produit d'une matrice et d'un scalaire : cA = (caij)
Par ailleurs, le produit de deux matrices A=(aij)mx n et B=(bij) n x k est défini par la matrice
C=(cij)m x k :
n
c ij = ∑ a iυ bυj (2.35)
υ =1
Les propriétés de base du produit matriciel sont présentées dans le théorème suivant.
Théorème 2.6.(Propriétés du produit matriciel)
i) Le produit de matrice n'est pas commutatif.

ii) Loi associative : (AB)C = A(BC)
iii) Loi distributive : A(B+C) = AB + BC
iv) AI = IA =A (I est la matrice identité)
v) (AB)T = BT AT
La demonstration de ce théorème est laissée comme exercice aux lecteurs.

Par définition, la matrice carrée A est dite inversible, s'il existe une matrice B avec la
propriété :
AB=BA=I (2.36)
Une telle matrice B est unique. On appelle B l'inverse de A et on la note A-1.
2.3.1. Notion de déterminant
Définition (Permutation)
Soit n ∈ N
i) Une fonction bijective σ : {1,2 ,..,n} → {1,2,.., n}est appelée une permutation sur les
entiers de 1 à n.
ii) Sn décrit l'ensemble S n = {σ : σ permutatio n de {1,2,...,n}}.
iii) On décrit σ ∈ Sn par
 1 2 L n 
σ =   = (σ 1 σ 2 L σ n )
 σ (1) σ (2 ) L σ (n )
(2.37)
iv) On dit que σ est pair ou impair selon s'il existe un nombre pair ou impair de couples (i,k)
pour lesquels i>k, mais où i précède k par la transformation σ.
v) Le signe ou la parité de σ ∈ Sn est défini par
sign(σ ) = ∏ sign (σ (i ) − σ ( j )) (2.38)

1≤ i < j ≤ n
Définition (Déterminant)
Soit A=(aij)nxn une matrice carrée. Le nombre

∆
det A = ∑ sign(σ )a1σ 1 ⋅ K ⋅ a nσ n (2.39)
σ ∈S n
est appelé déterminant de A.
Les propriétés du déterminant sont presentées dans le théorème suivant.
Théorème 2.7.(Propriétés du déterminant)
Soit A une matrice carrée n x n , I la matrice identité. Alors :
i) det(A)=det(A T)
ii) det(I)=1
iii) det(a1 ,…,ak,…,al,…,an )= - det(a1 ,…,al,…,ak,…,an )
iv) det(a1 ,…,λak,,…,an )= λdet(a1 ,…,ak,…,an )
v) det(a1 ,…,a'k,+a"k,…,an )= det(a1 ,…,a'k, ,…,an )+ det(a1 ,…,a"k,…,an )
vi) Le déterminant est une fonction multiplicative, pour toutes les matrices n x n A et B on a

det(AB)=det(A)det(B) (2.40)
Définition (Mineur, Cofacteur)
Soit A une matrice carrée n x n. Mij décrit la sous-matrice carrée (n-1 x n-1) de A obtenue en
effaçant la i-ème ligne et la j-ème colonne.
i) det(Mij) est appelé mineur de l'élément aij de A.
ii) Aij = (− 1)
i+ j
det(M ij ) est appelé le cofacteur de aij.
A partir de ces notions, on peut définir la matrice adjointe de A par la transposée de la matrice
des cofacteurs des éléments aij de A, notée adjA. En [7], il est montré que l'adjointe de la matrice A
(notée également avec A* ) satisfait la propriété :
AA* =A* A=det(A)*I (2.41)
Comme corollaire à cette propriété, on peut écrire l'inverse de la matrice A selon :

1
A−1 = A*
det ( A)
(2.42)
qui existe si et seulement si detA≠0.
Une application importante de la théorie des matrices est la résolution des systèmes
d'équations linéaires [7]. Le résultat suivant est très important dans ce contexte lorsqu'il fournit une
méthode élégante pour la résolution de ce système.
Théorème 2.8. (Règle de Cramer)
Soit A une matrice n x n telle que detA≠0. Alors le système suivant Ax=b, ∀ b∈ Rn a une
unique solution donnée par x=A-1b, i. e.
det(a1 ,..., a k −1 , b , a k +1 ,...,a n )

1
xk = (2.43)
det A
2.3.2. Vecteurs et valeurs propres
Un scalaire λ est une valeur propre de A si et seulement s'il existe x≠0 :
Ax = λx; x ≠ 0 (2.44)
x est appelé vecteur propre de A de valeur propre λ. Le scalaire λ est appelé valeur propre associée à
x.
Théorème 2.9. (Le calcul de vecteurs et valeurs propres)
Soit A une matrice n x n.

i) λ est une valeur propre de A si et seulement si det(λI-A)=0.
ii) Si λ est une valeur propre de A, alors toute solution x≠0 de (λI-Ax)=0 est un vecteur propre
associé.
L'expression det(λI-A) est appelé le polynôme caractéristique de A.
Dans les application pratiques on a souvent l'intérêt d'avoir une matrice diagonale, due à
l'exploitation légère d'une telle matrice. Par définition, une matrice est diagonalisable si et seulement
s'il existe une matrice invertible P n x n telle que P-1AP soit une matrice diagonale.
Théorème 2.10. (Condition pour la diagonalisabilité)
Soit A une matrice avec les valeurs propres λ1 ,λ2 ,…,λn . S'il existe un ensemble indépendant
{x 1 ,x2,…,x n } de vecteurs propres, alors A est diagonalisable.
Si x i est un vecteur propre associé à λi, et P=(x 1 ,x 2,…,x n ), alors P est inversible et diagonalise A.
Une autre propriété importante de l'ensemble des valeurs propres d'une matrice est celle
d'indépendance des vecteurs propres associés lorsque les valeurs qui composent cet ensemble sont
distincts.
2.3.3. Matrices spéciales
Quelques matrices spéciales sont largement utilisées en traitement du signal.
1. A est dite orthogonale si AAT=ATA=I. Autrement, A est orthogonale si et seulement si les vecteurs
lignes de A sont orthonormaux.
2. A est symétrique si A=AT.
3. A est une matrice hermitienne si A=AH (H est l'opérateur hermitien : aij=a* ji). Pour les matrices
réelles la condition pour qu'elle soit hermitienne est équivalente à la symétrie de cette matrice.
Dans le cas complexe, A est hermitienne si et seulement si x HAx est réel, quel qu'en soit x -
complexe.
4. Une matrice A avec la forme suivante est dite tridiagonale :
 a1 b1 L 0 
 
b a2 O M 
A= 1
M O O b n−1 
 
0 L bn −1 a n 
5. Une matrice A est dite de Toeplitz si elle a des diagonales constantes : aij ne dépend que de (i-j).
6. Une matrice A est dite unitaire si AHA=I. Pour les matrice réelles, cette notions est équivalente à
celle d'orthonormalité. Une matrice est orthonormale si et seulement si ses colonnes sont
orthormales.
Pour plus de détails concernant la théorie des matrices, voir la référence [7].
2.3.4. Propriétés de derivation des matrices
Dans les application on est souvent confronté avec des problems d’optimisation (basés
principalement sur de methodes de gradient) ou de resolution des systèmes d’équations linéaires ou
quadratiques. Ainsi, les formules de dérivation suivantes nous permettent de faciliter les algorithmes
correspondents :

∂b T x
=b
∂x (2.45)
∂x T Ax
= 2Ax
∂x
avec l’hypothese de symmetrie de la matrice A.
2.4. Rappels sur les variables et signaux aléatoires [8]
Dans la nature, les signaux sont toujours perturbés, soit à cause de sources
environnementalles, soit à cause du facteur humain. Par conséquence, ces signaux ont un caractère
aléatoire, et, leur traitement sera plus performant lorsqu'on possèdera des informations sur la nature
de la perturbation. C'est la raison pour laquelle on présente brièvement les notions de base concernant
les signaux aléatoires; ceci permettra d'aborder toutes les applications pratiques où l'existence du bruit
doit être prise en compte.
2.4.1. Variable aléatoire réelle et rappels
Une variable aléatoire (v.a) réelle est une application X de l'espace des épreuves Ω dans R.
On appelle fonction de répartition ou de distribution de la variable aléatoire X, la fonction
d'une variable Fx ( x ) définie par :
F X ( x) = P ( X ≤ x ) (2.46)
Cette fonction possède les propriétés suivantes :

a) FX est une fonction croissante bornée et continue avec P ( X ≤ x ) continue à droite
b) P (a ≤ X ≤ b) = FX (b) - FX ( a )
c) lim FX ( x ) = 1, lim FX ( x) = 0
x→∞ x→∞
La densité de probabilité (ddp) représente la répartition des probabilités en fonction des
réalisations. Elle vérifie les propriétés suivantes :
x
• FX ( x) - FX ( −∞) =
∫f
-∞
X (u ) du (2.47)
∞
• FX ( +∞) =
∫f
-∞
X (u )du =1 (2.48)
b
• P[a ≤ X ≤ b] =
∫f
a
X (u )du = FX (b ) − FX (a ) (2.49)
Du fait de la continuité de f X ( x ) , les inégalités faisant intervenir la v.a. X peuvent être

indifféremment prises au sens strict ou au sens large. On peut enfin écrire au second ordre près :
P[x ≤ X ≤ x + dx ] = f X (x ) dx .
Moments d'une v.a.
On appelle moment d'ordre n de la variable X, la quantité E ( X n ) . On appelle moment centré
d'ordre n de X, la quantité E ( X − E( X ))  .
n
 

Par définition, la variance d'une v.a. est le moment centré d'ordre 2. On peut donner les
expressions de la variance dans le cas d'une v.a. continue.
+∞
Var ( X ) =
∫ -∞
( x − E ( X ))2 f X ( x) dx (2.50)
La quantité σ X = Var ( X ) est une caractéristique de dispersion de la v.a. X autour de sa

moyenne E(X). σ X s’appelle l'écart type de la v.a X. D'une manière générale, on dit que
X - E ( X ) est la variable centrée correspondant à X. La variance permet d'écrire la très importante
inégalité de Bienaymé Tchebycheff :
 X − E (X )  1
P ≥ t < 2 (2.51)
 σx  t
L'interprétation de cette inégalité est simple : σ X est une mesure probabiliste de la dispersion de X
autour de sa valeur moyenne E ( X ) .
1ère fonction caractéristique
On appelle fonction caractéristique (ou première fonction caractéristique) la fonction :
{ }
ϕ X ( u) = E e juX (2.52)
Cette fonction caractéristique existe toujours pour toute valeur de u. Dans le cas où X est une
v.a. continue, ϕ X ( u) est directement liée à la transformée de Fourier de f X ( x ) , notée TFX (. ) .
{ }
E e juX = TFX − 2π
u
[ ] (2.53)
Vecteurs aléatoires
A un vecteur aléatoire à n dimensions, on peut faire correspondre n variables dites marginales.

La connaissance de la fonction de distribution du vecteur entraîne la connaissance des nv.a
marginales ; en général la réciproque n'est pas vraie.
Un cas très important correspond à l'indépendance des événements. On dit que les n v.a.
x1, x2 , L xn sont indépendantes dans leur ensemble si :
f X ( x1, ... xn ) = f x1 ( x1) . f x2 ( x2 ) ... f xn (xn ) (2.54)
L'indépendance des n v.a. entraîne alors l'indépendance de x1 et de x2 .

En se limitant à l'étude de vecteurs aléatoires à deux dimensions que l'on notera ( X , Y ) , on
suppose le vecteur aléatoire ( X , Y ) continu, c'est-à-dire qu'il existe une densité de probabilité :
∂2 FXY ( x , y )
f XY ( x , y ) = (2.55)
∂x ∂y
P[ x ≤ X ≤ x + dx et y ≤ Y ≤ y + dy ] = f XY ( x , y )dxdy (2.56)
Les moments mrs se définissent par la relation suivante :
{ } ∫∫ −∞ xr y s f XY (x, y) dx dy
+∞
mrs = E X r Y s = (2.57)
Les moments les plus importants sont les moments d'ordre 1:

+∞ +∞
m10 = E{ X} =
∫−∞
x f XY ( x , y ) dx dy =
∫x f
−∞
X ( x ) dx (2.58)
+∞
m01 = E{Y} =
∫y f
−∞
Y ( y ) dy (2.59)
Il existe, ensuite trois moments d'ordre deux non centrés et trois moments centrés.
+∞ +∞ +∞
{ } ∫−∞ ∫−∞
m20 = E X 2 =
∫−∞ x2 f X (x) dx
x 2 f XY ( x , y ) dx dy = (2.60)
+∞
m02 = E {Y 2} =
∫−∞ y2 fY ( y) dy (2.61)
+∞ +∞
m11 = E{ XY} =
∫ ∫ xy f
−∞ −∞
XY (x , y ) dx dy (2.62)
L'inégalité de Schwarz lie ces trois moments.

2
m11 ≤ m02 m20 ⇔ E 2 { XY} ≤ E X 2 E Y 2 { } { } (2.63)
µ'11 = E {( X − m10 ) (Y − m01)} = m11 − m10 ⋅ m01 = E { XY} − E { X } E {Y} (2.64)

µ'11 est appelé la covariance de ( X , Y ) .
On peut remarquer l'analogie entre moments centrés d'ordre deux et produit scalaire. Les
dernières inégalités permettent alors de définir le coefficient de corrélation.
cov ( X , Y )
ρ (X ,Y) = (2.65)
σ X σY
Ce nombre comme un cosinus est compris entre +1 et -1.

Dans le cas où Y est une fonction affine de X c'est-à-dire que Y = a X + b , on montre que :
si a > 0 ρ( X , Y ) = 1
 (2.66)
si a > 0 ρ( X , Y ) = -1
Quand ρ( X , Y ) = 0 on dit que les v.a. X et Y sont non corrélées. L'indépendance est une
condition suffisante de non corrélation; ce n'est pas une condition nécessaire, on peut donc avoir :
E ( X , Y ) = E ( X ) E (Y ) sans que X et Y soient indépendantes.
Convergence vers la loi - Théorème de la limite centrale

Quand on possède n v.a. Xk de même loi discrète ou continue, indépendantes et possédant des
moments du 1er et 2 nd ordre, on montre que la v.a.
n
X (n ) =
1
n σ Xk ∑ (X
k =1
k − E ( Xk )) (2.67)
a sa fonction caractéristique qui tend vers la fonction caractéristique de la v.a. centrée normale.
Ce théorème permet de comprendre pourquoi le caractère aléatoire gaussien est le plus
répandu physiquement. En effet, souvent une grandeur aléatoire observée est la somme d'un très
grand nombre de v.a. faibles de loi quelconque mais identique.

2.4.2. Processus aléatoires
Stationnarité stricte et d'ordre 2

La stationnarité est une propriété qui traduit l'invariance d'un système par translation de
l'origine des temps. Comme une fonction aléatoire est définie par ses propriétés statistiques et donc sa
loi temporelle, la stationnarité au sens strict se traduit par les égalités :
f X ( x1, x2 , L , xn , t1, L , tn ) = f X ( x1, L , xn , t1 + t0 ,L , tn + t0 ) (2.68)
Ceci peut se traduire par :
f X ( x1, x2 , L , xn , t1, L , tn ) = f X ( x1, L xn , 0, t2 - t1,L, t n - t1) (2.69)
En particulier :
f X ( x, t ) = f X ( x , 0) = f X ( x) indépendante du temps (2.70)
f X ( x1, x2 , t1, t 2 ) = f X ( x1, x2 ,0, t2 - t1) = f X (x1, x2 , τ ) avec τ = t2 - t1 (2.71)
Dans la distribution du 2nd ordre d'un processus aléatoire stationnaire seul intervient l'écart
entre les deux instants d'observation.
La stationnarité d'ordre deux, dite encore stationnarité au sens large ou encore stationnarité
faible est la stationnarité pour les moments d'ordre 1 et 2. Elle se traduit par :
E { X (t )} = m1( t ) = m1(0) = m1, ∀ t (2.72)

E { X (t1) X (t 2 )} = m11(τ ), τ = t1 − t2 (2.72)
La stationnarité au sens large n'implique pas la stationnarité stricte. Seuls les processus
aléatoires entièrement définis par la caractérisation d'ordre deux sont obligatoirement stationnaires au
sens strict, s'ils le sont au sens large. C'est le cas en particulier pour les processus gaussiens.
Ergodicité
Pour un processus stationnaire, l'ergodicité d'une moyenne entraîne l'égalité des moyennes
correspondantes d'ensemble et temporelle. C'est-à-dire que l'on pourra écrire.
X = E { X} (2.73)
Ceci a une interprétation physique intéressante. En effet, pour accéder à la moyenne

d'ensemble, seule caractéristique de la théorie, il est possible de travailler sur une réalisation
quelconque du processus, c'est-à-dire encore qu'une réalisation quelconque est alors représentative du
processus complet pour le calcul de cette moyenne. L'ergodisme est à rapprocher de la loi des grands
nombres. En effet si x1, x2 , L xn , L est une suite infinie de v.a. de même loi et indépendantes, alors
:
1  
n
E { X } = lim
n→∞ n 
 i =1 
 ∑
Xi  = E { Xi } (2.74)
La moyenne probabilité E { X } est remplacée par la moyenne arithmétique (temporelle).

Deux ergodicités sont particulièrement intéressantes pour les processus stationnaires d'ordre
deux ; l'ergodicité de l'espérance mathématique et l'ergodicité de la covariance.

+∞ T0
∫ ∫ x(t ) dt
1
m1 = E { X ( t )} = x f X ( x , t ) dx = lim (2.75)
−∞ T0 →∞ 2 T0 − T0
+∞ +∞
et m11( t , t − τ) =
∫ ∫x x
−∞ −∞
1 2 f X ( x1, x2 , t , t − τ) dx1 dx2 (2.76)
T0
∫
1
= ΓXX ( τ) = lim x (t ) x *(t − τ) dt (2.77)
T0 →∞ 2 T0 − T0
Γ XX ( τ) est la fonction d'autocorrélation du processus x(t). Elle est un outil majeur de l'étude
des processus stationnaires d'ordre deux ergodiques. Ses propriétés sont directement liées à celle de la
fonction covariance dont elle est issue. Pour l'exploiter, on choisit en général de centrer le processus,
ce qui est particulièrement simple du fait de la stationnarité (il suffit de retrancher à x(t), m1 qui est
une constante)
Propriétés caractéristiques des processus stationnaires d'ordre deux
• La fonction d'autocorrélation est maximale en 0 : Γ X (τ ) ≤ Γ X (0) .
• La fonction d'autocorrélation est hermitienne. ΓX* ( − τ) ≤ ΓX ( τ) En particulier si x(t) est réel,
Γ X ( τ) est réelle et paire.
• En général, on a lim ΓX ( τ) = m = E { X } . Cela veut dire que pour τ assez grand, les
2 2
τ→∞
*
v.a. X(t) et X ( t - t ) tendent à être décorrélées.
• La densité spectrale de puissance est la transformée de Fourier de la fonction
d'autocorrélation :
+∞
γ X ( ν) = TF {ΓX ( τ)} =
∫−∞
ΓX ( τ) e− 2πj ντdτ (2.78)
• La densité spectrale est une fonction réelle, positive non nulle. Si X(t) est réel, γ X ( ν) est
paire. Par ailleurs, γ X ( ν) étant réelle, on en déduit que Γ X ( τ) est réelle et paire et donc :
+∞
γ X ( ν) =
∫Γ −∞
X ( τ) cos 2π ντ dτ (2.79)
Processus gaussiens
Un processus aléatoire est dit gaussien si quelle que soit la suite des instants t1, L , t n et quel
que soit n, la variable aléatoire à n dimensions ( X ( t1) - - - X ( t n) ) est gaussienne.
Nous rappelons qu'une variable aléatoire réelle de dimension n est gaussienne si sa densité de
probabilité est donnée par :
1  1 
p ( x1,L , xn ) = exp − ( X − M )t C −1 ( X − M ) (2.80)
(2 π) (det C)
n/2 1/2
 2 
où :
- X désigne le vecteur colonne de composantes : x1,L , xn ,
-M désigne le vecteur moyenne de composantes : m1 = E{X (t1)} , L , m n = E{X (t n )} ,
{
- C désigne la matrice de covariance d'éléments cij définie par : cij = E X (ti ) X (t j ) - mi m j . }
Nous notons que C est une matrice hermitienne : cij = c*ji .
Les processus aléatoires gaussiens jouent un rôle fondamental en pratique. La loi de Gauss
s'introduit en effet naturellement dans de nombreux phénomènes physiques qui se présentent
macroscopiquement comme la somme de phénomènes physiques décorrélés (théorème central limite).
Un exemple important est donné par le bruit thermique. Ce bruit provient des fluctuations dues à
l'agitation thermique des particules élémentaires de tout système physique (fluctuations de tension
aux bornes d'une résistance). Par ailleurs les calculs se simplifient très souvent grâce à l'hypothèse
gaussienne. En particulier les propriétés suivantes sont établies :
a) Un processus aléatoire gaussien est défini entièrement par la donnée des moments du
premier et du second ordre. En effet le vecteur moyenne M ainsi que la matrice de
covariance C qui interviennent dans la loi temporelle peuvent être calculés pour toutes
suites t1, L , t n à partir des fonctions mX (t) et ΓX (t1, t 2 ) . Il vient :
M t = ( mX ( t1), L , mX (t n )) (2.81)
Cij = Γ X ( ti , t j , ) - m ( ti ) m( t j ) (2.82)
b) Un processus aléatoire gaussien stationnaire au sens large est stationnaire au sens strict,
puisque la loi temporelle est complètement caractérisée par ses deux premiers moments.
D'autre part toutes les composantes du vecteur moyenne sont égales. Enfin la matrice de
covariance prend une forme très particulière appelée matrice de Toeplitz, dans laquelle les
valeurs qui interviennent dans les lignes parallèles à la diagonale principale sont égales.
c) La décorrélation entraîne l'indépendance.
d) Il est aisé de montrer que toute combinaison linéaire finie de v.a. gaussiennes
indépendantes est gaussienne. Nous admettrons la propriété fondamentale que le caractère
gaussien se conserve dans toute transformation linéaire et donc par conséquent par filtrage
linéaire.
e) Dans la modélisation des signaux aléatoires, nous rencontrons souvent de pair le caractère
blanc et le caractère gaussien. Insistons sur le fait qu'il n'y a pas d'implication entre ces
deux propriétés.
f) Enfin, énonçons, sans démonstration, un résultat pratique important sur les v.a. gaussiennes.
Soient quatre v.a. X1, X2, X3, X4, gaussiennes et centrées, nous avons alors :
E ( X i X j X k ) = 0 ∀ (i , j , k ) ∈ (1,2,3,4)
et E ( X1 X 2 X 3 X 4) = E ( X1 X2 ) E ( X 3 X 4 ) + E ( X1 X 3) E ( X 2 X 4 ) + E ( X1 X 4 ) E( X 2 X 3) .
Processus blanc
On appelle bruit blanc, un processus aléatoire b(t) dont le spectre de puissance est constant sur
toutes les fréquences.
On en déduit alors que sa fonction d'autocorrélation Γbb ( τ) est :
N
Γbb ( τ ) = TF −1 ( γ b ( ν)) = 0 δ( τ) (2.83)
2
Rapport signal/bruit
Tout signal noyé dans du bruit b(t) s'écrira classiquement sous la forme de la somme de deux
signaux :
r (t ) = s(t ) + b( t ) (2.84)
Le rapport signal à bruit permet de chiffrer si le bruit est "important" par rapport au signal ou
vice-versa.
Il peut être défini comme le rapport entre la puissance moyenne du signal sur la puissance
moyenne du bruit.
Psignal
R= (2.85)
Pbruit

2.5. Conclusions
Ce chapitre a eu comme but le rappel des principales notions mathématiques utilisées en

traitement du signal et, particulièrement, dans le domaine des représentations temps-fréquence. La
première section a été dédiée aux concepts mathématique de base, comme celles de norme, produit
scalaire, espaces etc. Après on a défini les plus utilisés espaces en traitement du signal et, les
opérations associées aux ceux-ci, en insistant sur les opérateurs unitaires.
Ensuite, on a présenté succinctement quelques rappels sur la théorie des matrices, qui
représentent, en effet, l'outil de base pour la discrétisation des outils temps-fréquence qui seront
présentés par la suite.
Finalement, on a fait un petit rappel sur la théorie des variables et signaux aléatoires. La
connaissance de ces notions est imposée par la nature des signaux réels, qui sont toujours bruités, ce
qu'en les rendre un caractère aléatoire, impossible à aborder dans un contexte 100% déterministe.
Toutes les notions introduites au cours cette première section ont été adaptées pour la
représentation du signal, d'une manière attractive de point de vue mathématique.
Les exercices et les problèmes proposés à la fin de ce chapitre ont deux buts majeurs : tout
d'abord, ils constitueront un moyen efficace pour la compréhension des notions qu'on vient de
présenter et, le second, est de donner des exemples suggestifs sur la signification physique de ces
notions.
Références
[1] A. Poularikas (Editor-in-Chief) - "The transforms and applications handbook", CRC Press & IEEE Press, ISBN
0849383420, 1996
[2] A. Theolis – “Computational Signal Processing with Wavelet ”, Birkhauser Press, Boston, 1998
[3] I. Gohberg, S. Goldberg - "Basic Operator Theory", Birkhauser Press, Boston, 1980
[4] S. Mallat – “A Wavelet Tour of signal processing”, Academic Press, 1998.
[5] R. Duffin, S. Schaeffer - "A class of nonharmonic Fourier series", Trans. Amer. Math. Soc., 72:341-366, 1952.
[6] A. Papoulis - "Signal Analysis", New York, NY. McGraw-Hill, 1977.
[7] G.H. Golub, C. Van Loan - "Matrix Computations", The John Hopkins University Press, ISBN 0-8018-5414-8, 1996
[8] M. Charbit - "Eléments de théorie du signal : les signaux aléatoires", Ellipses, 1990

EXERCISES ET PROBLEMES
1. (Norme) En utilisant les propriétés de la norme (paragraphe 2.1.1.), démontrer la loi du

parallélogramme :
x+y
2
+ x−y
2
≤2 x ( 2
+ y
2
)
2. (Théorie des opérateurs) Soit a ∈ R , f ∈ L2 ( R ) . Prouver les relations suivantes :
) ) )
a. (τ a f ) = e − a f ; b. (e a f ) = τ a f ; c. ( Da f ) = Da −1 f ;
^ ^ ^
3. (Théorie des opérateurs) Soit f , g ∈ L2 ( R )

∞
a. Ecriver la convolution ( f * g )( t ) = ∫ f ( x )g ( t − x )dx en terme de produit scalaire et l’opérateur de

−∞
translation ;
b. En utilisant la relation de Parseval et l’expression obtenue antérieurement, montrer que
)
( f * g ) ^ = f ⋅ g)
4. (Les espaces de Hilbert) Soit l’espace de Hilbert l2 (J) ; J={1,2}. Un opérateur T: l 2 ( J ) → l 2 ( J )
peut être écrit comme :
 a b
T =  ; a , b, c , d ∈ C
 c d
a. Calculer T ;
b. Trouver les conditions qui doivent être imposées sur a,b, c, d pour que :
i) T ∈ B( l 2 ( J ) , l 2 ( J ) ) ;
ii) T soit unitaire ;
iii) T=T* .
5. (Bases Orthonormales) Soit l’ensemble des fonctions exponentielles complexes { e k / N ( n)} n=0,…,
N-1 et k=0,…, N-1.
a. Quel est l’espace d’appartenance de cet ensemble ?
b. Montrer que cet ensemble est orthogonal.
c. Quel terme faudrait-il rajouté pour que l’ensemble soit orthonormal ?
d. Quelle est-elle l’utilisation la plus connue de cet ensemble ?
6. (Base orthonormales) Soit {φ }

n
N −1
n= 0
une base orthonormale pour l2 (0,1,…,N-1). Si
U: l 2 ( 0,1, ... , N − 1) → l 2 ( 0,1,... , N − 1) est un opérateur unitaire alors l’ensemble {Uφ }
n
N −1
n= 0
est
une base orthonromale pour l2 (0,1,…,N-1).
7. (Bases de Riesz) Donnez la preuve du théorème 2.1.
8. (Théorie des cadres) Prouver qu’une base orthonormale pour H est un cadre étroit et exact pour
H. Quelle est l’expression des limites du cadre dans ce cas ?
9. (Théorie des cadres) Prouver que l’union de N bases orthonormales pour H constitue un cadre
étroit et non-exact pour H.
10. (Théorie des cadres) Soit {un } une base orthonormale. Montrer que l’ensemble {an un } , où {an }
est une séquence des scalaires qui satisfaite 0 < A ≤ a 2n ≤ B < ∞ , est un cadre non-étroit et exact
pour H.
11. (Bases orthonormales) Soit une fonction φ définie selon :

1
φ ( t ) = ∫ cos(πγ / 2) ⋅ e j 2πγt dγ
−1
Prouver que :
a. {τ n φ} est une séquence orthonormale en L2 (R)
b. {τ φ} n’est pas une base orthonromale en L2(R)
n
12. (Processus d’orthogonalisation de Gramm-Smidt)
On considère le cas de transmission d'un signal MDP4 (modulation discrète de phase à quatre
états) :
 π
s k (t ) = Ah (t ) cos 2πf 0 t + ϕ 0 + (k − 1) ; k ∈ {1,2,3,4}
 2
où h(t) est la fonction porte :
1, t ∈ [0, T ]
h (t ) = 
 0, sinon
a) Déterminer la dimension minimale de la base orthonormale nécessaire pour représenter un signal
MDP4.
b) Déterminer, à partir de l'expression d'un signal MDP4 et en utilisant le processus
d’orthogonalisation de Gramm-Smidt, la forme des fonctions qui compose la base orthonormale
de dimension minimale.
13. (Théorie des matrices) Donner la demonstration pour le théorème 2.6.
14. (Théorie des matrices) Soit A=(aij)n x n une matrice symétrique avec les valeurs propres distinctes
(λ1 ,λ2 ,… λn ). Soit Q une matrice orthogonale qui diagonalise A. Alors le changement de
n n
coordonnées x=Qy transforme ∑ aij xi x j en ∑ λi y i .
2
i , j =1 i =1
15. (Théorie des matrices) Considérons l'équation

1
2 x12 + 4 x1 x 2 + 5 x 22 + 4 x1 + 13 x 2 − =0
4
 x1 
a) En mettant x =   trouvez les matrices A et B telles que
 2
x
1
xT Ax + bT x − =0
4
b) Déterminer les valeurs et les vecteurs propres de A.
c) Donner l'expression de la matrice Q qui diagonalise A.
d) Que obtient-on par la transformation des coordonnées y=Qx? Représentation graphique

16. (Théorie des matrices) On considère la transformée de Fourier discrète (TFD) d'une séquence x(n)
donner par l'expression suivante :
2π kn
∆ N −1 −j
X [k ] = ∑ x(n )e N ;k = 0,..., N − 1
n =0
a) Ecrire cette expression sous forme matricielle X=Fx.
b) Calculer les matrices J=F*F=F2 et K=F*F*F*F=F 4 .
c) Compte tenu de ces résultats, calculez les valeurs propres de F. Quelle observation peut-on faire
sur la structure de l'ensembles des vecteurs propres de F?
17. (Variable aléatoires - exemples de densités de probabilité - d.d.p.)
a) Dans le cas continu, une v.a. est dite à d.d.p uniforme si sa d.d.p f X ( x ) est constante dans
l'intervalle [ a , b] . On en déduit :
 1
 b−a a≤x≤b

f X ( x) = 
 0 ailleurs


Calculer E[X], Var[X], σX pour cette distribution.
b) La v.a. X est une variable continue suivant une loi de Gauss si:
( x− m)2
1 −
f X ( x) = e 2σ2
2 πσ 2
Calculer E[X], Var[X], σX pour cette distribution.
18. (Variables aléatoires) Supposons X ~ N (0 ,1) (X est une variable aléatoires de loi gaussienne
centrée et de variance unité). Trouver la densité de probabilité f Y(y) de la variable aléatoire Y=g(X)
si :
(a) g (x ) = x ; (b) g ( x ) = e − x u (x )
19. (Stationnarité au second ordre) On considère le signal aléatoire x (t ) = a ⋅ cos (ωt + ϕ ) où a est
une variable aléatoire de moyenne ma , de variance σ 2 a , ω est une constante et ϕ est une variable
aléatoire uniformément répartie sur [0,2π] et supposée indépendant de a.
a) Calculer la valeur moyenne de x(t).
b) Calculer la fonction d'autocorrélation γ xx (t , t − τ ) de x(t). x(t) est-il stationnaire au sens large ?
20. (Stationnarité et ergodicité d'un processus aléatoire) On considère le signal aléatoire

x (t ) = a ⋅ cos (ωt + ϕ ) où a et ω sont des constantes et ϕ est une variable aléatoire de fonction
[ ]
caractéristique φ (u ) = E e jϕu .
a) Montrer que x(t) est stationnaire au sens large si et seulement si φ(1)=0 et φ(2)=0.
b) On suppose dans ce qui suite que et ϕ est une variable aléatoire uniformément répartie sur [0,2π]
i. Montrer que x(t) est stationnaire au sens large.
ii. Déterminer la loi de probabilité de x(t).
iii. Calculer la fonction d'autocorrelation de x(t).
iv. x(t) est-il ergodique relativement à la fonction d'autocorrelation

3. Généralités sur les signaux non-stationnaires
3
GENERALITES SUR LES SIGNAUX NON-STATIONNAIRES
3.1. Méthodes de base pour le traitement des signaux stationnaires
Lorsqu’il s’agit de traiter des signaux stationnaires, les outils disponibles sont en fait
nombreux et de nature assez disparate. Ceci est dû à la multiplicité des types de signaux
susceptibles d’exister dans la nature. Chaque outil est le plus souvent adapté à une situation et est
introduit de manière ad hoc. Cette disparité rend difficile la mise en œuvre et les comparaisons
entre les approches. La difficulté est accrue par le fait que les buts poursuivis peuvent être
relativement différents.
Sans prétendre couvrir tous les cas, il peut être utile de distinguer deux grandes familles
d’outils :
1) les outils de représentation qui permettent de comprendre la structure d’un signal, de la

relier à des paramètres physiques, d’ajouter de l’information à l’a priori que l’on peut avoir,
ou de valider cet a priori ;
2) les outils de décision qui permettent d’agir (par exemple sur un processus) d’après
l’observation d’un signal représentatif d’une grandeur physique ou de l’état d’un système.
Il est clair que ces deux points de vue sont complémentaires : une meilleure représentation
d’un phénomène pouvant, par exemple, servir à mieux choisir les descripteurs sur lesquels se
basera une décision.
Plutôt que de présenter une classification exhaustive de ces méthodes (se reporter à [11],
[12]), on choisira ici de rappeler les principales structures. On présente tout d'abord les outils de
représentation temporelle et fréquentielle, et, par la suite, on s'appuyera sur les méthodes d'analyse
spectrale.
3.1.1. Les structures temporelles et fréquentielles
Comme affirmé dans le chapitre précédent, un signal peut être vu comme une fonction du
temps. La représentation graphique de cette fonction donne toute l'information nécessaire pour
l'analyse et l'exploitation de celle-ci. Cette représentation graphique est similaire à la
représentation temporelle du signal : toute l'information portée par le signal pourrait être récupérée
grâce à une représentation temporelles. Par exemple, un signal numérique MDA-NRZ (modulation
numérique d'amplitude - non-retour à zéro) a la représentation temporelle suivante :
U Message :
Amplitude
10110001
Temps
-U
Figure 3.1. Représentation temporelle d'un signal
Néanmoins, il y a un grande nombre de raisons (le bruit existant dans les canaux, la
récupération du signal dont on est intéressé dans le mélange des signaux environnementaux, etc)
pour lesquelles ces structures ne sont utilisées que dans la phase finale d'un processus de traitement
du signal, notamment dans celle de l'exploitation de l'information portée par le signal de base. Par
conséquent, la représentation temporelle n'est utilisée qu’en la combinant avec les structures
fréquentielles, basées sur la transformée de Fourier (expression 2.3.). Malheureusement, si la
transformée de Fourier continue (TFC) n'a pas en soi d'inconvénient particulier, les versions qui
doivent être utilisées dans la réalité conduisent parfois à de grandes difficultés (surtout quand il s'agit
d'un système numérique de traitement, ce qu'il en est de plus en plus le cas). Deux contraintes
empêchent l'utilisation de la TFC classique [3]: l'échantillonnage du signal et la limitation de sa
durée. La solution consiste en l'utilisation des approches discrètes et, par la suite, on s'appuiera sur les
méthodes d'analyse spectrale qui représentent l’une des techniques les plus courantes de traitement
des signaux.
3.1.2. Eléments d'analyse spectrale [4]
L’analyse spectrale expérimentale est un outil d’investigation irremplaçable dans de

nombreux domaines. Les instruments de mesure autonomes effectuant cette opération sont appelés
analyseurs de spectres. Les techniques usuelles d’analyse spectrale se rattachent à deux classes
principales :
• les techniques directes (filtrage sélectif, méthode du périodogramme);
• les méthodes indirectes (méthodes du corrélogramme, méthodes paramétriques, ...).
L’analyse spectrale expérimentale diffère du modèle théorique pour la raison principale que
l’observation du signal n’est faite que pendant une durée limitée (nombre fini d’échantillons dans le
cas numérique). Ceci nous contraint alors à définir la notion d’estimateur. En effet cette densité,
définie par transformation de Fourier de la fonction d’autocorrélation devra en pratique être calculée
à partir d’observations à durée limitée.
Ø Principes de base, propriétés des estimateurs

Soit a un paramètre caractérisant un processus stochastique et â une estimation fondée sur la
connaissance de N observations x(i).
a$ = F ( x ( 0)... x ( N - 1)) (3.1)
On définit alors :
- le biais d’un estimateur par la quantité
B = a - E ( a$ ) (3.2)
- la variance par la quantité
var[ a$ ] = E {[a$ − E (a$)] }
2
(3.3)
Une faible variance indique une faible dispersion des estimations autour de E(â). Un
estimateur converge lorsque le biais et la variance tendent vers zéro si le nombre d’observations N
tend vers l’infini (caractéristiques asymptotiques de l’estimateur). Par exemple, la fonction
d’autocorrélation admet classiquement deux estimées :
N − k −1
Γ$ 0( k ) =
∑x
1
a) N (i) x N (i + k ) , k < N −1 (3.4)
N−k
i =0
Il est évident que cet estimateur est sans biais et on montre de plus qu’il est asymptotiquement
à variance nulle.
1 N − k −1
b) Γ$ 1 ( k ) = ∑ x (i) x N (i + k ) , k < N − 1
N i= 0 N
(3.5)
N−k $
soit : Γ$ 1 ( k ) = Γ0 ( k ) (3.6)
N

 k
d’où : E ( Γ$ 1 ( k )) =  1 −  Γ ( k ) (3.7)
 N
Cet estimateur présente donc un biais, qui décroît lorsque N → ∞ .
Lorsque k << N les estimateurs sont équivalents, par contre lorsque k se rapproche de N le
premier estimateur voit sa variance croître considérablement.
Le second estimateur présente donc moins de risque, ce qui peut paraître paradoxal.
Ø Estimation de la densité spectrale de puissance (DSP)

a) Le périodogramme
∧
Choisissons pour estimateur de la D.S.P. la transformée de Fourier de Γ1( k ) soit :
N −1
γ$ (v ) = ∑ Γ$ (k) ⋅ e
k = ( N −1)
1
−2π jkv
(3.8)
On démontre alors que :

N −1
γ$ (v ) =
1
N
2
X N (v ) avec X N ( v) = ∑x
k= 0
N (k ) e
−2πjkv
(3.9)
Cet estimateur (simple, encore appelé périodogramme) peut être calculé directement en
élevant au carré la T.F. de la séquence observée que l’on peut calculer par des algorithmes de T.F.R.,
ce qui montre tout l’intérêt de cette approche.
En réalité cet estimateur est bien décevant car biaisé et la variance de l’erreur spectrale ne
décroît pas avec la durée d’observation N. Quelle que soit cette durée, la variance de cet estimateur
reste proportionnelle au carré du spectre cherché.
b) L’estimateur moyenné
En divisant l’horizon N en K segments de longueur M, on définit les séquences élémentaires

x (M
i)
( k ) par :
x (M
i)
( k ) = x M (iM + k ) ,0 ≤ i ≤ K − 1 , 0 ≤ k ≤ M − 1 (3.10)
On peut alors construire pour chacune des séquences élémentaires une estimation de la D.S.P.,
soit :
γ$ (i ) (v ) =
1 (i) 2
X ( v) où X (Mi) ( v) =
M M ∑x (i )
M (k )e
−2 πjkv (3.11)
et on effectue la moyenne :
K −1
∧
γ m (v ) =
1
K ∑ γ$
i =0
(i)
( v) (3.12)
En supposant que les échantillons successifs x (M

i)
(k) ne sont pas corrélés (c’est à dire que M
est supérieur à la mémoire du processus générateur) on constate toujours la présence d’un biais,
correspondant à l’application d’une fenêtre triangulaire fictive sur la fonction d’autocorrélation,
tandis que la variance est divisée par K. Toutefois, du fait de la fenêtre triangulaire, nous avons
N
dégradé la résolution fréquentielle d’un rapport K = , ce qui montre, pour N fixé, le compromis
M
résolution-variance qu’il s’agit d’affronter.

c) L’estimateur modifié (estimateur de Welch)
On reprend la procédure précédente, en appliquant cette fois une fenêtre de pondération (autre
que rectangulaire) sur les données de longueur M. Les nouvelles sections s’écrivent :
x (M
i)
( k ). w M ( k ) = x(wi) ( k ) (3.13)
2
K −1 (i )
∧
∑
1 X w (v )
et l’on calcule : γ w ( υ) = (3.14)
K M
i= 0
On comprend l’intérêt d’un tel estimateur, car s’il ne réduit ni la variance, ni le biais, par
rapport à l’estimateur moyenné et même s’il détériore la résolution il peut réduire, selon la fenêtre
choisie, les effets de lobes secondaires générés par une D.S.P. présentant une dynamique importante.
∧
La formule d’estimation γ w (v ) doit être corrigée, car, par l’application de la fenêtre w M ( k ) ,
nous avons modifié la puissance moyenne de la tranche x (M i)
( k ) . Il convient d’appliquer un terme
M −1
correcteur égal à
1
M ∑w
k =0
2
M ( k ). D’où l’estimateur modifié, tenant compte du facteur de puissance :
2
∧ X w(i) ( v)
∑
M 1
γ w (v ) = M −1 (3.15)
K
∑w
M
2
M (k )
k =0
On notera que ce filtrage introduit une perte en résolution fréquentielle d’autant plus
importante que K est grand, ce qui nous ramène au compromis variance-résolution cité précédemment
Une variante de la procédure de Welch consiste à faire se recouvrir les tranches successives.
Les tranches ne sont évidemment plus non corrélées (même lorsqu’il s’agit d’un bruit blanc) et le
gain espéré en variance n’est plus de 2K pour un recouvrement de 50%.
d) Le corrélogramme
Cette méthode consiste à estimer l’autocorrélation sur un horizon {− M ,+ M } puis à en

prendre la transformée de Fourier. Soit :
N − 1− k
∧
Γ M[k ] =
1
N ∑
x[i ]x[i + k ] , 0 ≤ k ≤ M
i =0
(3.16)
M
γ$ M (v ) = ∑ Γ$
−M
M [k ]e −2π jkv (3.17)
M kn
∑
−2π j
ou bien, par TFD : γ$ M [ n] = Γ$ M [ k ]e 2 M +1 (3.18)
−M
La différence par rapport au périodogramme provient du fait que l’on choisit M<<N
(typiquement M<N/10).

∧
Cela revient à dire que l’on ne conserve, dans la séquence Γ M [ k ] , que les points qui sont
∧
raisonnablement bien moyennés. On détériore ainsi la résolution spectrale de l’estimateur γ M (v )
∧
(effet de la fenêtre implicite d’horizon [ − M ,+ M ] sur Γ M ), tandis que l’on améliore la variance par
rapport au périodogramme.
∧
L’application d’une fenêtre supplémentaire adéquate sur Γ M [ k ] est souhaitable tant pour
éviter les effets des lobes latéraux de la fenêtre implicite évoquée précédemment que pour garantir le
∧
caractère positif de γ M (v ).
Ø L’analyse spectrale paramétrique

Le but de ces méthodes développées est de s’affranchir du calcul de la transformée de Fourier
de la fonction d’autocorrélation qui par définition estime la densité spectrale de puissance d’un signal.
Cette contrainte impose une forte limite en résolution fréquentielle qui devient gênante lorsqu’il est
nécessaire d’analyser des signaux de courte durée.
a) Le modèle ARMA pour les processus aléatoires
Soit un système linéaire, invariant, stable, décrit par une transmittance rationnelle en z:
α 0 + α1 z −1+...+αmz − m
A( z) = (3.19)
1 + β1 z − 1...+βnz − n
et dont l’entrée est constituée par une séquence de nombre non corrélés (c’est à dire un bruit blanc
discret) de variance σ2.
b(k) x(k)
A(z)
On sait alors que : γ ( x) ( z) = A( z) A( z −1) σ2 (3.20)

2
α 0 + α1 e −2πjv ...+ αme− 2πjmv
et : γ ( x) ( v) = γ x ( z ) z = e2 πjv = σ2 (3.21)
−2πjnv − 2πjmv
1 + β1e ...+ βne
On peut comprendre ce filtrage comme un modèle générateur de signaux aléatoires dont la
densité spectrale en z est rationnelle. Ce processus peut être décrit par l’équation aux différences :
x ( k ) = −β1x ( k − 1)....−βn x( k − n) + α 0b( k )...+αmb( k − m) (3.22)
qui admet deux simplifications lorsque :
• βi = 0 ∀ i alors x( k ) = α 0b( k )...+αmb( k − m) (3.23)
Ce modèle, dit tous zéros, est noté M.A. (Moving Average) et correspond à un filtrage (filtre
RIF ou transverse) d’un bruit blanc.
• αi = 0∀i > 0 alors x( k ) = −β1x ( k − 1)...−βn x( k − n) + α 0b( k ) (3.24)

Ce modèle, dit tous pôles, est noté A.R. (Auto Régressif). L’équation générale décrit alors un
processus appelé ARMA. Toutefois, le modèle AR est le plus important d’un point de vue pratique
car il indique comment un signal à l’instant k dépend de manière linéaire d’un passé fini, plus un
terme entièrement nouveau, non corrélé avec le passé et souvent appelé innovation.
L’équation de Yule Walker s’écrit :
n
Γx ( p) = − ∑ β Γ ( p − i) , pour p>0
1
i x (3.25)
On vérifie aisément que pour p = 0 on obtient :

n
Γx ( 0) = − ∑ β Γ ( −i ) + σ
1
i x
2
(3.26)
L’équation indique qu’à partir d’un rang supérieur à l’ordre du numérateur du modèle ARMA,
il existe une récurrence sur les termes de la séquence d’autocorrélation. Cette récurrence est définie
par les seuls coefficients du dénominateur.
b) L’estimation des paramètres du modèle AR
Un tel signal est décrit par l’équation :
n
x (k ) = ∑ −βi x(k − i) + b(k )
i =1
(3.27)
où b(k) est un bruit blanc de variance σ . 2

Sous forme matricielle, l’équation de Yule Walker s’écrit :
Γ( 0) Γ( −1) L Γ( −n)  1  σ2 

 Γ(1) Γ (0) K Γ (− (n − 1))  −β   
   1  = 0  (3.28)
 M M O M  M  M 
    
Γ(n) K K Γ(0)  −βn  0 
1   2 
σ
soit : []
Γ . β =  
  0 
(3.29)
   
[]
La matrice Γ est symétrique et a une structure de Toeplitz (voir la section 2.4.).
En supposant les n+1 valeurs de Γ intervenant dans cette matrice connues à l’avance, alors la
détermination les modèles inconnus du modèle AR, (c’est à dire les βi et σ2 ) ne pose pas de
difficultés.
Une solution récursive particulièrement efficace donnée à ce problème est connue sous le nom
d’algorithme de Levinson-Durbin. Outre son efficacité, cet algorithme permet de déterminer l’ordre
adéquat du modèle AR, ce qui est bien utile lorsque celui-ci n’est pas connu a priori.
Il convient de remarquer que pour identifier un modèle AR d’ordre 10 il est nécessaire et
suffisant de connaître les 11 valeurs successives de l’autocorrélation soit { Γx ( 0), Γx (1) L Γx (10) } .
Le modèle AR ainsi identifié fournit ensuite une estimation de la DSP dans laquelle le compromis
variance-résolution ne se pose plus... tandis que l’estimation directe de la DSP par transformation de
Fourier des données { Γx ( 0), Γx (1) L Γx (10) } conduirait à une bien médiocre résolution.
En réalité on ne dispose pas des Γ x (i ) a priori et nous devons les estimer par les estimateurs
décrits au § 2, ce qui suppose l’acquisition d’un nombre d’observations bien plus grand que l’ordre du
modèle AR.
L’algorithme de Levinson met en évidence le fait que l’erreur de prédiction est une fonction
non croissante de l’ordre qui ne possède pas à proprement parler de minimum absolu permettant de
sélectionner un ordre optimal qui serait associé à la plus petite erreur de tous les modèles possibles.
Un choix courant est le critère dit FPE (Final Prediction Error) d’Akaike qui s’écrit :
N+p 2 2p
FPE ( p) = σ ( p) = σ2 ( p) + (3.30)
N−p N−p
AIC ( p) = NLnσ2( p) + 2 p (3.31)
On vérifie d’ailleurs que les deux critères tendent à être équivalents pour de grandes tailles
d’échantillons puisque l’on obtient alors :
AIC ( p) = N ⋅ Ln( FPE ( p)) (3.32)
En fait, si le processus analysé n’est pas strictement AR, il est formellement représentable par
un modèle AR d’ordre infini et le minimum de la puissance d’erreur est rejeté à l’infini. Il en est de
même si l’identification est conduite à partir d’estimées des valeurs de la corrélation, ce qui est
pratiquement toujours le cas. Dans ce dernier cas, lorsqu’on travaille sur une séquence d’échantillons
de taille finie N, on est en fait confronté à un compromis biais-variance. En effet, plus l’ordre
augmente, plus la puissance d’erreur diminue et plus la fréquence prédite se rapproche de la
réalisation observée (diminution du biais). Cependant, augmenter l’ordre du modèle conduit dans le
même temps à utiliser des valeurs de la fonction de corrélation pour des retards de plus en plus
grands, et donc de moins en moins bien estimées puisqu’elles le sont sur de moins en moins
d’échantillons (augmentation de la variance).
c) Modélisation moyenne mobile MA
Dans ce cas, la densité spectrale est représentée uniquement par des zéros :
M
x (k ) = ∑ b( j)e(k − j)
j= 0
(3.33)
où e(k) est un bruit blanc discret de variance σ2 , de moyenne nulle.

γ x ( z ) = σ2 B( z) B( z− 1) (3.34)
M
où : B( z ) = ∑ b( j)z
j =0
−j
(3.35)
Les coefficients b(i) sont reliés aux corrélations par une relation de convolution non linéaire
difficile à résoudre. En effet :
∧
Γx ( k ) = E {x (i ) x ( k + i )} (3.36)
M −k
∧ 
Γx ( k ) = 
j= 0
∑
b ( j )b ( k + j ) , k = 0, L , M
(3.37)

0 , k > M
Pour calculer les b(j), il suffit alors de connaître une estimée de Γx ( k ) pour k = 0,L , M .
Néanmoins, dans le cas, où l’on ne s’intéresse qu’au spectre, il est inutile de faire le calcul,
puisque la transformation de Fourier de la fonction d’autocorrélation nous donne directement ce
spectre.
Par contre, si l’on cherche la valeur des coefficients b(i), le problème est plus complexe.

Une solution consiste à rechercher une modélisation autorégressive d’ordre très élevé et
ensuite à calculer le filtre inverse (donc un modèle MA) qui minimise l’erreur quadratique due à
l’ordre fini du filtre.
Un modèle MA est en fait un modèle AR d’ordre infini. En effet un zéro de la densité
spectrale peut toujours être approché par une série de pôles. Ceci provient de l’identité.
∞
a (m) + ∑ b(i )a(m − i) = δ(m)
k =1
(3.38)
Comme le nombre de coefficients b(i) est en réalité fini, il s’ensuit une erreur dans la
modélisation. On a donc :
M
a p ( m) +∑ b(i)a (m − i) = e(m)
i=1
p (3.39)
Il s’agit alors de minimiser E {e (m)} . Le problème revient formellement à résoudre les

2
équations de Yule-Walker en remplaçant les x(i) par les a(i).

Pour calculer les valeurs b(i), on applique donc deux fois l’algorithme de Levinson, d’abord
sur les données x(i), ensuite sur les coefficients a(i) obtenus par la première modélisation.
Ø Autres méthodes d’analyse spectrale

Il existe de nombreuses autres méthodes d’analyse spectrale dites paramétriques qui de par
leurs hyothèses ne reposent pas sur la modélisation du signal.
Certaines méthodes font une hypothèse de type raies spectrales plus bruit pour l’observation
(Pisarenko, goniomètre ou MUSIC, décomposition en valeurs propres ou singulières, ...). La méthode
de Prony est une extension de cette idée à un cas non-stationnaire : des sinusoïdes amorties dans un
bruit additif. A la frontière entre paramétrique et non paramétrique se trouve la méthode de Capon,
parfois faussement appelée méthode du maximum de vraisemblance. Fondée sur un filtrage sélectif
en fréquence du signal, elle s’interprète comme la succession d’une transformation de Fourier, d’une
quadration et d’un moyennage. Son pouvoir de résolution dépend du rapport signal sur bruit :
similaire à celui des méthodes de Fourier lorsqu’il est faible, on retrouve les performances du
goniomètre à fort rapport signal sur bruit.
La qualité d’une analyse spectrale ne peut être mesurée que pour une application spécifique.
Une conséquence fondamentale est qu’il n’y a pas d’estimateur spectral optimal. L’optimalité dépend
de l’application particulière considérée ainsi que de l’information a priori donnée sur la forme du
spectre.
3.2. Le concept de signal non-stationnaire
3.2.1. Définition de la non-stationnarité
Un signal non-stationnaire se définit par opposition à un signal stationnaire pour lequel toutes
ses propriétés statistiques sont invariantes au cours de temps. Dans le contexte déterministe, on
appelle signal non-stationnaire un signal dont le contenu fréquentiel change dans le temps. Il suffit
qu'une seule propriété statistique ou un seul composant fréquentiel soit variable dans le temps pour
que l'on puisse parler de signal non-stationnaire. Si, par exemple, dans un signal il y a une dérive
d'une fréquence au cours du temps ou un saut de moyenne temporelle, alors il s'agit d'un signal non-
stationnaire.
Plus rigoureusement, un signal déterministe est stationnaire s'il peut être écrit comme une
somme discrète de sinusoïdes :

x (t ) = ∑ Ak cos (2πυk t + φ k ) pour un signal réel

k∈ N
(3.40)
x (t ) = ∑ Ak exp [ j(2πυk t + φ k )] pour un signal complexe
k∈ N
Pour un signal mono-composante, une condition qu'il soit stationnaire est que sa fréquence
instantanée (notion qui sera introduite par la suite) et l'amplitude instantanée soient invariante en
temps.
Dans le cas aléatoire, un signal aléatoire peut être défini par la méthode présentée dans la
section 2.4.2.
La classe des signaux non stationnaires comprend une grande variété de signaux. Le
paragraphe suivant vous en présente quelques exemples.
§ Les signaux transitoires, i.e., lorsqu'on est pas encore parvenu à un régime permanent (par ex.
dans une voiture, phase d'accélération avant d'atteindre une vitesse stable),
§ Les signaux de rupture, i.e., les modifications brutales et intempestives d'amplitude (par ex. :
dans une voiture, panne de moteur, coup de frein brutal).
Par ailleurs, toutes les modulations d'un signal représentent des signaux non-stationnaires, car,
dans ce cas, un des paramètres est variable au cours du temps. La figure suivante illustre l'exemple
d'une modulation discrète en fréquence (MDF) et d'un "bump" gaussien.
Figure 3.2. Signaux non-stationnaires : MDF et une gaussienne
D’autre exemples sont disponibles dans [5].
3.2.2. Mesures de non-stationnarité
Ayant un signal non-stationnaire, au moins deux questions intéressantes se posent : quelle est
la nature des non-stationnarités contenues dans ce signal ? Et quel est le moyen de quantifier ces non-
stationnarités? Une mesure de non-stationnarité devrait permettre de répondre à ces questions,
d'autant plus qu'une mesure correcte permettra une classification des différents types de non-
stationnarités.
Les mesures existantes nous renseignent, d'une manière assez "vague", sur quelques types de
non-stationnarités. Elles ne donnent pas une bonne quantification des différentes non-stationnarités.
A. Degré de non-stationnarité
Plaçons nous dans le cadre du filtrage adaptatif, dans un contexte non-stationnaire, et

considérons le modèle linéaire suivant [4] :
 y (t ) = ϕ T (t )θ (t ) + v (t )
 (3.41)
 θ (t ) = θ (t − 1) + w(t )

avec R1 (t)=cov(v(t)) et R2 (t)=cov(w(t)) et où y(t) est le signal étudié, v(t) un bruit blanc, w(t) un bruit
blanc gaussien, θ(t) est le vecteur des paramètres et ϕ(t) est le vecteur d'observation.
Si on suppose que le vrai vecteur des paramètres est θ* , l'erreur à l'instant t est donnée par :
( )
e(t ) = y(t ) − yˆ (t ) = ϕ T (t )θ * + v(t ) − ϕ T (t )θ (t ) =
( )
= ϕ T (t ) θ * − θ (t ) + v (t ) (3.42)
e(t ) = b(t ) + v (t )
donc le bruit de sortie e(t)à l'instant t est égal à la somme du bruit de variation du modèle b(t) et de
celui d'observation v(t). Ceci nous mène à définir un degré de non-stationnarité qui est fonction du
temps : la vitesse de non-stationnarité s'apprécie en comparant à 1 le degré de non-stationnarité :
Pb (t )
d (t ) =
Pv (t )
(3.43)
Les variations lentes sont celles pour lesquelles, en permanence, d(t)<<1.(Pb (t) est la
puissance de p et Pv(t) puissance de v).
La relation (3.43) met en évidence la relativité des non-stationnarités, c'est-à-dire que ces non-
stationnarités ne sont pas lentes ou rapides dans l'absolu, mais seulement par rapport au bruit v(t) qui
entâche la mesure de la sortie du modèle.
Pour exemplifier ce principe qui vient d’être présenté, on suppose un signal généré à partir
d'un modèle d'ordre 4, simulant deux résonances. Celles-ci subissent des changements brusques au
cours de temps.
Figure 3.3. Signal non-stationnaire généré à partir d'un modèle d'ordre 4
Sur la figure suivante, on présente le degré de non-stationnarité (3.43), calculé en utilisant un

filtre de Kalman, ainsi que le bruit de variation b(t).
a. Le degré de non-stationnarité b. Le bruit de variation b(t)

Figure 3.4. Le degré de non-stationnarité et le bruit de variation
Même si le bruit de variation b(t) est partout faible, sauf aux environs du premier changement,
nous remarquons que le degré de non-stationnarité (figure 3.4.a) reste inférieur à 1, malgré les deux
changements brusques qui interviennent aux échantillons numéros 300 et 600. Ceci explique les
capacités modestes que possède ce test de non-stationnarité.

B. Test de corrélation
Le principe de cette mesure que nous introduisons est basé sur la comparaison, à l'instant
courant, du vecteur de paramètre du modèle AR à l'instant présent avec celui de l'instant passé. Cette
comparaison est faite à l'aide de la mesure du coefficient d'intercorrélation entre le vecteur de
paramètres du modèle AR à deux instants successifs. Pour mieux quantifier le moindre changement
des coefficients du modèle AR, nous nous intéressons au calcul du déterminant de la matrice
d'intercorrélation. Cette matrice est formée des coefficients d'intercorrélation entre le vecteur de
paramètres du modèle AR à deux instants successifs.
Pour comparer deux vecteurs de n données réelles, u(t) et v(t), on considère le scalaire a qui
minimise la fonction coût suivante :
V (t ) = ∑ [v (n ) − au(n )]
t
2
(3.44)
n=1
En annulant la dérivée de V(t) par rapport à a, on obtient :
∑ u (n)v (n )
t
n =1
a= (3.45)
t
∑ [u(n )]
2
n =1
Le minimum Vmin (t) de la fonction de coût s'écrit alors :
[ 2
]
Vmin (t ) = 1 − cuv (t ) ∑ [v(n )]
n=1
t
2
(3.46)
∑ u (n )v(n )
t
avec c uv (t ) = n=1
(3.47). La quantité cuv(t) est appelée le coefficient
t t
∑ [u (n)] ∑ [v(n )]
2 2
n=1 n=1
d'intercorrélation et il mesure le degré de similitude entre les deux vecteurs de données.
Il est clair, en raison des relations (3.45) et (3.47), que le coefficient d'intercorrélation est tel
que cuv (t ) ≤ 1 . Il est dit normalisé.
Lors de la recherche d'un modèle adaptatif en contexte non-stationnaire, le modèle change au
cours de temps. Pour le cas d'un modèle AR, et pour se forger une idée sur le degré de variation du
modèle entre deux instants successifs, nous calculons le coefficient d'intercorrélation normalisé, à
l'instant t entre les vecteurs de paramètres du modèle AR aux instants t et t-1. Si le modèle reste
inchangé entre ces deux instants, la valeur absolue de l'intercorrélation des deux vecteurs de
paramètres du modèle vaut 1; dans le cas contraire, cette valeur absolue est inférieure à 1. Ensuite,
nous formons la matrice contenant les quatre coefficients cuu (t), cuv(t), cvu(t) et cvv(t) sous la forme
suivante :
 c (t ) c uv (t )
C (t ) =  uu 
 cvu (t ) cvv (t )
(3.48)
Cette matrice contient des informations d'autocorrélation de chacun des deux vecteurs ainsi
que l'intercorrélation entre ces vecteurs à l'instant courant t. Si rien ne change au cours de temps, le
déterminant de cette matrice est nul puisque les deux vecteurs u(t) et v(t) sont identiques. Le moindre
changement entre u(t) et v(t) se traduit par une intercorrélation différente de 1, en valeur absolue, et,
donc, ce changement se répercute sur la valeur de ce déterminant.
Pour justifier cette méthode, nous sommes partis du fait que pour un modèle AR, le vecteur
des paramètres représente les coefficients du filtre dont la réponse impulsionnelle est caractérisée par
ce vecteur des paramètres; et que deux vecteurs identiques donneront les mêmes réponses
impulsionnelles.
Sur la figure suivante on présente la valeur, au cours de temps, du déterminant de la matrice C

pour le signal donnée sur la figure 3.3. Nous pouvons bien distinguer les deux pics dans le voisinage
des échantillons 300 et 600.
Figure 3.5. Valeur de det(C) pour chaque échantillon
Comparée au test du degré de non-stationnarité, pour le même signal et en utilisant le même

algorithme adaptatif et les mêmes conditions d'expérimentation, cette méthode se révèle plus apte à
détecter et à localiser ce type de non-stationnarités.
C. Fréquence instantanée
La notion de stationnarité est bien définie pour les processus aléatoires. Dans le cas des
signaux certains, une notion apparentée existe, qui est en fait liée à une idée de régime permanent et
de stabilité d'une fréquence au cous du temps. Sa définition nécessite de recourir au concept de signal
analytique qui s'appuie lui-même sur une transformation spécifique : la transformation de Hilbert. Par
définition, celle-ci est donnée par la formule :
1 ∞ x (u )
H {x(t )} = vp ∫ du (3.49)
π −∞ t − u
où l'intégrale doit être prise au sens de la valeur principale de Cauchy.
1
La réponse impulsionnelle d'un filtre de Hilbert est la fonction , d'où on déduit que son
πt
gain complexe vaut -j*sgn(v). Le résultat en est qu'un signal monochromatique cos(2πν 0t) voit son
spectre [δ (υ − υ 0 ) + δ (υ + υ 0 )] transformé en
1 1
[δ (υ − υ 0 ) − δ (υ + υ 0 )] qui est le spectre de
2 2j
π
sin(2πν0 t). Le filtre de Hilbert agit ainsi comme un déphaseur pur de (filtre en quadrature).
2
Ceci permet de définir de manière canonique des notions comme celles d'amplitude ou de
fréquence instantanée(s) d'un signal modulé. Considérons en effet le signal monochromatique
x (t ) = a cos(2πυ 0t ) avec la représentation complexe z x (t ) = ae j 2πυ 0 t dans laquelle la composante
imaginaire est en quadrature avec la partie réelle :
Im {z x (t )} = a sin (2πυ0 t ) = H {a cos(2πυ 0t )} = H {Ré {z x (t )}} (3.50)
L'intérêt de cette représentation est de fournir des indications relatives à l'amplitude et à la

vitesse de rotation (pulsation) du vecteur tournant de manière unique grâce respectivement au module
et à la phase :
a = z x (t ) ;
(3.51)
⋅ {z x (t )}
1 d
υ0 =
2π dt

Intuitivement, lorsqu'un signal est modulé, c'est-à-dire lorsque son amplitude et sa fréquence
sont réputées varier au cours du temps, on pourrait être tenté de généraliser le cas monochromatique
en remplaçant a*cos(2πν0 t) par x (t ) = a (t ) cos ϕ (t ) . Ceci ne constitue cependant pas une
représentation admissible d'un signal quelconque. Pour s'en convaincre, il suffit d'introduire une
a(t )
fonction arbitraire b(t) telle que 0<b(t)<1; en a alors tout aussi bien x (t ) = b(t ) cos ϕ (t ) que l'on
b (t )
peut écrire :
 a(t )
a (t ) =
'

x (t ) = a (t ) cos ϕ (t ) avec  b(t )
' '
(3.52)
ϕ ' (t ) = arccos (b(t ) cos(ϕ (t )))

Une solution à ce problème consiste à généraliser, non pas directement la définition d'une
onde monochromatique, mais la façon dont on peut déduire ses caractéristiques d'une représentation
complexe convenable. Ainsi, si on part du modèle du vecteur tournant en le rendant dépendant du
temps et si on impose que ce modèle complexe satisfasse à des relations de quadrature entre parties
réelle et imaginaire, la solution consiste à « complexer » un signal réel x(t) en lui adjoignant une
partie imaginaire égale à son signal en quadrature :
z x (t ) = x (t ) + jH {x(t )} (3.53)
Le signal résultant est dit analytique . Ainsi défini, il admet une écriture unique en termes de
module et de phase et il devient possible de définir les notions d'amplitude et de fréquence
instantanées par :
a = z x (t ) ;
(3.54)
⋅ {z x (t )}
1 d
υt =
2π dt
D'un point de vue spectral, le signal analytique est relié au signal réel dont il est issu par :
Z x (υ ) = 2u (υ ) X (υ ) (3.55)
Ceci revient à supprimer les fréquences négatives du spectre original, ce qui diminue en rien
l'information puisque, pour un signal x(t) ∈ R, on a la relation X (− υ ) = X * (υ ) .
Si, par structure, la partie réelle d'un signal analytique z (t ) = a(t )e j ϕ (t ) s'écrit naturellement
Ré {z(t )} = a(t ) cos (ϕ (t )) il importe d'avoir présent à l'esprit que le signal analytique associé à un signal
modulé selon a (t ) cos(ϕ (t )) n'a apriori aucune raison d'avoir une écriture exponentielle dans laquelle
les mêmes a(t) et ϕ(t) seraient respectivement les termes de module et de phase. D'un point de vue
physique, on se rapprochera cependant d'autant plus de cette situation que les effets de modulation
seront faibles. En particulier, si a(t) est de type passe-bas, alors (selon le théorème de Bedrosian, [4])
H {a(t ) cos ϕ (t )} = a(t )H {cos ϕ (t )} (3.56)
Ces seules considérations spectrales ne garantissent cependant pas l'écriture exponentielle du

signal analytique puisqu'il faudrait en outre que :
H {cos ϕ (t )} = sin ϕ (t ) (3.57)

ce qui n'est pas vérifié dans le cas général mais l'est approximativement dans le cas quasi-
monochromatique pour lequel la largeur de bande est très faible vis-à-vis de la fréquence centrale de
spectre.
3.3. Modèles et approches non-stationnaires
L'absence de stationnarité ne suffit pas pour préciser le type de signaux non-stationnaires sur
lesquels on travaille, d'où la nécessité de déterminer des classes ou des types de signaux non-
stationnaires. Ces classes peuvent être obtenues suivant le point vue selon lequel ces signaux non-
stationnaires sont considérés.
Une première façon considère les signaux d'un point de vue de la rapidité de leur non-
stationnarité. Si, une situation non-stationnaire correspond à la concaténation de quasi-stationnarité
ou de non-stationnarités lentes, une approche adaptative est alors applicable à ce genre des signaux.
Lorsque les hypothèses de quasi-stationnarité ne sont plus justifiées, l'approche évolutive est alors
valable et suppose que les non-stationnarités sont rapides. Mais certaine non-stationnarités sont très
particulières pour être traitées par l'une ou l'autre des approches, ce sont les changements brusques ou
abrupts.
Une autre manière consiste à considérer les non-stationnarités du point de vue de leur nature
déterministe ou aléatoire. Ce qui mène à la notion de non-stationnarités permanentes déterministes,
non-stationnarités permanentes aléatoires ou des ruptures. Les deux premiers cas concernent les non-
stationnarités lentes, le dernier étant le cas des non stationnarité rapide. Néanmoins, il est difficile de
connaître la limite entre non-stationnarités lente et rapide.
La modélisation consiste en la donnée d'un structure de modèles susceptible de décrire le

comportement dynamique entrée/sortie auxquel on s'intéresse, ainsi que la spécification des
paramètres à choisir dans la structure du modèle pour définir complètement le système. En général,
ces paramètres sont rassemblés dans un vecteur dont la connaissance suffit alors à caractériser la
structure.
Il existe plusieurs approches de modélisation et d'analyse des signaux non-stationnaires.
Celles-ci diffèrent par leur hypothèses de départ et/ou la structure du modèle choisi. Les hypothèses
de départ peuvent être temporelles, ce qui conduit aux algorithmes adaptatifs; fréquentielles, ce qui
mène à des algorithmes d'analyse spectrale, ou bien, des hypothèses temps-fréquence ou temps-
échelle et ce qui donne les algorithmes des représentations temps-fréquence ou ondelettes.
3.3.1. Approche adaptative
L'idée de base de cette approche est de suivre les évolutions du signal par une récursion
temporelle en ne modifiant que peu les outils pour les situations stationnaires. Cette approche prend
en compte les non-stationnarités par l'intermédiaire de l'algorithme adaptatif.
Une modélisation adaptative peut être vue comme un processus à deux niveaux :
− Niveau 1 : rendre récursif une méthodes globale;
− Niveau 2 : rendre « oublieuse » la méthode ainsi obtenue pour lui permettre de suivre les
évolutions du signal.
Cette méthode présente l'avantage qu'elle ne fait pas d'hypothèse "directe" sur le type de non-
stationnarité. Cependant, il n'y a ni paramétrisation de l'évolution temporelle du signal, ni de mesure
de performance de l'algorithme et ses capacités à suivre les non-stationnarités.
3.3.2. Approche évolutive
Selon la synthèse de Y. Grenier, la méthode évolutive est similaire à la première, mais en

considérant que les paramètres du modèle ont des variations déterministes et non plus aléatoires.
Dans ce cas, les paramètres du modèle s'expriment linéairement sur une base de fonctions connues à
priori, donnant des modèles que l'on appellera évolutifs. Plusieurs fonctions ont été utilisées pour des
applications dans le domaine de la parole, parmi ces fonctions on peut citer celles de type
sinusoïdales, sphéroïdales, les fonctions de Bessel, etc. Le problème qui se pose pour cette méthode
est le choix de ces fonctions : devant un problème donné, on ne dispose pas de méthodologie qui nous
permette d'opter pour l'une ou l'autre des fonctions.
3.3.3. Stationnarité par morceaux
Cette approche limite les non-stationnarités à des sauts en des instants isolés entre lesquels le
modèle reste invariant; on peut dire qu'il s'agit de modèles stationnaires par morceaux.
L'hypothèse d'un modèle invariant entre deux instants peut être interprétée de deux façons
différentes :
- La première considère que c'est réellement dans la production du signal que se situent ces sauts, et
le problème est donc d'identifier les instants de leur occurrence, et ensuite d'estimer le modèle sur
chaque intervalle et de suivre les variations du signal sur ces intervalles. C'est notamment le cas
en reconnaissance de la parole;
- Pour la seconde, l'hypothèse des sauts n'est vue que comme une astuce d'analyse permettant de
modéliser l'évolution du signal. Les instants des sauts sont alors arbitraires, ne dépendent pas du
signal lui-même et peuvent être fixés par l'utilisateur. On teste alors si ces instants de sauts sont
justes.
3.3.4. Modèle à coefficients aléatoires
Cette méthode consiste à considérer les coefficients du modèle comme aléatoires, et donc le
modèle global est constitué par deux niveaux. Le premier est celui du système engendrant le signal,
tandis que le second est celui de la dynamique du système de niveau 1.
L'identification simultanée des deux niveaux est très délicate, puisqu'il s'agit en général de
problèmes non-linéaires, d'autant plus qu'au second niveau l'entrée comme la sortie du modèle sont
inconnues, et multipliées par les paramètres, eux aussi inconnus, du modèle au niveau 1.
Si on suppose, par exemple, que θ(t) est le vecteur des paramètres, à l'instant t, (niveau 2), on
obtient les équations suivantes :
 y(t ) = ϕ T (t )θ (t ) + v(t )
 (3.58)
θ (t ) = A(t )θ (t − 1) + w(t )
où ϕ T (t ) = [− y (t − 1), K ,− y (t − p )] , y(t) est le signal engendré par le modèle AR d'ordre p, et excité

par le bruit blanc v(t), le modèle θ(t) a pour matrice de transition A(t) et l'innovation est le bruit blanc
vectoriel w(t).
Les équations (3.58) forment alors une équation d'état pour y(t) et le problème concerne
l'estimation conjointe de l'état θ(t) et des paramètres A(t) du système. Les travaux faits dans ce
domaine supposent que l'un des deux niveaux est connu afin de pouvoir identifier l'autre. Lorsque les
paramètres du second niveau, la matrice A(t) et la covariance de w(t), sont connus, l'identification de
θ(t) est un problème d'estimation de l'état d'un système, qui se réalise au moyen du filtre de Kalman
(dans une approximation gaussienne sur y(t)).
3.3.5. Représentations temps-fréquence et/ou temps-échelle
Cette approche non-paramétrique (qui fera l'objet des chapitres suivants) consiste à utiliser
certaines distributions temps-fréquence capables de donner une représentation conjointe en temps et
en fréquence d'un signal non-stationnaire. Elle nous permet, à quelques hypothèses près, de voir la
répartition de l'énergie du signal dans le plan temps-fréquence. On obtient ainsi, simultanément, les
informations concernant les structures temporelles et fréquentielles, quel que soit le degré de non-
stationnarité du signal.

La justification de l'utilisation de cette approche dans le contexte non-stationnaire consiste

également à l'idée d'éviter les limitations des méthodes classiques de traitement et, notamment, la
transformée de Fourier qui représente l'outil de base pour le développement des approche classiques.
3.4. Limitations de la transformée de Fourier
Quoique parfaite du point de vue mathématique, la transformée de Fourier conduit bien

souvent à des difficultés d'interprétation physique. En effet,
• Pour obtenir la valeur X(ν) associée à une fréquence donnée, il faut connaître le signal sur
une durée infinie. Il en est de même pour la transformation inverse qui nécessite la connaissance du
spectre complet du signal. Si ces contraintes semblent normales au mathématicien, il n’en est pas de
même pour le physicien. En effet, dans la pratique, il est impossible de connaître toute l’histoire d’un
signal.
• Un signal d’énergie finie se trouve ainsi décomposé en une combinaison linéaire d’éléments
constitutifs d’énergie infinie.
• En fait, la transformation de Fourier ne permet pas de concilier ladescription fréquentielle et
la localisation dans le temps. Dans le cas général, on peut se référer à l’inégalité d’Heisenberg-Gabor
qui stipule que le produit bande passante support temporel du signal est minoré par l’énergie du
signal au facteur 1/4π près.
Ex
∆t . ∆ν ≥ (3.59)
4. π
Ce qui signifie dans le cas pratique, qu’il est impossible d’obtenir un signal dont les supports
temporel et fréquentiel soient simultanément arbitrairement petits. En effet, la dimension du support
temporel est inversement proportionnelle à la dimension du support fréquentiel et inversement.
Dû à l’absence de l’information temporelle, dans les applications pratiques, la transformée de
Fourier peut induire des confusions, dans le cadre d’un processus d’idéntification des signaux non-
stationnaire. Ceci est illustré sur la figures suivante, on presente les spectres d’une modulation
linéaire en fréquence et, respectivement, d’une modulation sinusoidale en fréquence.
Spectre de la modulation linéaire de fréquence Spectre de la modulation sinusoidale de fréquence
Fréquence (normalisée) Fréquence (normalisée)

RTF idéelle RTF idéelle
Fréquence (normalisée)
Temps Temps
Figure 3.6. RTF versus la transformée de Fourier

Sur cette figure on observe que les spectre des signaux test ont quasiment la meme forme
tandis que les images obtenues par une RTF permettent d’indentifier sans ambiguités les types de
modulation considerés.
Ainsi, la définition de la transformation de Fourier est à l'origine d'un inconvénient

majeur. En effet, le résultat obtenu par cette transformation est soit une fonction du temps soit une
fonction de la fréquence ce qui interdit tout accès à une notion telle que la fréquence instantanée.
Si on souhaite étudier un signal non stationnaire et détecter les variations de fréquence en les
associant à un instant donné, la transformation de Fourier est sans intérêt. Pour répondre à cette
nouvelle exigence, il est fait appel à des outils d’analyse temps-fréquence.
Références
[1] J. Ville - "Théorie et applications de la notion de signal analytique, Câbles et transmissions", Vol 2, n°1, pp61-74,
1948
[2] A. Blanc-Lapierre, B. Picinbono - "Remarques sur la notion de spectre instantané de puissance", Publications Scient.
Université Alger, Série B, Vol 1, n°1, pp17-32, 1955
[3] A. Papoulis - "Signal analysis", MacGraw Hill, 1986
[4] M.H. Hayes - "Statistical digital signal processing and modeling", John Wiley & Sons, Inc, 1996
[5] A. Quinquis - "Représentations temps-fréquence", Support de cours, ENSIETA, 1995

EXERCISES ET PROBLEMES
1. (Structures temporelles et fréquentielles)

a. En considérant les expressions de la fréquence moyenne et de la largeur de bande suivantes
ω = ∫ ω S (ω ) dω et B 2 = σ ω2 = ∫ (ω − ω )2 S (ω ) 2 dω
2
où S (ω ) est la DSP d'un signal s(t). Ecrire l'expression de la fréquence moyenne et de la largeur de
2
bande en utilisant l'expression temporelle du signal.

b. En utilisant ces résultats, trouver la fréquence moyenne et la largeur de bande d'une modulation
sinusoïdale en fréquence, donnée par l'expression
α 
0.25  αt 2 
s(t ) =   exp  − + jβt 2 + jm sin (ω m t ) + j ω 0 t 
π   2 
 
2. (Analyse spectrale) On dispose de N observations x i indépendantes de même moyenne m et de

variance σ2 .
1 N
a. On estime m par mˆ = ∑ xi
N i =1
i) m̂ est-il biaisé ?
ii) Quelle la variance de m̂ ?
b. On estime σ2 par σ̂ 2 = ∑ ( xi − mˆ ) 2
1 N
N i =1
i) σ̂ 2 est-il biaisé ?
ii) Peut-on calculer la variance de σ̂ 2 ?
3. (Analyse spectrale) Soit x(n) un processus AR(1) défini par les paramètres {a1 ,σ2 }.
a. Montrer que la fonction d'autocorrélation s'écrit :
σ2
r xx (m) = (− a1 ) m
2
1 − a1
b. Caractériser ce processus d'un point de vue spectral (passe-bas, passe-bande…?) en fonction du

signe de a1 .
4. (Analyse spectrale) Soit x(n) un processus ARMA (1,1) défini par {a1 ,b1 ,σ2 } et soit rxx(m) sa
fonction de corrélation. Montrer que


(
σ 2 1 + b12 − 2a1b1
,m=0
)
 1 − a12
r xx (m) =  2
σ (1 − a1b1 )(b1 − a1 ) (− a ) m −1 , m ≥ 1
 1 − a12
1

5. (Analyse spectrale) Soit x(n) un processus MA(1) défini par {b1 ,σ2 } et soit rxx(m) sa fonction de
corrélation. Montrer que la fonction d'autocorrélation de ce processus s'écrit :
( )
σ 2 1 + b12 , m = 0

r xx (m) =  σ 2 b1 , m = 1
 0, m ≥ 2

6. (Signal analytique) Calculer le signal analytique pour :

a. s(t ) = cos( ω t );
b. s(t ) = cos(ω1t ) cos(ω 2 t ) .
7. (Fréquence instantanée) On suppose un signal composé de deux sinusoïdes donné par :

s(t ) = s1 (t ) + s 2 (t ) = A1e j ω1t + A2 e jω 2t
Calculer la fréquence instantanée de ce signal.
8. (Fréquence instantanée) On suppose un signal chirp donné par :

αt 2
 − βt 2 
s1 (t ) = e 
exp ω 0 t + 2
 2 

a. Tracer le graphique de l'amplitude et de la fréquence instantanée du signal s1 (t).
b. On suppose un autre signal chirp donné par :
αt 2

− βt 2 
s 2 (t ) = e
exp  ω 0 t −
2
 2 

i. Tracer, sur le même graphique, les fréquences instantanées de s1 (t) et s2 (t).
ii. Le signal s1 +s2 est-il stationnaire ? Justification. Par quelle opération entre le s1 (t) et
s2 (t) le résultat devient-il stationnaire ?
9. (Inégalité temps-fréquence) Donner la preuve pour le principe d'Heisenberg-Gabor (relation

3.59).
(Indication : on utilisera les définitions de la durée et de la bande utile d'un signal
∞ ∞
∆t 2 = ∫ t 2 x(t ) dt ; ∆f X ( f ) df
2 2
2
= ∫f 2
−∞ −∞
∞
et la quantité I = ∫ t ⋅ x * (t ) x ' (t )dt , où x ' (t ) = x (t ) .
d
−∞ dt

4. Représentations temps-fréquence linéaires
4
REPRESENTATIONS TEMPS-FREQUENCE LINEAIRES
4.1. Transformée de Fourier à court terme. Spectrogramme ([1], [3])
4.1.1. Définitions
La transformée de Fourier à court terme (TFCT) et ses dérivées (notamment le

spectrogramme) sont les méthodes temps-fréquence les plus utilisées dans les applications pratiques.
Ainsi, cette classe de méthodes représente la solution la plus repandue pour éliminer les limitations de
la transformée de Fourier. L’idée de base est très simple et efficace : on décompose le signal en petits
segments et on applique, sur chacune des sections, la transformée de Fourier en obtenant ainsi le
spectre « local ». La totalité des spectres « locaux » indique alors comment le spectre varie au cours
de temps. Ce concept est présenté sur la figure suivante.
x(t)
h(t)
Temps
TF
TF
TF
TF
TF
Fréquence
T
FCT Temps
Figure 4.1. Le principe de la TFCT
Du point de vue mathématique, la TFCT peut être interprétée comme l’analyse de Fourier de
tranches successives pondérées par une fenêtre temporelle (Hamming, par exemple). Ce principe est
équivalent à l’approximation du signal par un ensemble des fonctions élémentaires semi-localisées
simultanément en temps et en fréquence :
G(t ,υ ) = ∫ x(τ )ht*,υ (τ )dτ = ∫ x (τ ) h * (τ − t ) e −2πjυτ dτ (4.1)
Cette relation représente le produit scalaire entre le signal x(t) et les fonctions de base
ht ,υ (τ ) = h (τ − t )e j 2πυτ (reflet de la similarité qui existe entre x(t) et les fonctions (h(t)).
En pratique, on utilise le Spectrogramme qui est le module au carré de la TFCT. Lorsque les
valeurs de TFCT sont, en général, complexes, le module carré nous assure que la valeur du
spectrogramme sera toujours une valeur réelle. Le spectrogramme (expression numérique) est alors
défini comme une densité d’énergie soit :
∫ x (τ )h (τ − t )e
− j 2πυτ 2
S (t ,v) = *
dτ (4.2)
La TFCT ou le spectrogramme considère implicitement un signal non stationnaire comme une

succession de situations quasi-stationnaires, à l’échelle de la fenêtre à court terme h(u). La résolution
temporelle d’une telle analyse est fixée par la largeur de la fenêtre, la résolution fréquentielle étant
fixée par la largeur de sa transformée de Fourier. Ces deux largeurs étant antagonistes, on se trouve
alors en présence d’un compromis entre les résolutions temporelle et fréquentielle. En effet :

- pour un signal fortement non-stationnaire, une bonne résolution temporelle est requise, ce
qui impose de travailler avec une fenêtre h(u) courte, limitant par voie de fait la résolution
fréquentielle ;
- réciproquement, si une analyse fréquentielle fine est nécessaire, une fenêtre h(u) longue doit
être utilisée, ce qui a le double effet de moyenner les contributions fréquentielles sur la durée de la
fenêtre et de dégrader la résolution temporelle.
Pour en déduire les propriétés générales de la TFCT et du spectrogramme, on introduit la
notion de fonction caractéristique du spectrogramme, [3], selon :
M SP (θ ,τ ) = ∫∫ S (t ,υ )e j 2πθ t + j 2πυτ dtdυ = Ax (θ ,τ ) Ah (− θ , τ ) (4.3)

où
* τ   τ  j 2πθ t
Ax (θ , τ ) = ∫ x  t −  x t +  e dt (4.4)
 2  2
est la fonction d’ambiguïté du signal x(t) et Ah est la fonction d’ambiguïté de la fenêtre h(t), définie
d’une manière analogique.
4.1.2. Propriétés générales de la TFCT et du spectrogramme
• Energie totale
L’énergie totale est obtenue par l’intégration sur tout le support temporel et fréquentiel. En
utilisant la fonction caractéristique définie ci-dessus (4.3 et 4.4), on obtient :
( 4.3) ( 4.4)
E SP = ∫∫ S (t , υ )dtdυ = M SP (0,0 ) = Ax (0,0) ⋅Ah (0,0) =
= (∫ s (t ) dt )× (∫ h(t ) dt )
(4.5)
2 2
Pour que l’énergie soit conservée, par l’application du spectrogramme, on déduit, à partir de la
relation (4.5), que la fenêtre doit avoir une énergie unitaire ( ∫ h (t ) dt = 1 ).
2
• Les marginales en temps et en fréquence
Pour déterminer les expressions des marginales en temps et en fréquence, on introduit les
notations suivantes :
x (t ) = A(t )e j ϕ (t ) ; h(t ) = Ah (t )e j ϕ h (t )
(4.6)
X (υ ) = B(υ )e j ψ (υ ) ; H (υ ) = B (υ )e j ψ H (υ )
H
La marginal en temps est obtenue par intégratio n du spectrogramme sur tout l’axe
fréquentiel :
( 4 .6 )
P(t ) = ∫ S (t , υ ) dυ = ∫ A 2 (τ ) Ah2 (τ − t )dτ
2
(4.7)
D’une manière s imilaire, la marginale en fréquence sera donnée par :
( ) ( )
( 4 .6 )
P(υ ) = ∫ S (t , υ ) dt = ∫ B 2 υ ' B H2 υ − υ ' dυ '
2
(4.8)
On peut observer, à partir de (4.7) et (4.8), que, en général, les marginales en temps et en
fréquence du spectrogramme ne satisfont pas les marginales corrects du signal :
P(t ) ≠ A 2 (t ) = x(t )
2
(4.9)
P(υ ) ≠ B (υ ) = X (υ )
2 2

L’explication physique est liée au fait que le spectrogramme mélange la distribution

énergétique du signal avec celle de la fenêtre, la distribution issue n’étant pas celle du signal propre.
• Conservation des supports temporel et fréquentiel
Cette propriété consiste à considèrer qu’une représentations temps-fréquence (RTF) est nulle
en dehors des supports physiques d’un signal. En effet, pour un signal s(t) (avec la TF S(f)), cette
propriété s’écrit :
[ ] [
Soit s(t ) ≠ 0 pour t ∈ t 0 − T , t 0 + T et s (t ) = 0 pour t ∉ t 0 − T , t 0 + T avec la transform ée
2 2 2 2
]
[ ] [
de Fourier S ( f ) ≠ 0 pour f ∈ f 0 − B , f 0 + B et S ( f ) = 0 pour f ∉ f 0 − B , f 0 + B . On dit qu' une
2 2 2 2
]
RTF respecte la propriété de conservati ons des supports temporel et fréquencti el si
[
≠ 0 si t ∈ t 0 − T , t 0 + T et f ∈ f 0 − B , f 0 + B
RTFs (t , f ) = 
] [ ]
[ ] [ ]
2 2 2 2 ( 4.10)
 = 0 si t ∉ t 0 − T , t + T et f ∉ f − B , f + B
2 0 2 0 2 0 2
Dans le cas du spectrogramme, cette propriété n’est pas verifiée, car même si s(t)=0 pour t 0 ,
en raison de la pondération du signal par une fenêtre h(t) le terme x(τ)h(τ-t) ne sera pas nul à cet
instant et, par conséquent, le spectrogramme ne sera pas nul pour cette valeur de t. Ceci est illustré sur
la figure suivante où on a considéré, comme signal de test, un atome gaussien et, pour t0 =45 on
constate clairement que, même si le signal est nul, le produit x(τ)h(τ-t) est différent de 0 et, comme
conclusion finale, la spectrogramme ne conserve donc pas le support temporel du signal.
Atome gaussien
h(τ-45)
Spectrogramme : h-Hamming, 77
Temps
Figure 4.2. Non-conservation du support temporel
Des considérations similaires peuvent être faites pour le cas fréquentiel, et, ainsi, le
spectrogramme et la TFCT ne respectent pas la propriété de conservation des supports temporel et
fréquentiel.
• Le compromis entre les résolutions temporelle et fréquentielle
Comme illustré ci-dessus, si on souhaite une bonne localisation temporelle on a besoin d’une
fenêtre étroite h(t) et si on souhaite une bonne localisation fréquentielle la fenêtre H(f) doit etre
étroite. Mais comme h(t) étroit conduit à une H(f) large et vice-versa, on aura toujours un compromis
à résoudre, quand il s’agit de choisir la fenêtre h(t). Dans le tableau ci dessous on présente quelques
types des fonctions de pondération h(t) couramment utilisées.

Ce compromis est régi par le principe d’incertitude d’Heisenberg-Gabor (voir la section 3.4)
et le meilleur choix est une fonction de type gaussien, la transformée générée étant alors appelée
transformée de Gabor (qui sera présentée dans la section 4.2.).
Tableau 4.1 Fenêtres d'analyse couramment utilisées

Fenêtre Expression mathématiques Représentation Représentation
d'analyse temporelle fréquentielle
 1, − N / 2 ≤ n ≤ N / 2
Rectangulaire w (n ) = 
0, sinon
30 40 50 60
2
n− N /2
Welch w (n ) = 1 −  
 N /2 
40 50 60
 1− 2n / N, 0 ≤ n ≤ N / 2

Bartlett w(n) = 1 + 2n / N, − N / 2 ≤ n ≤ 0
 0,
 sinon
30 40 50 60
 2πn 
Hamming w(n ) = 0 .5 + 0.5 * cos 
 N 
 2πn 
Hanning w(n ) = 0.54 + 0.46 * cos  
 N 
40 50
  1/ 2
    2n 2  
I0β1−   
 N −1  
wk (n) =      
 
 , −( N −1) / 2 ≤ n ≤ ( N −1) / 2
 I0(β )
Kaiser 
 0, sinon
2L
 x
∞  
 2
I0(x) = 1+ ∑
L=0 (L!)
2
40 50 60
• L’inversibilité du spectrogramme
Lorsque le spectrogramme est le module carré de la TFCT il est affirmé qu’on ne dispose plus
de la phase du signal et, par conséquent, la reconstruction de celui-ci n’est pas possible. Cette
supposition est fausse, car lorsqu'on calcule le spectrogramme on perd seulement la phase de TFCT,
pas celle du signal. En conclusion, la reconstruction est possible mais avec quelques précautions sur
le choix de la fenêtre.
A partir de la relation (4.3), la fonction d’ambiguïté du signal peut s’écrire de manière
équivalente :
M (θ , τ )
Ax (θ , τ ) = SP S (t ,υ ) e j 2πθ t + j 2πτυ dtdυ
1
∫∫
2
=
Ah (− θ , τ ) Ah (− θ ,τ )
(4.11)
A partir de la fonction d’ambiguïté, le signal peut être généré selon :

(
x* t − τ
2
)x(t + τ 2 ) = 21π ∫ A (θ , τ )e x
− j 2πθ t
dθ (4.12)
et, pour une valeur particulière de t=τ/2 cette relation devient :

x * (0)x (t ) = Ax (θ , τ )e − j 2πθ t / 2 dθ
1
2π ∫
(4.13)
Compte tenu de (4.11) et (4.13), la formule d’inversion du spectrogramme est :
M (θ , t )
x (t ) =
1
∫ e − j 2πθ t / 2 dθ
SP
(0) Ah (− θ , t )
(4.14)
2πx *
La reconstruction à partir d’un spectrogramme est possible lorsque la fonction d’ambiguïté de

h(t) est différente de 0, ce qui introduit des contraintes sur le choix de h(t).
• Invariance du spectrogramme
Pour le spectrogramme, la propriété d’invariance par translation temporelle et fréquentielle

s’écrit selon :
x (t ) = x (t − t 0 )e − j 2πυ 0 t ⇒ S ~x (t ,υ ) = S x (t − t 0 , υ − υ 0 )
~ (4.15)
La preuve de cette propriété est laissée comme exercice aux lecteurs.
4.1.3. Le pavage temps-fréquence généré par le spectrogramme
Comme on l’a montré au début du chapitre, la TFCT peut être interprétée comme la projection
du signal x(t) sur les fonctions de base ht ,υ (τ ) = h (τ − t )e j 2πυτ (voir la relation (4.1)). Sur la figure
4.3 on présente, de manière comparative, le pavage temps-fréquence induit par cette transformée.
Pavage de Shannon Pavage de Fourier
Fréquence
Temps
Pavage de TFCT 1
Atome de Gabor
0.8
0.6
0.4
0.2
-0.2
-0.4
-0.6
-0.8
0 20 40 60 80 100 120 140
Figure 4.3. Pavages du plan temps-fréquence par (a) Transformée identité

(b) Transformée de Fourier (c) TFCT
Par ailleurs, la transformée identité peut être interprétée comme la projection du signal sur un
ensemble d’impulsions decalées, représentant une meilleure localisation temporelle mais la pire
localisation fréquentielle (figure 4.3.a). A l’opposé on trouve la représentation fréquentielle, fournie
par la transformée de Fourier (figure 4.3.b).

4.1.4. Considérations sur la discrétisation du spectrogramme
La discrétisation des expressions de la TFCT et du spectrogramme est fortement imposée par

des raisons qui tiennent de l’implémentation de ces approches soit sur des processeurs numériques de
signaux, dans le cas des applications en temps réel soit sur l’ordinateur, comme outil de simulation et
d’analyse. Ainsi, les expressions de la TFCT et du spectrogramme sont :
N −1
TFCT (k , υ ) = ∑ h (n )x (k + n)e −2πjvn (4.16)
n= 0
N −1 2
S ( k ,v ) = ∑ h(n)x (k + n)e − 2π jvn
(4.17)
n= 0
La transformation pourrait s’interpréter comme une batterie de filtres de même gabarit,

décalés en fréquence. Donc, la méthode la plus rapide pour l’implémentation est de calculer S par la
i
transformée de Fourier rapide aux points vi = .
N
Comme vu dans le chapitre précédent, dans les applications pratiques une limitation majeure
de l’utilisation de la transformée de Fourier réside dans le fait qu’on ne dispose que d’un ensemble
finit de données et, cela conduit aux problèmes d’interprétation physique. Un de ces problèmes est
l’apparition des effets de bord qui sont générés aux extrémités du segment de données traité par TF.
Le même problème apparait dans le cadre de la TFCT : aux bords de la fenêtre d’analyse on obtient
de fausses composantes spectrales qui ne sont associées à aucun phénomène physique (figure 4.3.a).
Pour diminuer l’importance de cet effet, on utilise en pratique des fenêtres particulières, qui minimise
l’importance des éléments qui se trouvent vers les bords de la fenêtres. On prend comme exemple le
cas d’une fenêtre Hamming (figure 4.3.b). Pour améliorer de plus la lisibilité du spectrogramme, on
introduit un facteur de recouvrement entre les fenêtres d’analyse, l’effet obtenu étant présenté sur la
figure 4.3.b.
h1 : (Rectang, 35); Recouvrement : 0 h2 : (Hamming, 35); Recouvrement : 0 h3 : (Hamming, 35); Recouvrement : 8
Spectrogramme (h1) Spectrogramme (h2) Spectrogramme (h3)

Temps Temps Temps

a. b. c.
Figure 4.3. L’effet du choix de la fenêtre d’analyse et du facteur de recouvrement
4.1.5. Conclusion
Ce paragraphe a décrit la problématique liée à la première approche temps-fréquence utilisée

dans le monde scientifique : la TFCT et son module au carré. Après les définitions de celle-ci on a
étudié qu’elles sont les propriétés générales de ces approches. Ces propriétés imposent des contraintes
sur le choix de la fenêtre d’analyse et, du point de vue pratique, on a présenté quels sont les critères
de choix.

L’utilisation à grande échelle du spectrogramme est due principalement au concept très

simple, qui permet l’implémentation à partir des algorithmes de la TF rapide. Néanmoins, l’inégalité
d’Heisenberg-Gabor (ce qu’en pratique se traduit par le choix de la fenêtre, ses paramètres et le
recouvrement) limite les domaines d’applications au cas où on dispose des informations a-priori
concernant le signal analysé.
Parmi toutes les fenêtres possibles, on s’appuie, dans la section suivante, sur celle de Gabor,
qui fournit le meilleur compromis, au sens de l’inégalité d’Heisenberg-Gabor.
4.2. La transformée de Gabor [1]

4.2.1. Définition
En 1946, Gabor a proposé une représentation bi-dimensionnelle temps-fréquence, obtenue par

une décomposition du signal x(t) sur un ensemble de fonctions élémentaires qui occupent la même
surface minimale dans le plan temps-fréquence. Il a proposé une surface qui minimise l’inégalité
d’Heisenberg-Gabor, et, par conséquent, les fonctions élémentaires sont données par la fonction de
Gauss :
1
α  4  α 
h (t ) =   exp − t 2  (4.18)
π   2 
Dans ce cas, le principe d’incertitude s’écrit :

1 α 1
∆ t∆ f = = (4.19)
α 4π 4π
1
où représente la limite de l’inégalité d’Heisenberg-Gabor.
4π
La définition mathématique de la transformée de Gabor, à partir des opérateurs introduits dans
le chapitre 2, s’écrit :
Pour un espace de Hilbert H, la transformée de Gabor est une application Gh : H→Gh (H)
parametrisée par la fonction h. Plus rigoureusement, la transformée de Gabor d’une fonction
f∈L2 (R) est donnée par :
Gh (
: L2 ( R) → G h L2 (R ) )
(4.20)
f a f , eγ τ t h
L (R ) 2
Autrement dit, la transformée de Gabor représente la projection du signal sur toutes les
versions modulées et translatées de la fonction d’analyse h.
L’implémentation pratique de cette transformation impose l’existence d’un réseau
d’échantillonnage bidimensionnel, paramétré par T- le pas de discrétisation temporelle et υ - le pas de
discrétisation fréquentielle. Un tel réseau est présenté sur la figure suivante.
Fréquence
T
υ
nυ
Temps
(0,0) mT
Figure 4.4. Réseau d’échantillonnage pour la transformé de Gabor
Dans ces conditions, un signal quelconque peut être décomposé en série de Gabor [1], selon :

∞ ∞ ∞ ∞
x (t ) = ∑ ∑ Cm, n hm, n (t ) = ∑ ∑ C m,n h(t − mT ) exp { j2πnυt} (4.21)
m = −∞ n= −∞ m= −∞ n = −∞
Cette décomposition, proposée par Gabor, existe si les paramètres d’échantillonnage satisfont
la condition :
Tυ ≤ 1 (4.22)
Intuitivement, si le produit Tυ est plus grand que 1, on n’a pas assez d’information pour
pouvoir reconstruire le signal (cas de sous-echantillonage). Si Tυ est plus petit que 1, la
représentation sera redondante (cas de sur-echantillonage-« oversampling »). Traditionnellement (cas
pris en compte par Gabor), si Tυ=1 on obtient la représentation la plus compacte ; ce cas s’appelle
échantillonnage critique.
Dans ces travaux, Gabor n’a proposé aucune méthode pour calculer les coefficients Cm,n et
ceci explique pourquoi ces approches ont été abandonnées jusqu’en 1980. A ce moment-là, Bastians
[1] a unifié la décomposition de Gabor avec la TFCT, proposant ainsi une méthode pour le calcul de
Cm,n . De même, Bastians a mis en évidence les trois possibilités d’échantillonnage, présentées ci-
dessus. C’est toujours lui qui a montré que la TFCT continue inverse est une représentation fortement
redondante et, par conséquent, il a proposé l’échantillonnage de la TFCT, en utilisant un réseau
critique. La transformée issue constitue une méthode efficiente pour le calcul des coefficients de
Gabor Cm,n . Ainsi, si les fonctions de Gabor {hm,n (t)} forment un ensemble complet, alors il existe un
~
{ }
ensemble dual de fonctions h m, n (t ) tel que :
C m,n = ∫ x(t )h m,n * (t ) = ∫ x(t )h * (t − mT ) exp{− jn2πυt }dt = TFCT (mT , nυ )
~ ~
(4.23)
La TFCT (dans le cas d’une fenêtre d’analyse gaussienne) échantillonnée a été nommée par
Bastians la transformée de Gabor.
4.2.2. Implémentation de la transformée de Gabor
Concernant l’implémentation de la transformée de Gabor, il existe deux problèmes majeurs :

•
~
Trouver une méthode pour le calcul des fonctions duales h m, n (t ) . { }
•
~
{ }
Trouver une méthode pour la sélection des h m, n (t ) , dans le cas où cet ensemble n’est pas unique.
Cas de l’échantillonnage critique
Dans le cas de l’échantillonnage critique, l’ensemble des fonctions {hm,n (t)} est linéaire
indépendant et, selon les notions de biorthogonalité (introduites dans le chapitre 3), il existe un
ensemble de fonctions duales à {hm,n (t)} et unique (l’ensemble sera unique, donc, dans ce cas, le
deuxième problème est résolu ), qui représente la base de Riesz associée au {hm,n (t)}.
En remplaçant la relation (4.23) dans la partie droite de l’expression (4.21), on obtient :
() ()
∞ ∞ ~
x (t ) = ∫ x t ' ∑ ∑ h m, n * t ' hm,n (t )dt ' (4.24)
m= −∞ n= −∞
Evidement, la décomposition de Gabor existe si et seulement si la somme double est égal à la
fonction de Dirac :
() ( )
∞ ∞ ~
∑ ∑ h m,n * t ' hm, n (t ) = δ t − t ' (4.25)
m= −∞ n= −∞
Par la formule de sommation de Poisson, [4], (4.25) peut être réduite à une seule intégration :
T0υ 0 ∫ hm,n (t )h 0 m, n * (t )dt = δ (m)δ (n )

~
(4.26)

où h 0 m,n * (t ) = h (t − mT0 ) exp { jn2πυ 0 }et T0 =1/υ, υ0 =2π/T. Cette relation, appelée l’identité de
~ ~
Wexler-Raz, présente l’outil de base pour déterminer les fonctions duales de hm,n (t). Ainsi, la solution
de l’équation (4.26) représente l’ensemble dual cherché.
Cas du sur-échantillonage
Dans ce cas, les fonctions {hm,n (t)} sont linéaires dépendantes. Dans ce cas, l’unicité de
l’ensemble dual n’est plus valable. La représentation est alors redondante : la reconstruction ne sera
pas exacte, mais ce degré de redondance apporte quelques propriétés importantes, qui seront discutées
par la suite.
Pour au moins deux raisons, il est préférable de choisir un échantillonnage critique : la
première est due au fait que les fonctions duales, qui vont déterminer les coefficients de Gabor sont
données par l’équation (4.26) (rapidité de calcul) et la seconde, l’ensemble dual issu est unique, ce
qui nous garantit une reconstruction parfaite. Mais tous ces avantages n’existent que dans le cas
ideal : quand on dispose de signaux sur un support infini et quand on n’est pas intéressé de la lisibilité
de la RTF engendrée. En effet, Bastians a montré que, dans le cas d’échantillonnage critique, lorsque
h(t) est concentrée optimalement dans le domaine temps-fréquence la fonction duale n’est concentrée
ni en temps ni en fréquence (figure 4.5.a et b). Ainsi, les coefficients Cm,n qui sont déterminés à partir
de ces fonctions ne caractériseront pas la distribution du signal dans le plan temps-fréquence, pour la
location correspondante [mT − ∆ t , mT + ∆υ ] × [nυ − ∆υ , nυ + ∆υ ] (voir la figure 4.5.c.).
Dans le cas du sur-échantillonage, l’ensemble dual de fonctions n’est pas unique, mais il
existe plusieurs méthodes ([1, pag. 56-73]) pour sélectionner l’ensemble optimal. Une de ces méthode
sera présentée dans la section suivante ; selon cette méthode, le degré de redondance introduit permet
d’améliorer fortement la lisibilité de la RTF calculée, qui consiste, en fait, à représenter les
coefficients de Gabor dans le plan temps-fréquence.
Representation temporelle de h(t) et de sa duale Representation fréquentielle de h(t) et de sa duale
~ H(υ)
h (t )
~
h(t) H (υ )
Temps Fréquence (normalisée)

a. b.
Les coefficients de Gabor pour Tυ=1 Les coefficients de Gabor pour Tυ<1
Temps Temps
c. d.
Figure 4.5. L’inconvénient de l’échantillonnage critique en ce qui concerne la lisibilité de la RTF

4.2.3. Sélection optimale de l’ensemble dual des fonctions
Dans la section précédente on a vu que le degré de redondance qui apparait pour un sur-
échantillonage de la transformée de Gabor rend une meilleure lisibilité à la représentation temps-
fréquence engendrée, mais ceci se passe lorsque la fonction duale, utilisée pour déterminer les
coefficients de Gabor, est choisie de manière optimale, en respectant un certain critère [1, pag. 56-
73]. Dans cette section on présente une méthode proposée par Qian et Chen [1], développée pour un
signal discret, s[k], composé de L échantillons. La procédure pour calculer les coefficients de Gabor,
dans le cas du sur-échantillonage, est présentée ci-dessous.
s[k]
h [k ]
~ TFD
TFD
TFD
Les coefficients de Gabor
N
Figure 4.6. La décomposition discrète de Gabor
La décomposition discrète de Gabor a pour expression :

M −1N −1
s[k ] = ∑ ∑ Cm, n h[k − m∆M ]WLn∆Nk (4.27)
m = 0n = 0
où les coefficients Cm,n sont calculés selon :
L−1
∑ s[k ]h [k − m∆M ]WL−n∆Nk
~
C m,n = (4.28)
k =0
Les termes ∆M et ∆N représentent les incréments de discrétisation en temps et,
respectivement, en fréquence. Le taux de sur-échantillonage est défini selon :
L
a= ≥1 (4.29)
∆M∆N
Dans le cas de l’échantillonnage critique, le nombre de coefficients de Gabor est égal au
nombre d’échantillons. Dans le cas du sur-échantillonage, le nombre de coefficients de Gabor est plus
grand que le nombre d’échantillons du signal.
Si on introduit la restriction ∆N⋅N=L, les relations (4.28) et (4.29) peuvent être réécrites
selon :
M −1N −1
s[k ] = ∑ ∑ Cm, n h[k − m∆M ]WNnk (4.30)
m= 0 n= 0
et
L −1
∑ s[k ]h * [k − m∆M ]WN−nk
~
C m,n = (4.31)
k =0
En remplaçant ∆NN=L en (4.29), on obtient :
N
a=
≥1 (4.32)
∆M
ce qui revient à dire que pour une reconstruction stable, le pas d’échantillonnage en temps, ∆M, doit
être plus petit ou égal au nombre de canaux fréquentiels N.
Pour déterminer h [k ] pour une h[k] donnée, on introduit (4.31) en (4.32) et on obtient :
~
[ ] ∑ ∑ h[k − m∆M ]~h [k ]

L−1 M −1N −1
s[k ] = ∑s k' − m∆M W Nn (k −k )
'
* '
(4.33)
k =0
'
m= 0 n = 0
d’où la décomposition discrète de Gabor existe si et seulement si :
[ ] [ ]
M −1N −1
∑ ∑ h[k − m∆M ]h * k ' − m∆M WNn (k −k ) = δ k − k '
~ '
(4.34)
m= 0 n = 0
Pour rendre exploitable cette relation, on applique la formule de sommation discrète de
Poisson :
M −1
1 ∆M −1  L−1 
∑ a [n − m∆ M ] = ∑  ∑ a[i ]W∆−Mik W∆nkM
 
(4.35)
m=0 ∆M k = 0  i = 0 
en (4.34) et on obtient la version discrète de l’identité de Wexler-Raz :

L −1 ∆M
∑ h[k + qN ]W∆−Mpk h * [k ] = N δ [ p ]δ [q ]
~
(4.36)
k =0
où 0 ≤ p < ∆M et 0 ≤ q < ∆N .
L’équation (4.36) représente un système linéaire d’équations, qui permettra de déterminer
l’ensemble des fonctions duales h [k ] . Cette équation peut être mise en forme matricielle :
~
~
H⋅h * = µ (4.37)
où H est une matrice ∆M∆N×L, avec les éléments définis selon :

h p∆M + q ,k = h[k + qN ]W∆ M
− pk
(4.38)
T
 ∆M 
et µ est un vecteur ∆M∆N dimensionnel donné par µ =  ,0,0,...,0  .
 N 
Une condition nécessaire et suffisante pour que la solution de (4.37) existe est que la taille de
µ soit inférieure ou égale au nombre de colonnes de H. Dans le cas de l’échantillonnage critique,
∆M∆N=L, H est une matrice carrée et la solution sera unique. Dans le cas du sur-échantillonage,
∆M∆N<L le système (4.37) et indéterminé est, par conséquent, la solution ne sera pas unique. Donc,
il faut alors trouver un critère pour la sélection optimale de la fonction duale, hopt [k ] .
~
Comme la fonction élémentaire h[k] est une fonction gaussienne qui est optimalement
concentrée dans le domaine temps-fréquence, une idée naturelle pour la sélection de la fonction duale
optimale est de minimiser l’erreur quadratique moyenne , définie selon :
2 
L −1  ~ 
2 
h [k ]
L−1 ~
 h [k ]  h [k ]h[k ]
~

Γ = min ∑ ~ − h[k ] = min ∑   ~  − 2 ~ + h 2
[k ]=
H ⋅h = µ k = 0  h 
~ ~
H ⋅h = µ k =0 h h 
   (4.39)
 
 2 L−1 ~ 
= min~ 
2 − ~ ∑ h [k ]h[k ]
H ⋅h = µ  h k =0 


L−1
∑ h [k ]
~ ~ 2
où h = . Compte tenu de (4.36), la relation (4.39) devient :
k =0
 
 1 ∆M 
Γ = min~ 
1− ~  (4.40)
H ⋅h = µ  h N 
 
par h [k ] (solution du système linéaire (4.37))
~
qui montre que la solution optimale sera donnée
d’énergie minimale.
On suppose que la matrice H est de rang p et que son nombre de lignes vaut q. En appliquant
la décomposition en valeurs singulières à la matrice H, (4.37) devient :
~
USV ⋅ h * = µ (4.41)
où S∈R et les matrices U ∈ C et V∈ C
q,L q,q L,L
sont des matrices unitaires. Si on multiplie les deux
T
parties de (4 .41) par U , celle-ci devient :
 S 0p× p

O p×(l − p )   V p0×L  ~
 1 [ ] T
 h = U q0× p U 1q×(q − p ) µ (4.42)
O( q− p )× p O(q − p )×(l − p )  V(L − p )×L 
La solution de (4.42) existe si µ est orthogonal sur U1 (la condition de consistance). Dans ce
cas, (4.42) peut être réécrite selon :
~
Ĥ ⋅ h * = µ̂ (4.43)
( ) T
où Hˆ = S 0V 0 ∈ C P , L et µˆ = U 0 µ . En utilisant la pseudo-inverse de Ĥ , la solution optimale
devient :
~*
hopt (
= Hˆ T Hˆ Hˆ T
−1
)
µ̂ (4.44)
La fonction duale ainsi obtenue s’approche de celle de Gabor lorsque le taux de sur-
échantillonage augmente. Comme résultat immédiat, la concentration de la fonction duale dans le
plan temps-fréquence s’approche de la fonction optimale, par conséquent, les coefficients de Gabor
vont approximer au mieux les caractéristiques locales du signal.
4.2.4. Conclusions
Dans les sections 4.1 et 4.2 la problématique des représentations temps-fréquence linéaires
pour lesquelles le principe d’incertitude d’Heisenberg-Gauss constitue l’inconvénient majeur a été
présenté. La transformée qui minimise au mieux l’influence de ce principe est celle de Gabor.
Néanmoins, dans les cas pratiques, cette transformation ne respecte plus les propriétés mathématiques
de base ou celles-ci ne sont pas toujours utiles dans les applications pratiques. Ainsi, quelques
considérations sur le cas du sur-echantillonage, qui a pour but l’amélioration de la lisibilité de la RTF,
ont été faites pour obtenir une solution satisfaisante. Ce cas apporte des difficultés sur la
détermination de la fonction duale optimale et une solution générale à ce problème a été approchée.
4.3. La transformée ondelettes continue (TOC) [4,5]
Durant les vingt dernières années, les décompositions en bandes de fréquences ont trouvé de
nombreuses applications en traitement du signal. L'expansion d'une fonction sur quelques bandes de
fréquences donne une représentation intermédiaire entre une représentation spatiale (ou temporelle) et
une représentation de Fourier. En analyse harmonique, ce type de représentation est apparu dans les
travaux de Littlewood et Payley dans les années 1930. De nombreuses recherches ont convergé

récemment pour la création d'une nouvelle décomposition appelée Transformations en Ondelettes.

Pour mieux comprendre ce modèle nous allons en décrire les motivations.
La transformée de Fourier (TF) d'une fonction f(t) donne une mesure des irrégularités (hautes
fréquences du signal) mais cette information n'est pas localisée. Pour éliminer cet inconvénient,
Gabor a introduit la notion de transformée de Fourier à court terme, en introduisant une fenêtre
d'analyse h(t) dans l'intégrale de Fourier. Cette fenêtre est translatée sur tout le domaine temps-
fréquence, et, par conséquent, on mesure, autour d'un point u, l'amplitude de la composante
sinusoïdale de fréquence f. Le problème de cette représentation est d'utiliser une fenêtre de taille fixe
couvrant le domaine temps-fréquence. Or, on souhaiterait avoir une fenêtre qui s'adapte en fonction
des irrégularités du signal. Il s'agit de la Transformation en Ondelettes.
Morlet et Grossman ont formalisé de nombreux concepts introduits, pour certains, dès le début
du siècle. Ils ont ouvert la porte à un vaste champ d'applications et à de nouveaux résultats très
importants. Actuellement, il serait difficile d'énumérer tous les domaines d'application de cette théorie
tant ils sont nombreux, que ce soit en traitement du signal (bancs de filtres), en compression (parole,
images, scènes tri-dimensionnelle), en chimie, en physique, en astronomie etc. En traitement du
signal, la théorie des bancs de filtres a donné lieu au fameux schéma de décomposition -
reconstruction de Stéphane Mallat. En compression d'images, l'algorithme de décomposition
pyramidale d'une image a servi de base pour l'analyse multirésolution. Mais avant tout on va
présenter, dans la section suivante, ce qu’est une ondelette.
4.3.1. La notion d'ondelette. Exemples
Une ondelette est une fonction avec quelques propriétés particulières. Dans le contexte le plus
général, la fonction ondelette satisfait les conditions suivantes
1. Elle a une structure courte, d'énergie finie, dans le domaine temporel;
2. Elle présente quelques oscillations dans le même domaine.
La première condition fournit l'attribut "little" et la deuxième - l'attribut "wave" (onde) et d'ici,
le nom dans le langage anglo-saxon : "wavelet" .
Une fonction ondelette générée, par dilatation (ou contraction) et translation (selon l'axe
temporel), génère une famille de fonctions ondelettes. Mathématiquement, cette famille est générée
selon {τ t Ds g}, où g est appelée la fonction ondelette d'analyse ou l'ondelette mère. Cet ensemble
contient toutes les versions dilatées (par s) et translatées (par t) de la fonction d'analyse. D'une
manière très générale, la TOC est définie comme la projection d'un signal f sur toute la famille des
fonctions ondelettes f ,τ t Ds g . A chaque point (t,s) dans le plan temps-échelle, l'amplitude de la
transformée ondellete fournit une information sur le degré de ressemblance entre le signal analysé et
la version de g décalée de t, à l'échelle s.
Dans les applications pratiques (debruitage, compression etc.) on veut que la TOC soit
inversible et, par conséquent, les conditions 1 et 2 ne sont pas suffisantes : il faut que la famille
générée par g soit complète. Autrement dit, chaque fonction f doit être représentable par une
combinaison linéaire des fonctions générées par g. La troisième condition consiste donc à assurer
l'inversion de la TOC; par la suite, on verra que cette condition est satisfaite si g est une fonction de
moyenne nulle (ce qui impose le caractère oscillant de la fonction).
Dans la suite on va donner quelques exemples de fonctions d'ondelettes fondamentales, qui
vont nous aider pour la compréhension des éléments qui seront introduits après.
A. Ondelette de Haar
L'ondelette de Haar représente l’exemple le plus classique de la fonction ondelette. La famille

d’ondelettes générée par celle-ci forme une base orthonormale si et seulement si les translations et les
dilatations sont restrictionées aux indices dyadique (puissance de 2).
L'ondelette de Haar est définie selon (voir la figure 4.7.a pour la représentation graphique) :
g Haar =
1
[ ]
1[−1 / 2,0 ) − 1(0,1 / 2 ] (4.45)
2
où "1" est la fonction indicatrice définie selon : 1t =1, quelqu'en soit t. Dans le domaine fréquentiel,
l'ondelette de Haar est donnée par :
2  πγ 
sin  
 2 
gˆ Haar (γ ) = j 2 (4.46)
πγ
A cause de fait que l'enveloppe fréquentielle de g décroisse avec γ, la localisation fréquentielle
offerte par l'ondelette de Haar est faible.
Haar
Imag(Haar^)
Figure 4.7. Ondelette de Haar
La caractéristique de base de cette fonction est le support compact en temps, ce qui nous
autorise d'utiliser cette fonction pour la détection des transitoires, dans le domaine temporel.
B. Ondelette de Shannon
L'idée de base de la conception de cette fonction est d'assurer un support fréquentiel compact
sur un certain intervalle, défini en terme de fréquence centrale, γc, et la largeur de bande désirée, γb :
(γ c − γ b / 2;γ c + γ b / 2] . La transformée de Fourier de cette ondelette s'écrit alors :
1, γ ∈ (γ c − γ b / 2; γ c + γ b / 2]
gˆ Shannon (γ ) =  (4.47)
 0, sinon
L'expression temporelle de l'ondelette de Shannon devient :
sin (πγ b t )
g Shannon (t ) = γ b−1 / 2 e j 2πγ ct (4.48)
πt
A l'opposée de l'ondelette de Haar, l'ondelette de Shannon permet d'avoir une bonne
localisation fréquentielle tandis que la localisation temporelle sera très faible, car l'enveloppe
temporelle décroît en 1/t.
La fonction ondelette de Shannon est un exemple d'ondelette construite dans le domaine
fréquentiel.
C. Les ondelettes B-splines
Les ondelettes B-spline représentent une généralisation de l'ondelette de Shannon. Elles sont
définies en association avec un ensemble de fonctions θm (la fonction B-spline d'ordre m), définies
selon :

∆  sin πt  m
θ m (t ) =  ; m = 1, 2,3,.... (4.49)
 πt 
Dans le domaine fréquentiel, l'expression de ces fonctions est :
θˆm = 1[−1 / 2 ,1 / 2 ) * 1[−1 / 2,1 / 2 )... * 1[−1 / 2,1 / 2 ) (4.50)
m fois
La fonction ondelette B-spline d'ordre m est définie, dans le domaine fréquentiel, selon :
∆
gˆ m =τ γ c D mγ −1θˆ m (4.51)
b
τ est l'opérateur de translation et D - l'opérateur d'échelle.
En utilisant les propriétés de la transformée de Fourier on trouve l'expression temporelle d'une
fonction ondelettes B-spline d'ordre m :
m
  πγ b  
(1 / 2 −m)  sin  
γb    m 
g m (t ) =   e j 2πγ ct   (4.52)
m πt
 
 
 
L'intérêt pour les ondelettes B-spline est dû au compromis satisfaisant entre les localisations
temporelle et fréquentielle : comme observé sur la figure suivante l'ondelette B-spline est
relativement bien localisée en temps et en fréquence.
B-spline : γc =0.14; γb=0.2; m=2
Temps
TF de B-spline
Fréquence
Figure 4.8. Exemple de fonction ondelette B-spline
D. L'ondelette de Morlet
Comme illustré dans les exemples précédents le choix d'une ondelette comporte un certain
compromis entre la localisation temporelle et fréquentielle. Dans ce contexte, une idée naturelle est
d'utiliser la fonction gaussienne (le meilleur compromis entre les résolutions temporelle et
fréquentielle - voir le sous-chapitre précédent) modulée, pour couvrir la bande de fréquence désirée,
qui est déterminée selon la relation :
γ b = ∫ γ 2 gˆ Morlet (γ )dγ (4.53)
L'expression analytique de l'ondelette de Morlet est :

g Morlet (t ) = ⋅ e j 2πγ c t −(t / γ b )
1 2
(4.54)
πγ b
La transformée de Fourier de l'ondelette de Morlet s’écrit (exercice 11.d.) :

γ b (γ − γ c )2
gˆ Morlet (γ ) = e −π
2
(4.55)
Cette ondelette n'a pas une moyenne nulle, donc, pour l'utilisation de celle-ci il faudra
effectuer quelques modifications.
4.3.2. La transformée en ondelettes continue directe
La définition mathématique de la TOC, à partir des opérateurs introduits dans le chapitre 2,

s’écrit :
Pour un espace de Hilbert H, la transformée ondelettes continue est une application Wg : H→
Wg (H) parametrée par la fonction ondelette g. Plus rigoureusement, la transformée ondelette
continue d’une fonction f∈ L2 (R) est donnée par :
Wg : L2 (R ) → W g L2 ( R ) ( ) (4.56)
f a f , τ t Ds g L (R )
2
où τt Dsg est la version dilatée (par s) et translatée (par t) de g, écrit d'une manière explicite selon :
(τ t Ds g )(σ ) =
s g ( s(t − σ ))
1/ 2
(4.57)
Ainsi, la TOC d'un signal mono-dimensionnel est une fonction bidimensionnelle des variables
réelles t et s et peut être écrite selon :
( )
∆
(W g f )(t, s ) = f , τ t D s g = f (t ) * D s g * (− t ) (4.58)
Pour des valeurs particulières de s et t la TOC associe au signal f une valeur numérique
complexe qui décrit quantitativement la similarité entre ce signal et la version dilatée de s et
translatée de t de l'ondelette g. En utilisant la relation (4.57), (4.58) peut être écrite d'une manière
intégrale selon :
(Wg f )(t, s) = s 1 / 2 ∫ f (σ )g * (t − σ )dσ (4.59)
R
Selon l'équation (4.(8), la transformée Wg f peut être interprétée comme la sortie d'un banc
infini de filtres linéaires, décrits par la réponse impulsionelles Dsg* (figure 4.9).
f Ds g* (Wg f)(t,s)
Figure 4.9. La TOC vue comme la sortie d'un banc infini de filtres linéaires
Les propriétés de base de la TOC sont :
( ) ( ) ( )
1. (Linéarité) W g (af1 + bf 2 ) (t , s ) = a W g f 1 (t , s ) + b W g f 2 (t , s ); ( ∀) a, b ∈ R, (∀) f 1 , f 2 ∈ L2 (R )
( ) ( )
2. (Invariance en temps) W g (τ b f ) (t , s ) = W g f (t − b, s )
3. (Dilatation) (W g ( D a f ))(t , s ) = (W g f )(at , a −1 s ); a ≠ 0
La demonstration de ces propriétés est proposée à titre d’exercice (exercice 12).
4.3.3. La transformée ondelettes continue inverse
L'inversibilité de la TOC est une des plus importantes propriétés de celle-ci. L'idée pour la
reconstruction à partir de TOC est basée sur l'interprétation de cette transformation comme la sortie
d'un banc infini de filtres linéaires décrits par leurs réponses impulsionelles Dsg* . D'une manière
alternative ce banc peut être décrit en terme de la réponse fréquentielle {D s−1

}
gˆ * . Pour déterminer
l'inverse de tout le banc de filtres, on suppose, tout d'abord, que ce banc est composé d'un seul filtre,
ayant la réponse impulsionelle g. On suppose également que le support fréquentiel du signal f est
entièrement inclus dans le support fréquentiel de g et que la transformée de Fourier de celle-ci
respecte les conditions suivantes :
• ĝ est continue
• gˆ > ε > 0 pour tout le support de fˆ .
Dans ce cas, tous les signaux f peuvent être reconstruits à partir de la TOC (f∗g) selon :
  
f = ( f ∗ g ) ∗ h = TF −1  fˆ ⋅ gˆ ⋅  gˆ * ⋅ 2 ⋅ 1 suppfˆ 
1
(4.60)
 gˆ 
  
∆ 1
où hˆ = gˆ * ⋅ 2 ⋅ 1suppfˆ représente le filtre inverse de g sur tout le support fréquentiel de fˆ . Grâce
gˆ
aux conditions imposées ci-dessus, le filtre h est bien défini. La figure suivante présente, de manière
schématique, l'implémentation d'un seul filtre inverse, suggérée par la relation (4.60).
f g g(-t) TF −1 gˆ ( )
−2 f
g -1
Figure 4.10. L'implémentation du filtre inverse de g
Si on considère le cas d'un banc de filtres continus {gs}, indexés par s; on suppose que
l'ensemble {gs } satisfait la condition suivante :
2
0 < ∫ gˆ s ds < ∞ (4.61)
En généralisant le concept présenté sur la figure 4.10., le banc inverse de filtres {gs } sera
implémenté selon le schéma présenté sur la figure suivante :
 −1 
h = TF −1  ∫ gˆ s ds  
2
f gs g s(-t) ∫ ds f
  
g s -1
Figure 4.11. L'implémentation de la banque des filtres inverse
Dans le domaine fréquentiel cette procédure d'implémentation s'écrit selon :

s s
2
yˆ = ∫ fˆgˆ ⋅ gˆ * ds = fˆ ∫ gˆ ds( s ) (4.62)
2
Donc, fˆ peut être obtenue par la division de ŷ par ∫ gˆ s . Cette opération est bien définie
car grâce à la condition (4.61), elle peut être interprétée comme un filtrage linéaire avec la réponse
impulsionelle donnée par h :
 
h = TF  
−1 1
(4.63)
 2 
∫ s
gˆ ds 
Dans le cas de la TOC, l'expression de g s est donnée par g s = Ds g et l'expression de la
réponse impulsionelle du banc de filtres inverse devient :

 
−1  1 
h = TF  2
 (4.64)
∫ Ds −1 gˆ ds 
 
Le théorème suivant donne l'expression de la TOC inverse, dans le cas d'un signal à energie
finie.
Théorème 4.1. (TOC inverse) Soit F=Wg f la TOC d'un signal f∈L2 (R) et g∈ L2 (R)\{0} telle que
∆
gˆ (γ ) dγ < ∞
−1 2
C = ∫R γ (4.65)
( )
et l'application W g− 1 : W g L2 (R ) a L2 ( R) définie selon :
∆
W g−1 F = C −1 ∫R F (⋅, s ) ∗ ( Ds g )ds =
(4.66)
∫R ∫R F (σ , s )(τ σ Ds g )dsd σ
−1
=C
Alors f = W g−1 F .
Demonstration :
La relation (4.58) s'écrit, dans le domaine fréquentiel, selon :

( ) (
W g f ^ (γ , s ) = fˆ ⋅ Ds −1 gˆ * (γ ) ) (4.67)
En multipliant, les deux membres, par Ds−1 gˆ et, en intégrant pour toutes les échelles s, on
obtient :
(
∫s ≠0 W g f )^ (γ , s )(D s gˆ )(γ ) = ∫R  fˆ ⋅ Ds
−1 −1
2
gˆ (γ )ds =

= fˆ (γ )∫R s
−1
( )
−1
gˆ s γ
2
ds = (4.68)
−1
u =s γ
fˆ (γ )∫R u gˆ (u ) du
−1 2
=
A partir de cette relation on obtient la transformée de Fourier du signal de départ :

( )
fˆ (γ ) = C −1 ∫R W g f ^ (γ , s ) Ds −1 gˆ (γ )ds ( ) (4.69)
En temps, cette relation devient :
(( ) )
( 4.65)
f (t ) = C −1 ∫R W g f (⋅, s ) ∗ ( D s g ) (t )ds = W g−1 F (4.70)
En fait, la relation (4.65) et la condition auxiliaire C>0 (qui est verifiée par n'importe quelle
fonction différente de 0) représente la condition d'admissibilité qui garantit l'existence de la TOC
inverse. D'une manière alternative, on peut dire que la TOC existe si le terme γ −1 / 2 gˆ (γ ) ∈ L2 (R ) .
La relation (4.65) est verifié par toutes les fonctions pour lesquelles gˆ (0 ) = 0 , donc toutes les
fonctions oscillantes. En conclusion, toutes les fonctions g∈L1 (R) ⊂ L2 (R) (absolument intégrable) à
moyenne nulle peuvent constituer des fonctions ondelettes pour lesquelles il est possible de définir la
TOC inverse.

4.3.4. La discrétisation de la transformée en ondelettes continue
La transformée en ondelettes discrète (TOD) est générée par l'échantillonnage, dans le plan
temps-échelle, de la TOC correspondante. Ainsi, la TOD est caractérisée par les deux éléments :
1. Une fonction ondelette d'analyse
Les aspects sur le choix de la fonction d'ondelette d'analyse ont été discutés dans les sections
précédents. Le critère de base est donné par la condition d'admissibilité. De plus, pour des
applications où la reconstruction est indispensable, on introduit la condition supplémentaire
d'orthogonalité ou de bi-orthogonalité.
2. Le réseau d'échantillonnage temps-échelle
L'existence de ce réseau est imposée par des nécessitées pratiques : la relation (4.58), qui
donne l'expression de la TOC, ne peut être évaluée que avec une précision finie, associée au
calculateur. Par conséquent, il faudra restreindre le domaine continu de variation de t et s à un
∆
{
ensemble discret Γ ={(t m, n , s n )} qui va générer un ensemble "fini" d’ondelettes : τ tm , n D sn g .}
Théoriquement, on peut choisir n'import quel réseau d'échantillonnage, mais en pratique, pour
assurer la reconstruction parfaite, on utilise un réseau d'échantillonnage dyadique (voir la figure
4.12).
∆
{(
ΓD = 2 −n m, 2 n )}
m, n∈Z (4.71)
Echelle
23
22
21
20 Temps
1 2 3
Figure 4.12. Réseau d'échantillonnage dyadique dans le plant temps-échelle
En conclusion, le terme transformation en ondelettes discrète est utilisé pour indiquer un type
particulière d'échantillonnage de la TOC, qui satisfait les conditions suivantes :
a. Le réseau d'échantillonnage temps-échelle doit être dyadique;
b. La famille des ondelette {τ t Ds g }(t , s )∈Γ doit former une base orthonormale pour l'espace
D
d'intérêt;
c. L'ondelette d'analyse doit avoir un support compact (ainsi, toute la famille générée aura un
support compact).
Sous ces conditions, il existe un algorithme rapide (pyramidal) pour le calcul de la TOD, en
utilisant uniquement des filtres de réponse impulsionelle finie. Cet algorithme sera détaillé dans le
chapitre suivant.
Le fort intérêt pour la TOD est dû à deux facteurs majeurs. Premièrement, les coefficients issus
de la TOD expriment la ressemblance entre le signal traité et les ondelettes associées, exactement
comme dans le cas de la TOC. De plus, le nombre des coefficients sera fini ce qui nous permet
d'appliquer cette approche sur des systèmes numériques (ordinateurs, processeurs numériques du

signal etc). Deuxièmement, les conditions imposées ci-dessus nous assurent la reconstruction parfaite
du signal initial, à partir des coefficients de la TOD. Par conséquent, cette approche est bien adaptée
pour des applications comme le débruitage ou la compression des données.
4.3.5. Le scalogramme. Comparaison entre la TFCT et la TOC
Dans le paragraphe (4.1) on a vu qu'à partir de la TFCT (qui peut être interprétée comme la
projection d'un signal sur un ensemble de fonctions de base) on peut générer une distribution
énergétique du signal qu'on appelle le spectrogramme. Précédemment on a montré que la TOC
représente aussi une projection du signal sur un ensemble des fonctions ondelettes.
υ
Ainsi, la TOC peut se rattacher à l’analyse temps-fréquence en posant υ = 0 , ce qui permet de
a
construire la scalogramme défini par :
2
(  υ 
)
ρ (t, υ ) = Wg f  t, 0 
 a 
(4.72)
Pour comparaison avec la TFCT, on présente sur la figure suivante les bancs de filtres
correspondants à la TFCT et à la TO et, également, les pavages temps-fréquence correspondants.
S(υ ) S(υ )
υ υ
a. Banc de filtres de TFCT : Largeur de c. Banc de filtres de TO : Largeur de
bande - constante bande – croissante avec la fréquence
Fréquence
Fréquence
Temps Temps
b. Le pavage T-F généré par TFCT d. Le pavage T-F généré par TO
Figure 4.13. Comparaison entre TFCT et TO
La différence principale avec la transformée de Fourier à court terme est que les résolutions ne
sont pas identiques en tous les points du plan temps-fréquence :
• dans le cas de changements brusques ou de structures très localisées, la transformée en
ondelettes existera essentiellement dans le domaine des petites échelles, aptes à «voir » des
détails fins du signal; cependant, puisque ces petites échelles sont traduites par une ondelette
analysante de support temporel réduit, il s’en suit que son support fréquentiel est étendu, ce
qui limite la résolution fréquentielle absolue;
• réciproquement, une résolution fréquentielle importante n’est possible qu’avec une ondelette
analysante longue, soit à de grandes échelles d’observation. Dans la zone du plan temps-
fréquence où le gain en résolution fréquentielle est possible, celui-ci se fait donc encore au
détriment de la résolution temporelle.
L’analyse en ondelettes présente cependant l’avantage de ne pas correspondre à une résolution

fixée a priori par le choix du signal élémentaire : c’est fondamentalement une analyse multi-échelles.
La propriété de base du scalogramme est la conservation de l'énergie du signal et s'écrit :

∞ ∞
( )
∫−∞ ∫−∞ W g f (t , s ) dt
ds
s
=Ef
2
(4.73)
Cette relation justifie l'attribut de "distribution énergétique du signal" dans le plan temps-
échelle. Comme dans le cas du spectrogramme, le scalogramme est aussi affecté par le principe
d'incertitude. En fait, la résolution temporelle est proportionnelle à s et la résolution fréquentielle est
inversement proportionnelle à s.
D’autres propriétés temps-fréquence de la TOC seront discutées dans le chapitre suivant. Parmi
celles-ci, on peut citer la capacité d'analyser la régularité locale d'un signal, par rapport à la TF qui
permet d'analyser globalement un signal donné. Cette propriété est induite par la plus importante
caractéristique d'une ondelette : le nombre de ses moments nuls.
4.3.6. La transformée ondelettes supracomplete
La Transformation par Ondelette Supracomplete (TOS) peut être obtenue, à partir de la

Transformation en Ondelettes Continue (TOC), par une procédure d’échantillonnage différente de
celle qui suit une répartition dyadique. L’implémentation de cette transformation est présentée sur la
figure suivante.
Signal d’analyse f
OCWT (Morlet: a0=1.5)

FFT(Ds2 g)
FFT(DS1 g)
FFT(DSn g) Fréquence
W g f - « Continuous » Wavelet Transform

Temps
Banc de filtres supracomplets (Morlet:a=1.5)
Supra-échantillonage (Over Sampling)
Γm , n = (t m , n , s m )
t m , n = n∆ et s m = a m0
a 0 ∈ (1, 2 ); pour a 0 = 2 − DWT
TOS du signal f
Figure 4.14. Implémentation de la TOS
L’idée de la TOS est de construire un banc de filtres, à partir de l’ondelette mère g et,
contrairement à la TOD, on va concevoir ce banc dans le domaine fréquentiel, en utilisant la
transformation de Fourier rapide (Fast Fourier Transform - FFT). Un exemple d’un tel banc, conçu à
partir de l’ondelette Morlet, est présenté sur la même figure. Le résultat de ce filtrage est similaire au
résultat d’une TOC. Pour obtenir la version discrète on choisit un réseau d’échantillonnage
logarithmique, avec un paramètre a0 qui contrôle le recouvrement entre les fonctions de transfert des
filtres et, mathématiquement, le degré de redondance de la transformation. Pour a0 =2 on obtient la
TOD.
L’élimination de la contrainte d’orthonormalité offre une large possibilité de choix de la
fonction d’ondelettes, qui peut être bien adaptée sur la structure du signal. Les avantages de TOS – la
robustesse contre le bruit et l’absence des termes d’interférence temps-fréquence – sont dus à un haut
degré de redondance, offert par la structure «cadre » de cette transformation. Ces avantages sont
illustrés dans l’exemple présenté en figure 4.14 : pour un signal formé par 7 atomes, la TOS fournit
une RTF lisible, sans termes d’interférences. On a utilisé le banc de filtres présenté sur la même
figure.
Pour plus de détails, les lecteurs peuvent consulter la référence [4].
Néanmoins, à cause du fait que la famille utilisée n’est pas orthogonale, on aura toujours des
problèmes de reconstruction. En conséquence, cette technique ne peut être utilisée que dans des
applications pour lesquelles la reconstruction n’est pas forcement nécessaire (par exemple, pour la
classification des signaux où on s’intéresse uniquement de l’extraction des caractéristiques du signal).
References
[1] S. Qian, D. Chen – “Joint Time-Frequency Analysis” , Prentice Hall, New Jersey, 1998
[2] P. Flandrin – “Représentations temps-fréquence” , Ed. Hermes, Paris, 1993
[3] L. Cohen – “Time-frequency analysis”, Prentice Hall, New Jersey, 1995
[4] S. Mallat – “A Wavelet Tour of signal processing”, Academic Press, 1998

Exercices et problèmes
1. (Les propriétés de la TFCT et du spectrogramme)
a) Identifier quelle est le modèle non-stationnaire adopté pour la construction de la TFCT (voir la
section 3.3).
b) Montrer que les marginales en temps et en fréquence du spectrogramme ont pour expression 4.7
et 4.8.
c) Justifier la propriété d’invariance par la translation temporelle et fréquentielle, dans le cas du
spectrogramme.
2. (Calcul de la TFCT) Calculer l’expression de la TFCT d’une sinusoïde s(t ) = e j ω 0t pour une
fenêtre gaussienne h (t ) = a π ( ) 1 / 4 −α t 2 / 2
e . Le même exercice que 2 pour une impulsion à t=t0 :
s(t ) = 2π δ (t − t 0 ) .
3. (Calcul de la TFCT) Le même exercice pour une fenêtre rectangulaire

h (t ) =
1
, −T /2 ≤ t ≤ T / 2 .
T
4. (Calcul du spectrogramme) On suppose la somme d’une sinusoïde et ‘une impulsion :
s(t ) = e jω 0 t + 2π δ (t − t 0 )
En utilisant la fenêtre h (t ) = a π
gaussienne ( ) 1 / 4 −α t 2 / 2
e , donnez l’expression du
spectrogramme. Commentaires sur le choix de la fenêtre.
5. (Spectrogramme) Evaluer les distributions marginales à partir du spectrogramme d’un signal

αt2
−  βt 2 
chirp donnée par s (t ) = e 2 exp  ω 0 t − 
 en utilisant la fenêtre gaussienne definie dans
 2
 
l’exercise 4.
6. (Transformée de Gabor) Compte tenu des différences entre l'échantillonnage critique et le sur-
échantillonage, quel genre d'applications peut-on envisager à partir de chacun des cas?
7. (Transformée de Gabor) Montrer que la transformée de Gabor vérifie la propriété d'invariance.
8. (Transformée de Gabor) Quelles sont les différences majeures entre la décomposition en série de
Fourier et en série de Gabor?
9. (Transformée de Gabor) A partir de la relation (4.33), retrouver la version discrète de l'identité de
Wexler-Raz.
10. (Transformée de Gabor) On suppose la transformée de Gabor d'un signal chirp pour deux taux de
sur-échantillonage.
a) Quelle est la relation d'ordre entre a1 et a2 ?
b) Est-ce que la représentation graphique des fonctions duales, dans ces deux cas, aurait-elle été
suffisante pour arriver à la même conclusion ?

11. (Exemples d' ondelettes) a) Calculer la transformée de Fourier de l'ondelette de Haar.

Représentation graphique.
b) A partir de l'expression de la transformée de Fourier de l'ondelette de Shannon (4.47), calculer son
expression temporelle.
c) Mettre en évidence les différences entre ces deux fonctions.
12. (Transformée ondelette continue) Prouver les propriétés de linéarité, invariance et dilatation de la
TOC.
13. (TOC inverse) Montrer que l'intégrale ∫R s

−1
( ) ds ne
gˆ s −1γ
2
dépend pas de s. Quelle est
l'importance de cette propriété ?
14. (Discrétisation de la TOC)

a) Ecrire l'expression générale de la fonction ondelette pour un réseau d'échantillonnage discret
{
Γa = a −n m, a n .}
b) La propriété d'invariance est-elle conservée ?
c) Comparer l'expression obtenue au point a) avec celle d'une fonction de Gabor. A partir de cette
comparaison, quel est l'avantage des ondelettes par rapport aux atomes de Gabor ?
15. (Calcul de la TOC)

a) Calculer la TOC d'une impulsion définie par :
1, x ∈ [a , b ]
x (t ) = 
0, x ∉ [a, b]
b) Sur la figure suivante, mettre a et b aux bons endroits. Quelle est la signification des axes ?
16. (Calcul de la TOC) Montrer que la TOC d'une fonction Dirac δ(x 0 ) vaut sg (s ( x0 − t )) (s – indice
d’échelle). Représentation graphique.
17. (TOS) Expliquer l'importance du degré de redondance dans le cas de TOS. Montrer, à partir du
banc de filtres présenté sur la figure 4.14, la signification physique de celui-ci.

5. Analyse multirésolution et paquet d'ondelettes
5
ANALYSE MULTIRESOLUTION ET PAQUET D'ONDELETTES
5.1. Analyse Multi-résolution ([1], [3])

Il existe deux façons d'introduire les ondelettes : l'une à travers la transformation ondelette
continue (présentée dans la section 4.3.), l'autre au travers l'analyse multirésolution. En effet, afin
d’assurer une représentation non-redondante du signal et la possibilité de le reconstruire parfaitement
à partir de sa décomposition, Mallat et Meyer [1] ont mis au point en 1989 un outil très efficace et
très flexible qui a engendré depuis un nombre impressionnant d’applications: l’analyse multi-
résolution. Grâce à ce concept il a été possible l'implémentation pratique de la décomposition en
ondelette [2].
Pour mieux comprendre ce que l'on appelle Analyse Multi-résolution, prenons cet exemple :
quelle est la longueur de la côte bretonne ? Nous pouvons prendre un globe, avec une règle on calcule
la distance et grace l'échelle de la carte on en déduit la longueur de la côte. Il s'agit d'une vision très
grossière de l'allure de la côte. Prenons maintenant une carte de France et on répète les mêmes
opérations. On aura alors un aperçu beaucoup plus précis de la côte et de sa longueur. Si on prend une
carte de Bretagne, là encore notre vision de la côte sera bien plus fine. Finalement, on peut se rendre
sur le terrain et on aura la vision la plus fine qui soit pour calculer la longueur de la côte. Ainsi,
d'échelle en échelle (mais nous préférons le terme de résolution), les détails viennent affiner notre
image de la côte, d'une vision grossière on passe à une vision fine et plus précise.
5.1.1. Définition et Propriétés de l'analyse multi-résolution
Mathématiquement, en analyse multi-résolution on cherche à écrire toutes fonctions f de L2

comme la limite d'approximations successives, chacune étant une version lissée de f, avec des
fonctions lissées de plus en plus concentrées.
Définition 5.1.1.(Analyse Multi-résolution) Une suite V j { }j∈Z de sous-espaces fermés de L2(R) est une
analyse multi-résolution si les 6 propriétés suivantes sont vérifiées :
( )
1. ∀( j , k ) ∈ Z 2 , f (t ) ∈ V j ⇔ f t − 2 j k ∈ V j (5.1)
2. ∀j ∈ Z , V j +1 ⊂ V j (5.2)
3. ∀j ∈ Z , f (t ) ∈ V j ⇔ f   ∈ V j +1
t
(5.3)
2
∞
4. U V j = L2 (R ) (5.4)
j = −∞
∞
5. I V j = {0} (5.5)
j = −∞
6. Il existe θ ∈ V0 telle que {θ (t − n )}n∈Z soit une base de Riesz de V0 .
Pour une meilleure compréhension, donnons les interprétations intuitives de ces propriétés.
La première (relation 5.1) montre que Vj+1 est l'image de Vj par une dilatation d'un facteur 2;
autrement dit, il existe une grille fréquentielle sous-jacente en progression géométrique. La deuxième

propriété (relation 5.2) montre que pour tout j, Vj+1 est un sous-espace de Vj, ce qui revient à dire
qu'un signal basse résolution est aussi un signal à haute résolution.
Les relations 5.4 et, respectivement, 5.5 montrent que l'intersection des Vj est réduite à 0 dans
L2 (à résolution minimale, on perd toute l'image) et que la réunion des Vj est dense dans L2 (à la
résolution infinie, on reproduit parfaitement tous les signaux). La condition (5.3) assure que les
espaces Vm correspondent à différentes résolutions tandis que l'invariance par translation :
(
f ∈ Vm → f t − 2 m n ∈ Vm , ∀n ∈ Z ) (5.6)
est une conséquence de 5.1.
A partir de cette définition, on peut présenter dans la suite les propriétés de base de l'analyse
multi-résolution. Pour cela, on définit l'opérateur Pm de projection orthogonale sur Vm .
1. Orthogonalité et biorthogonalité. L'espace d'approximation
L'approximation de f à la résolution 2-j est définie comme la projection orthogonale PV j f sur

Vj. Pour calculer cette projection il faut trouver une base orthogonale de Vj. Le théorème suivant
donne le support pour l'othogonalisation de la base Riesz {θ (t − n )}n∈Z et pour la construction d'une
base orthogonale pour caque sous-espace Vj par la translation et la dilatation d'une seule fonction φ,
appelée fonction d'échelle.
Théorème 5.1.(Mallat et Meyer) Soit V j { }j∈Z une analyse multi-résolution et φ la fonction d'échelle
dont la transformée de Fourier vaut
θˆ (ω )
φˆ(ω ) = (5.7)
1/ 2
 ∞ 2
 ∑ k =−∞ θˆ(ω + 2 kπ ) 
 
Soit φ j ,n (t ) =
t−n
1
{ }
φ  j  . La famille φ j ,n n∈Z est une base orthogonale pour Vj, quelque soit j∈Z.
2j  2 
La demonstration de ce théorème est donnée en [1, pag. 225].
A partir du résultat issu de ce théorème la projection orthogonale de f en Vj peut être écrite par
:
∞
PV j = ∑ f , φ j ,n φ j ,n (5.8)
n= −∞
Le produit scalaire
a j [n] =
f , φ j ,n =
∞
∫−∞
t − 2 j n
f (t )
φ
j  2j
1
 dt = f * φ *j 2 j n

( )
(5.9)
2  
L'énergie de la transformée de Fourier φ est concentrée sur l'intervalle [-π;π], comme il est
ˆ
illustré sur la figure 5.1. pour une ondelette spline cubique.
φ(t) TF {φ(t)}
Figure 5.1. Fonction ondelette spline cubique et sa transformée de Fourier

( )
La transformée de Fourier 2 j φˆ * 2 j ω de φ j* (t) est essentiellement centrée en [-2-jπ,2-jπ]. Par
conséquent, l'approximation discrète de aj[n] peut être interprétée comme le résultat d'un filtrage
passe-bas du signal f échantillonné aux intervalles 2j.
Néanmoins, l'orthogonalité impose des contraintes qui peuvent ne pas être souhaitables. L'une
des plus importantes est qu'une fonction d'échelle φ orthogonale à support compact ne peut pas être
symétrique et continue. La propriété de symétrie est utile pour l'analyse des signaux de longueur finie.
Certaines de ces restriction (notamment sur la symétrie) peuvent être attenuées en utilisant des
analyses multirésolutions biorthogonales. Ainsi, une paire [(V j),(V * l)] d'analyses multirésolutions
forme un système biorthogonal si et seulement si
L2 ( R ) = V0 ⊕ V0* ( ) ⊥
(5.10)
Alors V 0 admet une base de Riesz de la forme θ (t-n), n décrivant Z, telle que les translatés de
* *
θ et de θ* forment un système biorthogonal:

θ (t − k ),θ * (t − k ) = δ n−k (5.11)
On ne parle plus de base orthogonale, mais de base biorthogonale.
2. Construction et filtrage discret
Une analyse multi-résolution est entièrement caractérisée par la fonction d'échelle φ qui
génère une base orthogonale pour tout l'espace Vj. La propriété (5.2) impose que ∀j ∈ Z , V j +1 ⊂ V j .
En particulier 2-1/2φ(t/2) ∈V1 ⊂ V0 . Lorsque {φ (t − n )}n∈Z est une base orthonormale sur V0 on peut
écrire :
1 1 ∞
φ   = ∑ h[n]φ (t − n ) (5.12)
2  2  n=−∞
avec
1  1
h[n] = φ  , φ (t − n ) (5.13)
2  2
L'expression (5.12) s'appelle l' équation d'échelle est montre que φ(t/2) est une combinaison
linéaire des φ(t-n). La séquence h[n] peut être interprétée comme la réponse impulsionelle d'un filtre
discret.
Dans le domaine fréquentiel, (5.12) s'écrit selon :
φˆ(2ω ) = h(ω )φˆ(ω )
1 ˆ
(5.14)
2
∞
pour hˆ (ω ) = ∑ h[n ]e − jnω . Pour p>0 quelconque la relation (5.14) s'écrit :
n= −∞
(
φˆ 2 − p+1ω = ) (
1 ˆ −p ˆ −p
2
h2 ωφ 2 ω )( ) (5.15)
Par substitution, on obtient :

(
 P hˆ 2 − p ω  −P
φˆ(ω ) =  ∏
) (
φˆ 2 ω ) (5.16)
 p =1 2 

( )
Si φˆ(ω ) est continue en ω=0 alors lim φˆ 2 − P ω = φˆ(0 ) et (5.16) devient :
P →+∞
 h2 ω
φˆ(ω ) =  ∏
(
P ˆ −p )φˆ(0 ) (5.17)
 p =1 
 2 

L'étude des filtres h conduisant à des approximations de multirésolution a donné lieu à de

nombreux et importants théorèmes. Le premier d'entre eux donne des conditions nécessaires et
suffisantes pour que h engendre une fonction d'échelle.
Théorème 5.2.(Mallat et Meyer) Soit φ ∈ L2 (R) une fonction d'échelle intégrable. La série de Fourier
de h[n] = 2 −1/ 2 φ (t / 2 ), φ (t − n ) satisfait
∀ω ∈ R , hˆ (ω ) + hˆ (ω + π ) = 2
2 2
(5.18)
et
hˆ (0 ) = 2 (5.19)
Ainsi, si ĥ (ω ) vérifie (5.18) et (5.19) et si les conditions suivantes sont verifiées :
− ĥ (ω ) est périodique de periode 2π et différentiable au voisinage de ω=0 ;
− inf hˆ (ω ) > 0 (5.20)
ω∈[−π / 2,π / 2]
alors
φ (ω ) =  ∏
ˆ (
 P hˆ 2 − p ω ) (5.21)
 p =1 
 2 
est la transformée de Fourier de la fonction d'échelle φ∈L2 (R).
La demonstration de ce théorème est donnée en [1, pag. 229-234]. Ce théorème représente un

résultat fondamental dans le cadre de la problématique des ondelette et surtout, pour l'implémentation
pratique des techniques d’ondelettes. En effet, en pratique, la fonction d'échelle sera remplacée par les
coefficients h[n]. De plus, comme on verra dans la section suivante, ceci permet d'implémenter la
transformée en ondelettes et ses dérivées en utilisant une structure de banc de filtres.
La condition (5.18) signifie que h est un filtre miroir conjugué, qui sera défini dans la section
suivante. La condition (5.19) est une simple normalisation tandis que la condition (5.20) permet de
vérifier que la fonction définie par (5.21) est d'énergie finie.
3. La définition de la fonction ondelette. L'espace de détail
Les ondelettes orthogonales portent les détails nécessaires pour augmenter l'approximation du
signal. Les approximations de f à l'échelle 2j et 2j-1 sont respectivement égales à leurs projections sur
Vj et Vj-1. On sait que Vj est inclus dans Vj-1. Soit Wj la partie complémentaire de Vj dans Vj-1 :
V j −1 = V j ⊕ W j (5.22)
La projection orthogonale de f sur Vj-1 peut être décomposée comme la somme des projections
orthogonales sur Vj et Wj :
PV j−1 f = PV j f + PW j f (5.23)
La projection PW j f donne les détails de f qui apparaissent à l'échelle 2j-1 mais qui
disparaissent à l'échelle 2j. Le théorème suivant prouve que on peut construire une base orthogonal de
Wj par la translation et la modification d'échelle d'une ondelette ψ.
Théorème 5.3.(Mallat et Meyer) Soit φ une fonctions d'échelle et h – la reponse impulsionnelle du

filtre miroir conjugué. Soit ψ une fonction dont la transformée de Fourier est donnée par
1  ω  ˆ ω 
ψˆ (ω ) = gˆ  φ   (5.24)
2 2 2

avec
gˆ (ω ) = e −i ω hˆ * (ω + π ) (5.25)
Soit
t −2 jn
j ,n (t ) =
1
ψ ψ  (5.26)
j  2j 
2  
Pour chacune des échelles 2j, ψ { j,n }n∈Z est une base orthonormale de Wj. Pour toutes les échelles
{ψ j,n }( j,n)∈Z 2 est une base orthonormale de L2 (R).
La demonstration de ce théorème (voir [1, pag. 236]) est basée sur le lemme suivant.
Lemme 5.1. La famille ψ { j,n }n∈Z est une base orthonormale pour Wj si et seulement si
gˆ (ω ) + gˆ (ω + π ) = 2
2 2
(5.27)
et
gˆ (ω )hˆ * (ω ) + gˆ (ω + π )hˆ * (ω + π ) = 0 (5.28)
Un des résultats issu de ce théorème est que ĝ est la transformée de Fourier de :

1 t
g [n ] =
ψ  , φ (t − n ) (5.29)
2  2
qui représente les coefficients de la décomposition de
1 t ∞
ψ   = ∑ g[n]φ (t − n ) (5.30)
2  2  n=−∞
En prenant la transformée de Fourier inverse de (5.25) on obtient :

g [n ] = (− 1)1−n h[1 − n] (5.31)
Le filtre miroir défini par cette relation joue un rôle important dans la définition de la
transformation en ondelette rapide.
Le théorème 5.3. représente un outil de base efficace pour la construction des bases
orthogonales à partir des coefficients du filtre miroir conjugué. Dans la section suivante on présente
les classes de bases d'ondelettes et, pour chacune des classes, on verra comment il est possible de
construire ĥ (ω ) pour des paramètres qui seront imposés.
5.1.2. Les classes de bases ondelettes
Il existe plusieurs applications de bases d'ondelette qui exploitent leurs capacité d'approximer
les classes des fonctions particulières par quelques coefficients ondelette différents de 0. A titre
d’exemple on peut citer la compression ou le debruitage des signaux. Ainsi, la construction de ψ doit
être optimisée pour produire un nombre maximal de coefficients qui sont proches de 0. Ceci dépend
seulement de quelques paramètres : la régularité de f, le nombre des moments nuls de ψ et la taille de
son support [1]. Par la suite on décrira les contraintes qu'il faut imposer à ĥ (ω ) pour pouvoir
construire une fonctions ψ adaptée à l'application souhaitée.
• Moments nuls ("Vanishing Moments")

Par définition, une fonction ψ a p moments nuls si
∞
∫ t ψ (t )dt = 0 pour 0 ≤ k ≤ p
k
(5.32)
−∞
c'est-à-dire que ψ est orthogonale à tous les polynômes d'ordre p (exercice 3). Dans [1, section 6.1.3.]
il est montré que si f est régulière et si ψ a un nombre suffisant de moments nuls, les coefficients
deduits du produit scalaire f ,ψ j ,n sont petits à l'échelle 2j. En effet, si f est localement dérivable
d'ordre k, alors sur un petit intervalle, elle peut être approximée par des polynômes de Taylor d'ordre
k. Puisque pour k<p, les ondelettes sont orthogonales à ces polynômes de Taylor, alors on obtiendra
de coefficients de petite valeur à cette échelle et, d'ici, l'intérêt d'avoir des ondelettes avec un nombre
important de moments nuls.
Le théorème suivant met en évidence la correspondance entre les moments nuls de ψ et les
dérivées nulles de ψˆ (ω ) à ω = 0 et du nombre de 0 de ĥ (ω ) à ω = π. Il montre également que les
polynômes d'ordre p-1 sont générés par les fonctions d'échelle.
Théorème 5.4. (Moments nuls) Soit ψ et φ une fonction ondelette et une fonction d'échelle qui génère
une base orthogonale. On suppose que ψ (t ) = O 1 + t 2

( )
− p / 2−1  
 et φ (t ) = O 1 + t
 
( )
2 − p / 2−1 
 . Les

quatre conclusions suivantes sont équivalentes :
(i) L'ondelette ψ a p moments nuls.
(ii) ψˆ (ω ) et ses premières p-1 dérivées sont nulles à ω=0.
(iii) ĥ (ω ) et ses premières p-1 dérivées sont nulles à ω=π.
(iv) Pour tout 0≤k<p,
∞
q k (t ) = ∑ n φ (t − n ) est un polynome d' ordre k
k
(5.33)
n = −∞
La demonstration de ce théorème est proposée comme exercice (exercice 7).
La proposition (iv) est appelée la condition de Fix-Strang; elle prouve que ψ a p moments nuls
si et seulement si tous les polynômes d'ordre p-1 peuvent être écrits comme une expansion linéaire de
{φ (t − n )}n∈Z .
• La taille du support
Si une fonction f a une singularité isolée à t 0 (elle n'est pas définie en ce point) et si t 0
t −2 jn
appartient au support de ψ j ,n (t ) =
1
ψ  , alors f ,ψ j ,n peut avoir une amplitude
j  2j 
2  
importante. Si ψ a un support compact de taille K, à chaque échelle 2j, il existe K ondelettes ψ j,n pour
lesquelles leurs supports incluent t 0 . Ainsi, pour réduire le nombre de coefficients à grande amplitude
il faut réduire la taille du support de ψ. La proposition suivante assure la liaison entre la taille du
support de h et le support de φ et ψ.
Proposition 5.1.(Support compact) La fonction d'échelle φ a un support compact si et seulement si le

support de h est compact. Dans ce cas, leurs supports seront les mêmes. Si le support de h et φ est
[N1 ,N2] alors le support de ψ est [(N1 -N 2+1)/2,(N 2 -N 1 +1)/2].
La demonstration de ce théorème est également proposée comme exercice 8.

Si h a une réponse implusionelle finie sur [N 1 ,N2], la proposition 5.2. prouve que le support de
ψ a une taille de N2 -N 1 , centré en 1/2. Du point de vue pratique, pour minimiser la taille du support
les filtres miroir conjugués doivent avoir un nombre de coefficients non-nuls plus petit possible.
La taille du support d'une fonction et son nombre de moments nuls sont, en général, des
notions indépendantes. Mais dans le cas des ondelettes orthogonales, on peut montrer (théorème 5.5)
que si ψ a p moments nuls alors la borne inférieure de la taille du support vaut 2p-1. Ainsi, la
construction d'une ondelette comporte un compromis entre la taille du support et le nombre de
moments nuls. Il existe plusieurs familles d'ondelette qui essaient de minimiser les effets de ce
compromis. La famille d’ondelettes de Daubechies ([3]), par exemple, est optimale au sens où elles
ont un support minimal pour un nombre de moments nuls donné.
En fait, le choix optimal d'une famille d'ondelettes suppose avoir une connaissance à priori sur
la structure du signal : si f a quelques singularités isolées et elle est très régulière entre ces singularités
alors il faudra choisir une ondelette avec un nombre important de moments nuls pour générer un
grand nombre de petits coefficients.
• Régularité
La propriété de régularité de ψ agit sur l'erreur introduite par le seuillage ou la quantification

des coefficients d’ondelette. Quand on reconstruit un signal, pour faire la compression, par exemple,
on utilise les coefficients d’ondelette selon
∞ ∞
f = ∑ ∑ f ,ψ j ,n ψ j ,n (5.34)
j = −∞ n= −∞
Une petite modification ε des coefficients f ,ψ j ,n engendre une modification εψ j,n sur le
signal reconstruit. Si ψ est une forme lissée, l'erreur sera aussi lissée (par le terme forme "lissée" on
entend une fonction multiple différentiable, avec des dérivées continues). Ainsi, pour des applications
comme le débruitage ou la compression il faudra mieux choisir une ondelette lissée qu'une forme
discontinue, comme l'ondelette de Haar, par exemple.
Dans le paragraphe suivant présente les principales types des ondelettes et leurs propriétés.
Les expressions fréquentielles de ces ondelettes seront déduites à partir de la relation de base, fournie
par le théorème 5.3. :
1  ω  ˆ ω  1  jω  ˆ *  ω  ω 
ψˆ (ω ) = gˆ  φ   = exp  −  h  + π φˆ   (5.35)
2 2 2 2  2  2  2
1. Les ondelettes de Shannon, Meyer et Battle-Lemarié
L'ondelette de Shannon est construite à partir de l'analyse multi-résolution qui approxime les
fonctions par leurs restrictions aux intervalles basses fréquences, pour φˆ = 1[-π ,π ] et
hˆ (ω ) = 2 1[-π / 2,π / 2] pour ω ∈[-π,π] et à partir de (5.35), on trouve :
exp (− jω / 2 ), si ω ∈ [- 2π ,-π ] ∪ [π ,2π ]
ψˆ (ω ) =  (5.36)
0, autrement
et par la transformée de Fourier inverse on obtient :

sin 2π (t − 1 / 2) sin π (t − 1 / 2)
ψ (t ) = − (5.37)
2π (t − 1 / 2 ) π (t − 1 / 2 )
Cette ondelette est infiniment dérivable mais son enveloppe décroît selon la loi 1/t à l'infini
(ψˆ (ω ) n'est pas continue en ±π et ±2π) ce qui n'est pas acceptable ni en accord avec la propriété de la
taille de support, qu'on souhaite être le plus petit possible.
L'ondelette de Meyer est une fonction de bande fréquentielle limitée dont la transformée de
Fourier est plus lissée que celle de l'ondelette de Shannon. Cette caractéristique lissée assure une
décroissance plus rapide en temps, et représente un avantage par rapport aux ondelettes de Shannon.
La figure suivante met en évidence ces différences.

ψ^(ω)
ψ(t)
Temps Fréquence
a. Ondelette de Shannon
ψ(t) ψ^(ω)
Temps b. Ondelette de Meyer Fréquence
Figure 5.2. Les ondelettes de Shannon et de Meyer
Les ondelettes de Meyer (figure 5.2.b) sont construites à partir des filtres miroir conjugués
donnés par :
 2 , si ω ∈ [- π/3, π/3]
ĥ (ω ) =  (5.38)
0, si ω ∈ [- π ,-2π/3] ∪ [2π/3, π ]
Le seul degré de liberté est la forme de ĥ (ω ) dans les bandes de transitions [-2π/3,-π/3]∪
[π/3,2π/3] .
+∞
(
La fonction d'échelle correspondante à cette ondelette φˆ(ω ) = ∏ 2 −1 hˆ 2 − p ω a un support
p=1
)
compact et on peut montrer que :
2 −1/ 2 hˆ (ω / 2), si ω ≤ 4π / 3
φ (ω ) = 
ˆ (5.39)
 0, si ω > 4π / 3
On peut egalement montrer qu'en utilisant la relation (5.35), la fonction ondelette sera donnée
par :
0 si ω ≤ 2π / 3
 -1/2
2 gˆ (ω / 2 ), si 2π/3 ≤ ω ≤ 4π / 3
ψˆ (ω ) =  −1 / 2 (5.40)
 2 exp (− jω / 2 )hˆ (ω / 4 ) si 4π/3 ≤ ω ≤ 8π / 3
0 si ω > 8π / 3

Les fonctions φ et ψ sont infinitivement dérivables grâce aux supports compacts de leurs
transformées de Fourier. Lorsque φˆ(ω ) = 0 au voisinage de ω=0 toutes ses dérivées sont 0 pour ω=0,
ce qui prouve que ψ a une infinité de moments nuls.
Les discontinuités de la dérivée d'ordre (n+1) de ĥ (ω ) sont localisées autour des transitions de
bande ω = π / 3,2π / 3 ; dans ce cas, on peut montrer qu'il existe A tel que :
φ (t ) ≤ A(1 + t ) et ψ (t ) ≤ A(1 + t )
−n−1 −n −1
(5.41)
Cette relation nous assure une décroissance rapide de l'ondelette ce qui réduit la taille du
support (avantage par rapport aux ondelettes de Shannon).
Les ondelettes de Meyer-Lemarié sont basées sur les polynômes splines; les expressions
analytiques de la fonctions d'échelle et du filtre miroir conjugué sont :
exp (− j εω )
φˆ(ω ) = (5.42)
ω m +1
S 2m+ 2 (ω )
avec
∞
S n (ω ) = ∑
1
(5.43)
k = −∞ (ω + 2kπ )
n
et, respectivement
 − jεω  S 2 m+2 (ω )
hˆ (ω ) = exp   2m+1 (5.44)
 2  2 S 2m+ 2 (2ω )
où ε=0 si m est impair et ε=1 si m est pair.
Dans ce conditions, en utilisant (5.35) on trouve l'expression de la TF de l'ondelette :
exp (− j εω / 2) S 2 m+2 (ω / 2 + π )
ψˆ (ω ) =
S 2 m+2 (ω )S 2m +2 (ω / 2)
(5.45)
ω m+1
Cette relation montre que l'ondelette ψ détroit d'une manière exponentielle. De plus, comme
cette ondelette est générée à partir d'un polynôme spline d'ordre m, elle sera (m-1) dérivable et ses
dérivées seront continues.
Sur la figure 5.3. on présente la forme temporelle de la fonction d'échelle et d'ondelette pour
m=1 et m=3 (m - l'ordre du polynôme).
φ(t) - m=1 ψ(t)- m=1
φ(t)- m=3 ψ(t)- m=3
Figure 5.3. Exemples des ondelettes de Battle-Lemarié

L'avantage de ce type d’ondelettes, par rapport aux celles de Meyer ou de Shannon, est la
décroissance rapide en temps.
2. Les ondelettes à support compact de Daubechies [3]
Les ondelettes de Daubechies sont optimales au sens de la taille du support pour un numbre de
moments nuls donné. La proposition 5.1. prouve que les ondelettes de support compact sont
construites avec des filtres miroir conjugués de réponse impulsionelle finie. On considère un filtre
réel causal h[n] de transformée de Fourier ĥ :
N −1
hˆ (ω ) = ∑ h[n]e
− jn ω
(5.46)
n =0
Pour assurer que ψ a p moments nuls, le théorème 5.4. prouve que ĥ doit avoir un zéro d'ordre
p (la dérivée d'ordre p doit avoir un zéro) à ω=π. Une expression qui satisfait cette demande est basée
(
sur les polynômes 1 + e − j π ) p
et peut être écrite selon :
p
hˆ (ω ) = 2 
 1 + e − jω 
 2
 R e − jω

( ) (5.47)
 
La difficulté est de construire le polynôme R de degré minimal m tel que :
hˆ (ω ) + hˆ (ω + π ) = 2
2 2
(5.46)
Le théorème suivant prouve que le degré minimal de R est m=p-1.
Théorème 5.5. (Daubechies) Un filtre miroir conjugué réel h, tel que ĥ (ω ) a p zéros à ω=π, a au
moins 2p coefficients non-nuls. Les filtres de Daubechies ont 2p coefficients non-nuls.
Prouve
La demonstration de ce théorème représente également la méthode pour la construction des filtres ondelettes de
Daubechies.
hˆ (ω ) est une fonction paire elle peut être décomposée en série de cosω. Ainsi, R définie
2
Lorsque h[n] est réel,
 2 ω
en (5.47) est un polynôme en cosω qui peut également être écrit comme un polynôme P sin :
 2
2p
 ω  ω
hˆ (ω ) = 2 cos 
2
P sin 2  (5.47)
 2  2
Dans ce cas, la condition de quadrature (5.46) devient :
(1 − y ) p P( y ) + y p P (1 − y ) = 1 pour tout y = sin 2 ω ∈ [0,1] (5.48)

2
( )
Pour minimiser le nombre de termes non-nuls de la série finie de Fourier ĥ ω , il faut trouver la solution
P(y)>0 de degré minimal, qui est obtenue par le théorème suivant :
Théorème 5.6. (Bezout) Soit Q1 (y) et Q2 (y) deux polynômes de degrés n1 et n2 qui ont des zéros différents, il existe alors
deux polynômes uniques P1 (y) et P2(y) de degrés n 1 -1 et n2 -1 tel que
( ) ( )
P1 y Q1 y + P2 y Q2 y = 1( ) ( ) (5.49)
Lorsque Q1 (y)=(1-y)p et Q2 (y)=yp sont deux polynômes (avec des zéros différents) de degrés
identiques p, conformément à ce théorème, il existe deux polynômes P1 (y) et P2 (y) telle que :
(1 − y ) p P1 ( y ) + y p P2 ( y ) = 1 (5.50)
où P2 (y)=P1 (1-y)=P(1-y) avec
p−1  p − 1 + k 
P( y ) = ∑   y k (5.51)
k =0  k 
Il faut maintenant construire le polynôme de degré minimal Re ( − jω

)= ∑ r e
m
k
− jkω
m
(
= r0 ∏ 1 − ak e
− jω
) tel
k =0 k =0
que (
Re )
− jω 2  2 ω
= P sin

* − jω
 . Lorsque les coefficients sont réels, R e
2
( ) ( )
= R e jω , on peut écrire :
Re (
− jω 2
)=Re (
− jω
Re )( )
jω  2 − e jω − e − jω 
= P
 4
 = Q e − jω

(5.52) ( )
 
Cette factorisation est résolue par la généralisation de cette relation dans tout le plan
complexe, avec la variable z = e − jω :
( )= r ( ) = Q(z ) = P 2 − z4− z

−1 
R( z )R z ∏ (1 − ak z ) 1 − a k z
m
−1 2 −1  (5.53)
0 
k =0  
Le calcul de R revient à calculer les racines ck de Q(z). Comme les coefficients de Q(z) sont
réels et comme Q(z) est une fonction de z+z-1,( c* k, 1/ck et 1/ c* k ) sont aussi les racines de Q(z). Pour
construire R(z) qui satisfait (5.53), chaque racine ak de R(z) sera soit ck, soit 1/ck.
Cette procédure fournie un polynôme de degré m=p-1 avec r2 0 =Q(0)=P(1/2)=2p-1. Le filtre
correspondant h de taille minimale a N=p+m+1=2p coefficients non-nuls.
Parmi toutes les factorisations possibles, la solution de phase minimale R e j ω est obtenue ( )
pour ak ≤ 1 .
Cette démonstration constitue une méthode pour le calcul des coefficients des filtres
« ondelettes de Daubechies » de taille 2p. Le tableau suivant présente les coefficients des filtres de
Daubechies pour p variant de 2 à 9.
Tableau 5.1. Les coefficients des filtres Daubechies pour p=2-9
La proposition suivante présente le cadre pour le calcul des ondelettes de Daubechies à partir
de ces coefficients.
Proposition 5.2. Si φ(t) est une ondelette avec p moments nuls qui génère une base orthonormale sur
L2 (R) alors elle a un support de taille minimale 2p-1. L'ondelette de Daubechies a un support
minimal [-p+1,p] et la fonction d'échelle correspondante a le support [0,2p-1].
Cette proposition est une conséquence du théorème 2.5. Sur la figure suivante on présente φ
et ψ pour p=4,6,8.
φ(t) φ(t) φ(t)
ψ(t) ψ(t) ψ(t)
p=4 p=8
Figure 5.4. Les fonctions d'échelle et d'ondelette de Daubechies avec p moments nuls
La régularité de φ et ψ est identique car ψ(t)p=6

s'écrit comme la combinaison linéaire de φ(2t-n).
Néanmoins, l'estimation analytique de cette régularité est difficile à estimer, mais, d'une manière
intuitive, on observe sur la figure 5.4. que la régularité est améliorée avec la croissance de p. Ceci
justifie l'intérêt pratique pour cette famille d'ondelette.
Sur la même figure, on observe que ces ondelettes sont fortement non-symétriques ce qui peut
introduire une certaine erreur sur l'approximation d'un signal à partir de ces ondelettes. Ainsi,
Symmlet a introduit une procédure optimale du choix des racines des polynômes R et Q qui génèrent
les ondelettes Symmlet, caractérisées par une phase quasiment linéaire et une symétrie plus
prononcée que dans le cas des ondelettes de Daubechies. Ceci est illustrée sur la figure suivante.
φ(t) : p=8 ψ(t) : p=8
Figure 5.5. Les fonctions d'échelle et d'ondelette de Symmlet avec 8

moments nuls
Une autre famille d’ondelettes, dérivée des concepts de Daubechies, et celle de Coiflet. La
fonction d'échelle de cette famille doit satisfaire les conditions suivantes :
∞ ∞
∫ φ (t )dt = 1 et ∫ t φ (t )dt = 1 pour 1 ≤ k < p

k
(5.54)
−∞ −∞

Une telle forme de la fonction d'échelle est utile pour fournir une formule quadratique précise.
Si f est k fois dérivable autour de 2Jn, avec k<p alors l'expansion de Taylor de f montre que
( ) (
2 −J / 2 f , φ J , n ≈ f 2 J n + O 2 (k +1) n (5.55) )
J
Ceci nous montre qu’à l'échelle 2 les coefficients d'échelle peuvent être approximés par les
échantillons correspondants du signal f, ce qui constitue un grand avantage, de point de vue
implementation. Néanmoins, ceci est au détriment de la taille du support qui devient 3p-1.
5.2. Les ondelettes et les bancs de filtres ([1])
Dans cette section on propose, à partir du concept d’analyse multi-résolution, un algorithme

cascade pour le calcul des coefficients issus de la décomposition sur une base orhonormale d’
ondelettes. Ainsi, on présente une procédure pour la synthèse des filtres utilisés dans cet algorithme
et, par la suite, on détermine les conditions qui doivent être imposées à cette structure pour que la
reconstruction du signal soit parfaite.
5.2.1. La transformation ondelettes rapide – TOR (« Fast Wavelet Transform »)
Le calcul de cette transformation est basé sur une structure de banc de filtres, qui décompose
successivement chaque approximation PVj f dans une approximation plus lissée PVj +1 f et les
coefficients PW j +1 f correspondants à la différence d’information entre deux « versions » de f à deux
niveaux de résolution consécutifs.
{ }
Lorsque φ j ,n et ψ j, n
n ∈Z
{ } n ∈Z
sont des bases orthonormales pour Vj et Wj les projections dans
ces espaces sont caractérisées par :
a j [ n] = f , φ j ,n et d j [ n] = f ,ψ j , n (5.56)
Le théorème suivant montre que ces coefficients sont calculés par une cascade de
convolutions discrètes et des procédures de sous-échantillonage. Le résultat ci dessous présente une
grande importance, car il nous fournit un outil pratique, très efficace, pour le calcul de la TFR.
Théorème 5.7. (Mallat) Les coefficients définis par (5.56) sont déterminés par :
∞
a j +1 [ p] = ∑ h[n − 2 p]a [n] = a
j j ∗ h [ 2 p] (5.57)
n =− ∞
∞
d j +1 [ p ] = ∑ g[n − 2 p]a [n] = a
j j ∗ g[ 2 p] (5.58)
n =−∞
A la reconstruction on a :
∞ ∞
( (
a j [ p] = ∑ h[ p − 2 n]a j +1 [n ] + ∑ g[ p − 2n ]d [n] = a
j+ 1 j +1 ∗ h[ p] + d j +1 ∗ g[ p] (5.59)
n =−∞ n =−∞
(On a utilisé les notions suivantes : x[ n] = x[ − n] et

(  x[ p] , si n = 2p
x[ n] =  (5.60)
 0, si n = 2p + 1
où x symbolise soit h, soit g).
Demonstration
A partir de la définition de l’analyse multi-résolution, toutes les fonctions φ j + 1, p ∈V j +1 ⊂ V j peuvent être

décomposées sur une base orthonormale {φ }j ,n
n ∈Z
de Vj :

∞
φ j + 1, p = ∑ φ j +1, p , φ j ,n φ j ,n (5.61)
n =−∞
Par changement de variable t’=2-jt-2p on obtient :
∞
1  t − 2 j +1 p  1  t − 2 j n 
φ j+1, p , φ j , n = ∫
−∞ 2 j +1
φ  φ
 2 j+ 1  2 j  2 j 
 dt =
∞
t
φ   φ * ( t − n + 2 p )dt =
1
= ∫
−∞ 2  2
(5.62)
1  t
= φ   , φ (t − n + 2 p) = h[n − 2 p]
2  2
En remplaçant l’expression de φ j +1, p , φ j ,n donnée par (5.62) en (5.61) on obtient :
∞
φ j +1, p = ∑ h[n − 2 p]φ
n =−∞
j, n (5.63)
Si on remplace, dans la forme générale des coefficients a j [n] (5.56) les fonctions φj,n par l’expression (5.63) on
retrouve l’expression (5.57).
Pour prouver l’expression (5.58) le calcul est similaire (ceci est proposé comme exercice).
Pour prouver la relation (5.59) on utilise le fait que Wj+1 soit le complément orthogonal de Vj+1 en Vj ce qui
représente, en fait, l’union de deux bases {φ }
j +1, n
n ∈Z
et {ψ } j + 1, n
n ∈Z
. Ainsi, toute fonction φj,p peut être décomposée
sur cette base :
∞ ∞
φj,p = ∑
n =−∞
φ j , p , φ j +1, n φ j+ 1, n + ∑ φ ,ψ ψ
n =−∞
j,p j +1 ,n j + 1, n (5.64)
Si on introduit (5.62) et la relation similaire ψ j +1, p , φ j , n = g[ n − 2 p] , on obtient :

∞ ∞
φj,p = ∑ h[n − 2 p]φ
n =−∞
j +1 ,n + ∑ g[n − 2 p]ψ
n =−∞
j +1, n (5.65)
Si on applique dans les deux membres de cette équation le produit scalaire avec f on retrouve directement la
relation (5.59).
***
Sur la figure suivante on présente, dune manière schématique, les opérations nécessaires pour
calculer les coefficients an et dn .
aj h ↓2 a j+1 h ↓2 a j+2
g ↓2 d j+1 g ↓2 d j+2
a. TOR directe
a j+2 ↑2 h a j+1 ↑2 h aj
d j+2 g g
↑2 d j+1 ↑2
b. TOR inverse
Figure 5.6. La transformation en ondelette rapide directe et inverse

La représentation en ondelette orthogonale de a L = f , φ L ,n est composée par les

coefficients de détails de f aux échelles 2 L < 2 j ≤ 2 J plus les coefficients d’approximation à
l’échelle 2J :

d ,a{ }

 j L < j ≤ J J 
(5.66)
Le théorème 5.7. fournit une technique optimale, de point de vue implementation, pour le
calcul de la TOR. A partir d’un vecteur initial contenant 2N échantillons (en pratique, pour un temps
de calcul minimal, on préfère avoir des signaux d’une taille dyadique [1]), on crée deux sous-vecteurs
de 2N-1 échantillons. L’un est obtenu en filtrant passe-bas (avec le filtre h) et l’autre en filtrant passe-
haut (avec le filtre g). On répète cette procédure sur la version passe-bas. Sur la figure suivante on
présente le cas d’un vecteur de N=23 échantillons.
h : filtre passe-bas x0 x1 x2 x3 x4 x5 x6 x7 Vecteur original
g : filtre passe-haut
h g
a0 a1 a2 a3 d0 d1 d2 d3
h g
aa0 aa1 da0 da1
h g
aaa daa
aaa daa da0 da1 d0 d1 d2 d3 Vecteur transformé
Figure 5.7. La TOR pour un vecteur de N=23 échantillons
Sur la figure suivante on présente le résultat de la TOR sur 6 niveaux de décomposition, pour
un chirp bruité.
Figure 5.8. La TOR d’un chirp bruité

Sur cette figure on observe les détails à chaque niveau de décomposition et l’approximation
sur le dernier niveau.
TOR 2D
Les notions définies ci-dessus peuvent être généralisées dans le cas bi-dimensionel. Ainsi,
cette généralisation fournit un outil efficace pour le traitement des images, en utilisant les techniques
par ondelettes. Tous les aspects mathématiques sont décrits en [1, pag. 306-313] ; par la suite on
présentera brièvement les notions théoriques de base liées à la TOR 2D.
Dans le cas 2D, on parle de l’analyse multi-résolution séparable (généralisation de l’analyse
multi-résolution 1D, [1]). En conséquence, les fonctions d’échelle et d’ondelette s’écrivent selon :
Φ ( x) = φ ( s)φ ( t )
Ψ( x ) = {ψ ( s)ψ ( t ) ,ψ ( s) φ ( t ) , φ ( s)ψ ( t ) }
(5.67)
Les versions dilatées et translatées sont :

Φ j, k , l ( x) = φ j , k ( s) φ j , l ( t )
{ } (5.68)
Ψ j, k , l ( x ) = ψ j , k ( s )ψ j, l ( t ) , ψ j, k ( s) φ j , l ( t ) , φ j, k ( s )ψ j, l ( t )
Sur la figure suivante on présente la fonction ondelette et échelle bi-dimensionelle, obtenues à
partir de l’ondelette de Daubechies d’ordre 4.
Figure 5.9. La transformée de Fourier des fonctions 2D ondelette et échelle de Daubechies, 4
Sur cette figure on remarque le caractère passe-bas 2D de la fonctions d’échelle et celui passe-
haut de la fonction ondelette. Ceci nous permettra de définir la TOR2D en utilisant les filtres 2D
passe-bas et passe-haut, définis de la même manière que les filtres 1D.
{
L’ensemble Φ 0, k ,l , Ψ j, k , l } j ≥ 0 , k , l ∈Z
forme une analyse multi-résolution séparable en 2D. Pour
effectuer une TOR 2D il existe deux méthodes :
- La méthode du quinconce. Cette méthode consiste à utiliser des filtres de même dimension
que le signal à analyser. Le nombre d’opérations nécessaires au filtrage est assez important et,
pour cette raison, on lui préfère bien souvent la deuxième méthode.
- La méthode de la séparabilité du noyau. Elle consiste à réaliser une TOR 1D dans chacune
des dimensions du signal. Pour une image, on réalise donc une TOR sur chaque ligne puis une
TOR sur chaque colonnes. Un des avantages de cette méthode est qu’elle est directive en
fréquence. Dans ce cas, les opérateurs « ondelette » de décomposition et de reconstruction 2D
ont la structure définie sur la figure suivante :
Lignes Colonnes
aj h ↓2 h ↓2 a j+1
g ↓2 d 1j+1
g ↓2 h ↓2 d 2j +1
g ↓2 d 3j +1
a. Opérateur d’analyse ondelette 2D
Colonnes Lignes
a j+1 h ↑2
h
↑2 aj
g
d 1j+1 ↑2
d 2j +1 h g
↑2 ↑2
d 3j +1 g
↑2
b. Opérateur de synthèse ondelette 2D

Figure 5.10. Les opérateurs d’analyse et synthèse ondelettes 2D
La disposition des coefficients d’approximation et de détails, selon cette méthode, est illustrée
sur la figure suivante.
a L+ 3 d L2 +3 d 2L+2
1 3
d L+ 3 d L +3 2
3
d L+1
1
d L+ 2
d L+2
d 1L+1 3
d L+1
Figure 5.11. Dispositions spatiales des images issues par TOR 2D

Comme pour TOR 1D, si on a une image 2Nx2N, on ne peut faire au maximum que N
décompositions. Dans le cas bi-dimensionnel, ces algorithmes doivent être modifiés pour ne pas
effectuer la décomposition sur N niveaux de chaque ligne ou de chaque colonnes de l’image. Il suffit
d’effectuer une décomposition et une seule par ligne et par colonne et par niveau. Puis on
recommence avec 2 fois moins d'échantillons par colonne et par ligne (donc 4 fois moins
d’échantillons au total).
Sur la figure suivante on présente un exemple de TOR 2D sur 2 niveaux de décomposition.
Les sous-espaces de l’image x Disposition spatiale des sous-espaces
Niveau 1
Niveau 2
Figure 5.12. La TOR 2D sur 2 niveaux de decomposition
5.2.2. Les bancs de filtres à reconstruction parfaite
La transformation par ondelette discrète rapide décompose les signaux en composants passe-
bas et passe-haut sous-échantillonés d’un facteur 2. L’idée d’implémentation d’une telle
transformation par un banc de filtres est apparue en 1976, quand Croisier, Esteban et Galand ont
découvert qu’il est possible de réaliser la décomposition et la reconstruction par des filtres miroir
quadratique. Le problème était que, hormis le filtre de Haar, les autres familles de filtres n’avaient
pas une réponse impulsionelle finie, ce qui pouvait induire des distorsions non-linéaires, à cause de la
caractéristique de phase qui n’était pas linéaire. En 1984, Smith et Barnwell [6] ont trouvé les
conditions nécessaires et suffisantes pour obtenir les filtres à réponse impulsionelle finie orthogonaux
qui assurent la reconstruction parfaite ; ils ont appelé ces filtres « filtres miroir conjugué ». Cette
approche a été complétée par les équations biorthogonales de Vetterli. Dans la suite on présente
brièvement ces approches qui constituent la base pour le développement des applications pour
lesquelles la reconstruction est souhaitée.
La notion de banque de filtres
Par définition, un banc de filtres à deux canaux réalise une convolution d’un signal a0 avec un
filtre passe-bas h [ n] = h[ − n] et un filtre passe-haut g[ n] = g[ − n] et un sous-échantillonage par 2, le
signal obtenu étant :
a1 [ n] = a 0 ∗ h [ 2 n] et d 1[ n] = a 0 ∗ g [ 2n] (5.69)
Le signal reconstruit est obtenu par le filtrage des signaux a1 et d1 , étendus par zéro-padding,
~
avec les filtres duaux passe-bas, h , et passe-haut, ~ g , comme illustré sur la figure suivante.
~
h ↓2 a 1 [n] ↑2 h
a 0 [n]
a 0 [ n]
~
g ↓2 d 1 [n] ↑2 g~
Figure 5.13. Structure d’un banc de filtres d’analyse/synthese à deux canaux

Ainsi, le signal reconstruit peut être exprimé selon :

(
a 0 [ n] = a(1∗ h [ n] + d 1 [ n] ∗ ~
~
~ g [ n] (5.70)
Par la suite, on va voir quelles sont les conditions nécessaires et suffisantes, imposées aux h,
~ ~
a0 = a0 .
g, h , g pour garantir la reconstruction parfaite : ~
• Sous-échantillonage et interpolation
∞
Pour un signal x[n], dont la transformée de Fourier est x$(ω ) = ∑ x[n]e
n =−∞
− jnω
, la transformée de
Fourier de sa version sous-échantillonée y[n]=x[2n] peut être écrite par :
∞
y$( 2ω ) = ∑ x[ 2 n]e − j 2nω = ( x$(ω ) + x$(ω + π ))
1
(5.71)
n =−∞ 2
La composante x$(ω + π ) introduit un pliage (folding) fréquentiel qui doit être annulé à la
reconstruction.
L’insertion de zéros se définit :
(  x[ p] si n=2 p
y[ n] = x[ n] =  (5.72)
 0 si n = 2 p + 1
dont la transformée de Fourier est :
∞
y$ (ω ) = ∑ x[n]e
n =− ∞
− j 2nω
= x$( 2ω ) (5.73)
Le théorème suivant donne les conditions biorthogonales de Vetterli [7] qui garantit que
a0 = a0 .
~
Théorème 5.8. (Vetterli) Un banc de filtres défini selon (5.69) réalise une reconstruction parfaite si
et seulement si :
hˆ * (ω + π )h (ω ) + gˆ * (ω + π )~
gˆ (ω ) = 0,
~ˆ
(5.74)
et
hˆ * (ω )h (ω ) + gˆ * (ω )~
gˆ (ω ) = 2
~ˆ
(5.75)
Preuve
Tout d'abord, on exprime la transformée de Fourier de a 1 et d 1 à partir de la transformée de Fourier de a 0 . Comme

h et g sont réels, les fonctions de transfert de h et g sont respectivement données par : hˆ (− ω ) = hˆ * (ω ) et
gˆ (− ω ) = gˆ * (ω ) . En utilisant (5.71) on obtient, à partir de (5.69), les relations suivantes :
1
2
(
aˆ1 (2ω ) = aˆ 0 (ω )hˆ * (ω ) + aˆ 0 (ω + π )hˆ * (ω + π ) ) (5.76)
1
2
(
dˆ1 (2ω ) = aˆ 0 (ω )gˆ * (ω ) + aˆ 0 (ω + π )gˆ * (ω + π ) ) (5.77)
Si on remplace dans la version fréquentielle de (5.70)
a~ˆ 0 (ω ) = aˆ1 (2ω )h (ω ) + dˆ1 (2ω )g~ˆ (ω )

~ˆ
(5.78)
les expressions de aˆ1 (2ω ) et dˆ1 (2ω ) données par (5.76) et (5.77), on obtient :
a~ˆ (ω ) =  hˆ * (ω )h (ω ) + gˆ * (ω )g~ˆ (ω )aˆ 0 (ω ) +  hˆ * (ω + π )h (ω ) + gˆ * (ω + π )~
gˆ (ω ) aˆ 0 (ω + π ) (5.78')
1 ~ˆ 1 ~ˆ
2  2 

On observe, à partir de cette équation, que pour obtenir a 0 = a 0 , quel que soit a 0 , les filtres doivent rejeter le
~
terme â 0 (ω + π ) et assurer un gain unitaire pour â 0 (ω ) , ce qui justifie les relations (5.74) et (5.75).
***
Le théorème 5.8. montre que les filtres de reconstruction h et g sont entièrement définis par
les filtres de décomposition h et g. Sous forme matricielle, on peut réécrire :
 hˆ(ω ) gˆ (ω )   ~
ˆ*
h (ω ) =  2 
 ×
 hˆ(ω + π ) gˆ (ω + π )  g~ˆ * (ω )  0  (5.79)
   
L'inversion de cette matrice conduit à :
 = 2  gˆ (ω + π ) 
 h~ˆ * (ω )

 
 g (ω ) ∆(ω )  − h(ω + π )
(5.80)
~ ˆ* 
où ∆(ω) est le déterminant :
∆ (ω ) = hˆ (ω ) gˆ (ω + π ) − hˆ(ω + π )gˆ (ω ) (5.81)
Les filtres de reconstruction sont stables si seulement si le déterminant est différent de 0 pour
tout ω ∈[− π , π ] .
• La réponse impulsionelle finie
Il existe deux motivations pour lesquelles on souhaite que les filtres de décomposition et
reconstruction aient une réponse impulsionelle finie. Tout d'abord, une caractéristique de phase
linéaire assure l'absence des distorsions de phase. Deuxièment, comme on le montrera par la suite,
dans le cas des filtres d'une réponse impulsionelle finie il est possible d'établir une relation simple
entre les filtres de décomposition et reconstruction.
Théorème 5.9. (Mallat) Les filtres à reconstruction parfaite satisfont

hˆ * (ω )h (ω ) + hˆ * (ω + π )h (ω + π ) = 2
~ˆ ~ˆ
(5.82)
Pour les filtres à réponses impulsionelles finies, il existe a∈ R et l∈ Z telles que :
gˆ (ω ) = ae − j (2 l +1)ω h * (ω + π ) et ~
gˆ (ω ) = a −1e − j (2 l +1)ω hˆ * (ω + π )
~ˆ
(5.83)
Preuve
A partir de l'équation (5.80), on obtient :

−2 ˆ
h * (ω ) = gˆ (ω + π ) et g~ˆ * (ω ) = h(ω + π )
~ˆ 2
(5.84)
∆(ω ) ∆(ω )
En conséquence,
∆(ω + π ) ~ˆ *
gˆ (ω )g~ˆ * (ω ) = − h (ω + π )hˆ (ω + π ) (5.85)
∆ (ω )
La définition (5.81) implique ∆ (ω + π ) = − ∆(ω ) . En insérant (5.85) en (5.75) on obtient (5.82).

La transformée de Fourier de la réponse impulsionelle des filtres est une série finie en exp(±jn ω). Le déterminant
∆(ω) définit par (5.81) peut être aussi exprimé par une série de Fourier finie. De plus, (5.84) justifie que ∆-1(ω) doit être
exprimé par une série de Fourier finie. En [1, pag.262] il est montré qu'une série finie en exp(±jn ω) dont l'inverse est aussi
une série finie doit avoir un seul terme. Cela prouve qu'il existe l∈ Z et a∈ R tel que :
∆ (ω ) = −2 a exp [ j(2l + 1)ω ] (5.86)
En introduisant cette expression en (5.84) on obtient (5.83).

***
Le facteur a est le gain et l est l'indice de décalage. Généralement, on prend a=1 et l=0 et,
dans le domaine temporel, (5.83) peut s'écrira selon :
g [n ] = (− 1)1−n h [1 − n] et g~[n ] = (− 1)1−n h[1 − n]

~
(5.87)
~
( )
Les deux paires de filtres (h,g) et h , g~ jouent un rôle symétrique et peuvent être inversées.
• Les filtres miroir conjugués

~
Si on impose que le filtre de décomposition h soit égal à celui de reconstruction h alors (5.82)
devient la conditions de Smith et Barnwell qui définit les filtres miroir conjugués :
hˆ (ω ) + hˆ (ω + π ) = 2
2 2
(5.88)
Les résultats présentés dans cette section fournissent la base pour l'implémentation pratique de
la transformée en ondelette en utilisant une structure de banc de filtres.
5.3. Ondelettes biorthogonales [1]
La propriété d’orthogonalité, quoique requise pour certaines applications numériques, impose

de fortes limitations sur la construction des ondelettes. En effet, on sait qu’il n’existe pas d’ondelettes
à support compact, symétriques et orthogonales. En conséquence on a introduit la généralisation des
~
ondelettes biorthogonales. Il existe une fonction d’échelle duale φ et une fonction ondelette duale
ψ~ qui génèrent une analyse multirésolution avec les sous-espaces ~ et ~ tels que
Vj Wj
~ ~
V j ⊥W j et V j ⊥W j (5.89)
et par conséquent
~
W j ⊥W j pour j≠j (5.90)
Une analyse multirésolution duale n ‘est pas nécessairement la même que celle générée par les
fonctions primaires (sinon c’est une analyse orthogonale). Equivalent à (5.89), les fonctions duales
doivent vérifier
~
φ ,ψ ( x − l ) = ψ~, φ ( x − l ) (5.91)
~
φ , φ ( x − l ) = δ l et ψ~, φ ( x − l ) = δ l (5.92)
~
En utilisant un argument d’échelle, avec φ j,l et ψ~ j,l définis comme φ et ψ,
~
φ j ,l , φ j ,l ' = δ l −l ' , l , l ' , j ∈ Z ψ~ j ,l ,ψ j ' ,l ' = δ j − j ' δ l −l ' , l , l ' , j , j ' ∈ Z (5.93)
Les conditions de biorthogonalité sont alors

 ∑k φ (ω + k 2π )φ (ω + k 2π ) = 1
~ˆ ~ˆ

 ∑k ψ~ˆ (ω + k 2π )ψ~ˆ (ω + k 2π ) = 1
∀ω ∈ R (5.94)

 ∑k
~ˆ
ψ~ˆ (ω + k 2π )φ (ω + k 2π ) = 1
 ~ˆ
 ∑k φ (ω + k 2π )ψ (ω + k 2π ) = 1
~ˆ

~
Comme elles définissent une analyse multi-résolution les fonctions duales φ et ψ~ satisfont :
φ ( x ) = 2∑ hk φ (2 x − k ) et ψ~( x ) = 2 ∑ g~k φ (2 x − k )
~ ~ ~ ~
(5.95)
k k
~ˆ
De même, on définit les fonctions de transfert h et ĝ~ similaires à ĥ et ĝ . Les conditions
(pour la reconstruction parfaite) nécessaires et suffisantes sont alors :
 h~ˆ (ω )hˆ * (ω ) + h~ˆ (ω + π )hˆ * (ω + π ) = 1

~ gˆ (ω )gˆ * (ω ) + ~gˆ (ω + π )gˆ * (ω + π ) = 1
∀ω ∈ R  ~ (5.96)
 gˆ (ω )hˆ (ω ) + gˆ (ω + π )hˆ (ω + π ) = 0
* ~ *
h~ˆ (ω )gˆ * (ω ) + h~ˆ (ω + π )gˆ * (ω + π ) = 0


ou
M (ω ) M t (ω ) = 1
~ *
( ) (5.97)
avec M la matrice du système :
 hˆ (ω ) hˆ (ω + π )
M (ω ) =   (5.98)
 gˆ (ω ) gˆ (ω + π )
La résolution du système donne :
gˆ * (ω + π ) ~ˆ hˆ * (ω )
h (ω ) = ; g (ω ) = − *
~ˆ
(5.99)
∆* (ω ) ∆ (ω )
où ∆(ω)=det(M(ω)).
Les opérateurs de projection prennent alors la forme :
~
Pi f = ∑ f , φ j ,l φ j ,l et Qi f = ∑ f ,ψ~ j ,l ψ j ,l (5.100)
i i
~
De l'équation (5.100) on note que tous les coefficients d’ondelette sont calculés par φ pour Pjf
~ ~
et ψ~ pour Qjf. Par conséquent, avec un φ simple, on peut calculer rapidement les coefficients. φ peut
ne pas être de grande régularité (par exemple, fonction de Haar). Ce manque de régularité sera
compensé par φ et ψ, qui pourraient être des fonctions spline, comme on le verra par la suite. Il s'agit
là d'un très grand avantage procuré par ce type de filtres.
D'après (5.92), (5.93) et (5.94), on voit que
h k −2 l = φ ( x − l ), φ (2 x − k ) et ~
g k −2 l = ψ~( x − l ), φ (2 x − k )
~ ~
(5.101)
De plus, en remarquant que φ(2x-k)∈V-1 on peut la décomposer sur V0 et W0 selon :

φ (2 x − k ) = ∑ hk −2l φ ( x − l ) + ∑ g~k −2lψ ( x − l )
~
(5.102)
l l
~
On a la même chose avec φ car les fonctions primaires et duales sont interchangeables.
Notons toutefois que le fait que la fonction échelle et la fonction ondelette ne soient pas
orthogonales ne signifie pas nécessairement que l'analyse multi-résolution ne soit pas orthogonale. Si
les fonctions d'échelle et ondelette sont biorthogonales elles engendrent une analyse orthogonales. On
les appelle semi-orthogonales.
Les contraintes (5.96), en termes de filtres, s'écrivent :
~
[ ~ ~
∑ h2n −l h2 n−k + g 2n −l +1 g 2n −k +1 = δ kl ] (5.103)
n
on a alors :
g n = (− 1)n +1 h−n et g~n = (− 1)n +1 h−n
~
(5.104)
et en utilisant la notation en z
h (z )h ( z ) + h(− z )h (− z ) = 2
~ ~
(5.105)
ou

~
∑ h m h n + 2 k = δ k ,0 (5.106)
n
5.3.1. Ondelettes biorthogonales splines
Daubechies, Cohen et Feauveau ont développé des ondelettes biorthogonales à partir de

fonctions B-splines cardinales en dupliquant la construction de φ et ψ du cas orthogonal. Dans leur
cas, on a ∆(ω)=e-jω et par conséquent :
gˆ (ω ) = −e − jω h * (ω + π ) et ~gˆ (ω ) = −e − j ω hˆ * (ω + π )
~ˆ
(5.107)
On définit :
m 0 (ω ) = 2 −1/ 2 ∑ h n e − jnω
n
(5.108)
~ (ω ) = 2
m −1 / 2 ~ − jnω
∑ hn e
0
n
Dans le cas biorthogonal, il est possible de choisir m0 tel qu'il corresponde à un filtre à phase
linéaire, i.e. a une fonction d'échelle φ symétrique. Le filtre associé à m0 à phase linéaire est
m 0 (ω ) = e j λω m0 (ω ) , λ ∈ Z (5.109)
Pour hn réel, m0 (-ω)=m0 (ω) ou, d'une manière équivalente, on peut dire que m0 (ω) est un
polynôme en cos(ω).
On a donc φ(x)= φ(-x) vu que φ est réel. Or, cette définition n'inclut pas le cas des filtres de
Haar dont la fonction d'échelle φ est symétrique autour de x=1/2. Cela correspond à
m0 (− ω ) = e jω m0 (ω ) (5.110)
ou, d'une manière équivalente,
m0 (ω ) = e − j ω / 2 cos(ω / 2) polynome en cos ? (5.111)
Nous désirons donc déterminer m0 et m ~ qui vérifient
0
m (ω )m~ 0 (ω ) + m (ω + π )m
*
0 0
~ * 0 (ω + π ) = 1 (5.112)
On arrive donc à la proposition suivante.
Proposition 5.3. Soit m0 un polynôme trigonométrique à coefficients réels satisfaisant (5.110), i.e. m0
peut être écrit
m0 (ω ) = e j χω / 2 (cos ω / 2 ) N p0 (cos ω ) (5.113)
~
avec p0 (-1)≠0, χ=1 si N- nombre naturel impaire, 0 sinon. S'il existe des solutions m 0 à (5.112),
alors elles sont de la même forme que m0 , i.e.
~
m~ (ω ) = e j χω / 2 (cos ω / 2 ) N ~p (cos ω ) (5.114)
0 0
De plus, m0 et m~ sont contraints par
0
p 0 (cos ω ) ~
k −1  k − 1 + n 
p 0 (cos ω ) = ∑ 
n =0 
(
 sin 2 ω / 2 ) + (sin
n 2
)
ω / 2 R(cos ω )
k
(5.115)
n 
~
où N + N = 2k et R est un polynôme impair.
Si on prend p0 =1, R=0, il vient :

N
 1 + e − jω  N − [N / 2 ]  N  z = e − jω N − [N / 2 ]  N  n
m0 (ω ) =   = ∑ 2  − N
 e jnω
= ∑ 2 − N   z (5.116)

 2 
 n = −[ N / 2]  N + [N / 2]  n= −[ N / 2]  N + [N / 2] 
n
L'expression de m0 fait clairement apparaître les coefficients des z comme ceux d'une B-
spline.

~ vérifiant (5.112), qui a la même symétrie que m0 est alors donné par
Le m 0
~ (ω ) = e − j χω / 2 (cos ω / 2 ) N  k∑−1  k − 1 + n (sin ω / 2) 2n 

  
n 
m 0 (5.117)
n =0  
~
Par conséquent, on en déduit les supports (compacts) de φ et φ
 N−χ N+χ
supp φ = supp m 0 ( z ) = − ,
 2 2 
~ ~ (5.118)
 N−χ N+χ
~ ~ ( )
supp φ = supp m 0 z = − (k − 1) − ,k −1+ 
 2 2 
~
L'algorithme de génération des filtres h et h est présenté en [8, pag. 133].
5.3.2. Pseudo-coiflets (les ondelettes de Coiflet biorthogonales)
On peut se demander s'il ne serait pas plus facile de calculer des filtres biorthogonaux ayant
les propriétés des coiflets; à savoir que φ à des moments nuls sauf le premier qui vaut 1. Cette idée a
permis à Reissell de synthétiser ces filtres.
Avec les notations précédentes, soit m0 (ω ) = 2 −1/ 2 ∑ h n e − jnω , il doit vérifier
n
(
m0 (ω ) = 1 + 1 − e )
− jω 2 N 2
L2 (ω ) = 1 + (1 − cos ω ) N2 P2 (ω ) (5.119)
(
m0 (ω ) = 1 + e jω )2 N1
L1 (ω ) = (1 + cos ω ) N1 P1 (ω ) (5.120)
Ici P1 et P2 sont des polynômes en cosω . La parité des polynômes garantit la symétrie de la
fonction φ résultante.
Egaliser ces deux équations revient à résoudre
(1 + x ) N P1 ( x ) − (1 − x ) N P2 (x ) = 1 (5.121)
où x=cosω et N=N1 =N2 .
Ceci n'autre qu'une équation de Bezout (appelée "équation des coiflets") dont la solution est
N −1  N − 1 + k 
P1 ( x ) = 2 − N ∑   2 −k (1 − x )k + (1 − x) k F ( x ) (5.122)
k =0  k 
où F est un polynôme impair arbitraire.
Dans le cas des pseudo-coiflets, supposons qu'on demande une fonction d'échelle symétrique
~
au banc de synthèse, φ , et que l'on veuille trouver la fonction d'échelle correspondante φ au banc
~ ~
d'analyse. Dans cet algorithme, on utilise deux polynômes trigonométriques P et P pour, φ et φ
~
respectivement. L'équation est alors résolue pour P et P , convenablement factorisés. Reissell montre
~
que connaissant P , on peut toujours trouver P vérifiant (5.121).
On définit les fonctions de transfert des filtres d'analyse et de synthèse, resp. m0 et m ~
0
~
satisfaisant les 2N ou 2 N premières conditions sur les moments (5.119) et (5.120) par
~
m (ω ) = (1 + cos ω ) N P (ω ), m
0
~ (ω ) = (1 + cos ω ) N P~(ω )
0 (5.123)
En posant x=cosω, il vient
~ ~
(1 + x ) N + N P (x )P~( x ) − (1 − x ) N + N P(− x )P~(− x ) = 1 (5.124)
Si P ( x ) et P (− x ) n'ont pas de zéros commun, l'équation (5.124) admet une solution unique
~ ~
~ ~
de degré minimum(P(x),P(-x)) avec deg P=N+ N +deg P -1; cela vient du théorème de Bezout. On
montre alors que si P ( x ) est la solution de degré minimum (5.122) alors il existe P de degré
~
~
minimum tel que P et P satisfont l'équation de biorthogonalité (5.124). On a alors
~
degP=3N-2 et deg P =N-1
L'algorithme de génération des pseudo-coiflets est présenté en [8, pag. 134].

Les propriétés des fonctions ondelettes obtenues sont les suivantes :
~
( )
− Les pseudo-coiflets (φ,ψ ) et φ ,ψ~ sont symétriques; φ
~
− Les pseudo-coiflets ψ et ψ~ ont 2N moments nuls, tout comme ;

~
− La longueur du filtre d'analyse h est 8N-3, celle du filtre de synthèse de h est 4N-1.
5.4. Analyse en paquets d'ondelette
5.4.1. Préliminaires
Au début de cette section on va faire un résumé concernant les idées et les principes de base
qui ont été présentés dans les sections 5.1.-5.3. Ceci servira comme point de départ pour les
approches qui seront introduites dans ce sous-chapitre.
Ainsi, on a vu qu'il existe deux façons d’introduire les ondelettes : l’une à travers la
transformation d’ondelette continue (présentée aux sous-chapitre 4.3), l’autre à travers l’analyse
multirésolution (sous-chapitre 5.1.).
En termes de traitement du signal, l’analyse multirésolution est un moyen de décomposer un
signal en composantes ayant chacune leur énergie contenue dans une certaine bande de fréquences.
Chaque composante correspond à un niveau de résolution. On obtient chacun d’eux en projetant le
signal sur les fonctions ondulées : les mêmes pour tous les niveaux, mais prises seulement à l’échelle
convenant à chacun. De plus en se déplaçant dans le temps elles nous permettent de voir l’évolution
temporelle de chaque composante. Les ondelettes sont donc une famille de fonctions localisées en
temps et en fréquence et formant une base orthonormale.
Chaque ondelette est utilisée pour décomposer le signal comme on utilise chaque fonction e inx
dans la transformée de Fourier. La différence est que les fonctions ondelettes sont bien localisées
dans le temps, contrairement aux exponentielles complexes. C’est pourquoi les ondelettes sont
particulièrement intéressantes pour étudier les signaux transitoires. Dans ce cas, on utilise les
ondelettes parce qu’elles nous permettent de diviser le signal en plusieurs bandes de fréquence :
l’énergie du signal à détecter doit être en effet bien localisée en fréquence, alors, dans la bande
correspondante, le rapport signal sur bruit sera considérablement augmenté, et donc nos chances de
détecter le signal seront plus importantes.
Ainsi les premiers niveaux de décomposition correspondent aux détails grossiers du signal et
les derniers aux détails fins.
Si φ ( x) = 2 − j/2 φ ( 2 − j x − k ) avec j, k ∈ Ζ forment une base orthonormale pour les sous-espaces
d’ondelettes Vj dans une analyse en multirésolution V j ⊂ V j+1 ⊂ ... ⊂ L2 ( ℜ) on peut déterminer la
fonction d’ondelette ``mère`` ν ( x) telle que ses dilatations et ses translations :
j
−
ν jk ( x ) = 2 ν ( 2 − j x − k ) avec j , k ∈ Ζ
2
(5.124)
forment une base orthonormale de L2 (ℜ). Les fonctions φ et ν satisfont les équations de dilatation :
φ ( x) = 2 ∑ k h k φ ( 2 x − k ) (5.125)
et
ν( x) = 2 ∑ k g k φ( 2 x − k) (5.126)
où hk et gk sont des filtres miroirs en quadrature liés par (voir le théorème 5.9):
g k = ( −1) k h1− k. (5.127)
La fonction d’échelle φ(x) et son filtre associé hk possèdent les caractéristiques d’un filtre
passe-bas, tandis que l’ondelette ν ( x) et son filtre associé gk possèdent celles d’un filtre passe-haut.
Tous deux sont liés par la relation miroir en quadrature.
H ( ω ) + G( ω ) = 1
2 2
(5.128)

Remarque : Selon les conventions d’écriture, le filtre appelé H est parfois appelé H’ car il correspond
à la fonction de transfert de h-k. De même, la normalisation de la fonction d’échelle et par conséquent
les coefficients des filtres varient d’un auteur à l’autre. On adopte la convention suivante:
 1 k =∞ i 2πωk
 H (ω ) = 2 ∑ hk e
k = −∞
 1 k =∞ (5.129)
G(ω ) = i 2πω k
∑ gk e
 2 k =−∞
Ainsi la fonction f(x) (un signal quelconque) peut être représentée par :
f(x) = ∑ j, k∈Ζ d jk ν j,k ( x) (5.130)
où les coefficients d jk = ∫ f(x) ν j, k ( x) dx. (5.131)

Dans un premier temps, on peut décomposer le signal de N échantillons, en deux signaux de
N
taille . Ils correspondent respectivement aux hautes et basses fréquences du signal initial. Dans un
2
second temps, on décompose le premier de ces nouveaux signaux en deux signaux de taille N/2 (N -
la taille du signal original), etc.
Afin d'aboutir une certaine application, que ce soit le débruitage ou la compression des
signaux, une idée consiste alors à assurer la reconstruction du signal en ne prenant en compte que les
coefficients supérieurs à un certain seuil qui pourrait être défini de manière adaptative en fonction de
la statistique du bruit. Néanmoins la décomposition du signal sur une base unique peut être limitative
et non optimale. Les paquets d’ondelette permettent de décomposer le signal sur un grand nombre de
bases et de choisir, au sens d’un certain critère, celle qui représente au mieux le signal bruité.
5.4.2. La notion d'arbre de décomposition [1,9]
Dans ce paragraphe on va généraliser les concepts de la multirésolution. Cette généralisation

est donnée par la décomposition de sous-espaces correspondants aux hautes fréquences. On
obtiendra alors, toujours avec une fenêtre de N points et en prenant en compte ce signal original, une
matrice de (log2 (N)+1)*N où les coefficients de la décomposition sont disposés comme indiqué sur la
figure 5.14. A chaque niveau, le signal d’approximation et de détail du niveau précédent est filtré
passe-bas et passe haut pour fournir respectivement les nouveaux coefficients d’approximation et de
détail. Les coefficients résultants correspondent à la projection du signal de départ sur une base
orthonormale. Il est donc possible de reconstruire exactement le signal à partir de ces coefficients et
des atomes-temps échelle correspondant. Les aspects mathématiques liés de cette généralisation sont
présentés en [1, chap. VIII]. Sur cette figure, on peut voir la différence entre l’analyse multi-
résolution et l’analyse en paquets d’ondelettes.
Analyse Multiresolution Vecteur Initial Analyse en paquets d’ondelettes
x0 x1 x2 x3 x4 x5 x6 x7 x0 x1 x2 x3 x4 x5 x6 x7
h g h g
0 1 2 3 0 1 2 3 0 1 2 3 0 1
a a a a d d d d a a a a d d d2 d3
h g h g h g
aa0 aa1 da0 da1 aa0 aa1 da0 da1 ad0 ad1 dd 0 dd 1
h : filtre passe-bas
h g h g h h g h g
g : filtre passe-haut
aaa daa aaa daa ada dda aad dad add ddd
Figure 5.14: Arbres de décomposition pour une analyse multirésolution et pour une analyse en paquets d’ondelettes

Ce concept a été développé par Coifman et Wickerhauser [9] et permet de travailler

simultanément sur une collection de bases de décomposition. Ainsi, lors de l’analyse en paquets
d’ondelettes, ce ne sont plus seulement les versions filtrées passe-bas du signal qui sont décomposées,
mais aussi les versions filtrées passe-haut. L’approximation des détails et les détails des détails
viennent donc s’ajouter à l’approximation du signal. Autrement dit, les hautes fréquences sont aussi
découpées en sous-bandes et l’arbre de décomposition dévient symétrique (figure 5.14).
Cette étape représente l’étape d’analyse. L’introduction des filtres discrets hk et gk présente un
intérêt majeur pour le calcul pratique des coefficients d’approximation:
On montre [1] en effet que
j =∞

 aa f [ m, k ] = ∑ hm− j a x [ j , k + 1]
 j =−∞
 ∞ (5.131)
da f [ m, k ] = ∑ g m− j a x [ j , k + 1]
 j =−∞
de même on établit que

 j =∞
 f

ad [ m , k ] = ∑ hm− j d x [ j , k + 1]
j =−∞
 ∞ (5.132)
dd [m, k ] = ∑ g d [ j , k + 1]
m− j x
 f j =−∞
Ainsi, les coefficients d’approximation et de détail associés à une résolution donnée peuvent
se déduire, par filtrage suivi de décimation des coefficients d’approximation et de détail à la
résolution immédiatement supérieure. Opérant de proche en proche, on dispose donc d’un algorithme
rapide et récursif, qui ne met en jeu que deux filtres discrets, dont on itère l’action (figure 5.15). Cet
algorithme est un algorithme pyramidal, établie par Mallat [1], qui a été utilisé antérieurement aux
ondelettes en traitement d’images.
La figure 5.15 présente le schéma d’analyse pour un signal de 8 échantillons, comme celui
présenté sur la figure 5.14. On peut voir que pour effectuer la décomposition en paquets d’ondelettes,
il suffit d’appliquer récursivement l’opérateur d’analyse (voir figure 5.14) pour les coefficients
d’approximation et de détail.
signal original
A
A
H(z) G(z)
A A
↓2 ↓2
↓2 ↓2
A A A A
Opérateur d’analyse (A)
Figure 5.15. Algorithme pyramidal d’analyse en paquets d’ondelettes
Maintenant, on se demande comment peut-on représenter les coefficients, tout en sachant qu'il
sont caractérisés par trois paramètres : niveau de décomposition, indice de fréquence et indice
temporel. Ce problème a été résolu par Coifman [9] : le résultat de l’analyse en paquets d’ondelettes
sera donné sous forme de tableau, constitué des lignes de l’arbre. Ainsi la première ligne représente le
signal de départ (composé de N échantillons) dans le domaine temporel; il n’y a pas encore la notion
de fréquence. La deuxième ligne se découpe en deux grands blocs ou cellules. Le premier bloc de
coefficients résulte du filtrage passe-bas (h[n]) du signal initial et contient donc une approximation de
celui-ci. Le deuxième, provient du filtrage passe-haut (g[n]) et représente les détails. Dans chaque
bloc de cette ligne, on retrouve N/2 coefficients, correspondant à N/2 positions différentes de l’atome
temps-échelle. Chaque cellule qui engendre par division deux autres cellules sur le niveau
immédiatement inférieur s’appelle cellule père, tandis que les cellules engendrées s’appellent
cellules fils. Le principe de lecture est le même pour les lignes suivantes. Le numéro de ligne indique
l’échelle, tandis que le numéro de colonne donne à la fois une information de position et de
fréquence.
En effet, chaque paquet d’ondelettes est porteur d’une triple information {f, s, p} fréquence,
échelle (scale), position, là où l’ondelettes ne comptait que deux paramètres, un paramètre d’échelle
et un paramètre de position. Pour l’ondelette, à une échelle donnée correspondait une gamme de
fréquences, il n’y avait pas d’ambiguïté. Ainsi, le coefficient en paquet d’ondelettes d’une fonction x,
se trouvant sur la ligne ls, dans le bloc bf, à la position p, correspond à la projection de x sur la
fonction d’ondelette {f,s,p}. Si ce coefficient est important, on peut en déduire que x contient une
quantité d’énergie conséquente, au voisinage de la fréquence f, de la position p à l’échelle s.
5.4.3. Sélection de la meilleure base
Pour choisir la meilleure base, c’est-à-dire la plus adaptée à l’extraction de l’information utile,
il faut définir une fonction de mesure de l’information qui porte le nom de fonction de coût. Chacun
peut définir sa fonction de coût, mais il faut s’assurer que la fonction soit additive.
Définition Une fonction M:l2 (Z) → R est appelée fonction de coût additive si:
1) M(0)=0;
2) M ( xi ) = ∑ i M ( x i )
Voici quelques fonctions employées [5]:
1. Nombre au dessus d’un seuil. Pour un seuil arbitraire ε fixé, on compte les éléments en valeur
absolue supérieures à ε. Cela donne le nombre de coefficients nécessaires à la transmission du signal
pour une précision ε.
2. Entropie. On définit l’entropie au sens de Shannon-Weaver d’une séquence x={x j} par
2
xj
η( x ) = − ∑ j p j log p j , où p j = 2
et on impose plogp=0 si p=0. Il ne s’agit pas d’une fonction de
x
λ ( x) = − ∑ j x j
2 2
coût additive. Par contre, la fonction log x j l’est. Par la relation
η ( x ) = x λ ( x) + log x , minimiser la précédente minimisera cette dernière.
2 2
3. Logarithme de l’énergie. Soit M ( x ) = ∑ j log x j

2
avec log0=0. Cela peut être interprété comme
un processus de Gauss-Markov composé de N variables aléatoires gaussiennes de variances
2 2
σ 12 = x1 , ........, σ N2 = x N . La redéfinition du log à 0 est équivalente à ignorer toute composante
inchangée dans le processus. Minimiser cette fonction conduit à la meilleure approximation de la base
de Karhunen-Loeve, pour le processus, qui atteint le minimum global de M sur tout le groupe
orthogonal.
Les fonctions de coût d’information additive sont des fonctionnelles d’un ensemble de bases
orthonormales sur le groupe orthogonal. Dans le cas pratique, les ensembles sont compacts donc il
existe un minimum global.

Soit M une fonction de coût additive et soit x un vecteur d’espace V. Soit une base de la
librairie (une base correspondant à un nœud de la décomposition par paquets d’ondelettes), et soit Bx
une séquence de coefficients de x dans la base V.
Définition La meilleure base pour x∈V relative à M est B telle que M(Bx) soit minimale.
Algorithme de recherche de la meilleure base
Si la librairie est un arbre, alors on peut trouver la meilleure base par

induction sur k. Soit Bn,k la base de vecteur correspondant à l’intervalle de
longueur N de la forme In,k=[2kn,2k(n+1)] et soit An,k la meilleure base pour x
projeté sur les vecteurs de Bn,k,. Pour k=0, il existe une seule base, celle
correspondant à In,0.
On construit An,k+1 pour tout n≥0 ainsi:
( ) ( ) (
 Bn ,k , si M Bn, k +1 ≤ M A2 n, k + M A2 n+1, k
An ,k +1 = 
)
(5.133)
 A2n, k ⊕ A2n+1, k , sinon
Dans ce paragraphe on présente quelques méthodes pour implémenter la décomposition en
paquets d’ondelettes du point de vue théorique.
Les paquets d’ondelettes sont implémentés sous forme d’arbres un peu particulier dans le but
d’optimiser la recherche des bases utiles. Comme on a montré, la décomposition en paquets
d’ondelettes consiste à effectuer une décomposition du signal par les mêmes filtres (orthogonaux ou
biorthogonaux) mais cette fois-ci on décompose également les coefficients de détails (voir figure
5.14). Cette représentation peut être associée à un arbre binaire (figure 5.16) qui est une structure de
pointers: chaque nœud père pointant sur 2 fils (cas d’un signal 1D).
noeud père
nœud nœud
fil fil
Figure 5.16. Arbre binaire réalisé
En fait, cette structure, quoique très facilement implémentable récursivement, n’est pas la plus
adaptée. On propose la structure présentée sur la figure 5.17 :
Nœud j du niveau i :
tab[ i ][ j ]
Arbre de pointeurs Tableau de pointeurs : tab

Figure 5.17. Arbre utilisé en paquets d’ondelettes

Le tableau de pointeur tab a autant de lignes que de niveaux de décomposition désirés.

Chaque ligne pointe sur un vecteur de pointeurs de structure. Chaque structure pointe sur un nœud de
l’arbre. Cette structure est plus souple à gérer. En fait, elle prend moins de place en mémoire qu’un
arbre binaire. De plus, il est très facile de se déplacer dans l’arbre pour rechercher qu’elle est la base à
retenir. Cette recherche serait très lourde si on le faisait avec un arbre de pointeurs: elle demanderait
beaucoup plus de temps et bien plus de ressources auxiliaires.
Il ne suffit pas d’avoir un pointeur sur chaque nœud de l’arbre, on a également besoin d’une
fonction de coût et d’un booléen associé à chaque nœud pour nous dire si ce nœud a été retenue ou
non. Par conséquent, la structure d’un élément du tableau peut être celle-ci:
- ptr : pointeur sur les coefficients du nœud (sur
2 N(L-j) éléments)
- cost : coût du nœud
- mark : Booléen
N - la dimension du signal
L - le nombre total de niveaux
Niveau j, Nœud i
Figure 5.18. Elément du tableau associé à un nœud
Il faut remarquer que

- on a 2Ni nœuds au niveau i,
- chaque nœud pointe sur 2N(L-i) coefficients,
où i∈[0,L], L nombre maximum de niveaux de décomposition et N nombre de dimension (=1 si
signal 1D, =2 si image 2D, ...).
Il existe différents types de méthodes permettant de trouver des bases utiles suivant un critère de coût.
1. La méthode des bases ondelettes

Il s’agit ici de prendre uniquement les bases nécessaires à la transformée en ondelettes. On ne
retient que les bases de détail après filtrage de la version passe-bas du signal original. On a alors le
schéma suivant:
Arbre binaire Tableau de pointeurs: tab

3 3 2 1 Décomposition fréquentielle retenue
Niveaux de décomposition
Figure 5.19 Méthode des bases ondelettes

2. La méthode du meilleur niveau

On parcourt l’arbre de niveau en niveau et on calcule le coût de chaque niveau.
← Niveau retenu:
2
Arbre binaire Tableau de pointeurs: tab

3 3 2 Décomposition fréquentielle retenue
Niveau 2 est le meilleure

Figure 5.20. Méthode du meilleur niveau
3. La méthode de la meilleure base
Il s’agit de la méthode la plus communément employée car elle procure l’entropie la plus
faible des trois méthodes.
On part de l’avant dernier niveau de l’arbre (le niveau L-1) et on remonte vers la racine
(niveau 0). On teste:
 $ père ≤ cout
si cout $ des fils , ⇒ père est conservé : cout
$ = cout
$ père
 sinon , ⇒ seuls les fils sont conservés, cout$ = cout
$ des fils (5.134)

A la fin, on est assuré d’avoir pour cette décomposition (avec les filtres utilisés), les bases qui
vont procurer le coût d’information le plus bas (coût fonction de la fonction de coût employée, bien
sûr). Pour un signal composé de 8 échantillons, le choix de la meilleure base est présenté sur la figure
suivante:
Bases retenues
Arbre binaire Tableau de pointeurs:

tab 1 3 3 2 Répartition fréquentielle des coefficients retenus:
4 au niveau 1
Niveaux retenus 2 au niveau 2
2x1 au niveau 3
Figure 5.21. Méthode de la meilleure base
Notons que cette méthode est la plus générale et s’exécute quelle que soit la dimension du
signal (1D, 2D,...) : chaque nœud sera décomposé en sous-arbre et on effectue la recherche des bases
contribuant au coût global minimal et ce quel que soit le nombre de nœuds de l’arbre. Elle crée un
pavage non régulier en fréquence du plan temps-fréquence.

5.4.4. La reconstruction du signal
L’intérêt pour la décomposition en paquets d’ondelettes est que celle-ci permet une analyse
plus détaillée des composantes hautes-fréquences des signaux, mais également de pouvoir choisir la
base de décomposition la mieux adaptée au traitement recherché. On peut en effet remarquer que
l’information est redondante, car le signal a été projeté sur une librairie d’ondes modulées, de laquelle
on peut extraire un grand nombre de bases (figure 5.22)
Exemples de bases possibles de reconstruction
temps (dans chaque cellule) temps (dans chaque cellule)
x0 x1 x2 x3 x4 x5 x6 x7 0 x0 x1 x2 x3 x4 x5 x6 x7
a0 a1 a2 a3 d0 d1 d2 d3 1 a0 a1 a2 a3 d0 d1 d2 d3
échelle
1
aa0 aa1 da0 da ad0 ad1 dd 0 dd 1 2 aa0 aa1 da0 da1 ad0 ad1 dd 0 dd 1
aaa daa ada dda aad dad add ddd 3 aaa daa ada dda aad dad add ddd
fréquence (de chaque cellule) fréquence (de chaque cellule)

Figure 5.22. Exemples de bases possibles
Pour choisir une base qui sera optimale pour une certaine application, on utilise une des
méthodes présentée antérieurement. Après le choix de la meilleure base, on peut envisager la
procédure de reconstruction (ou de synthèse).
L’algorithme d’analyse, qui a été présenté dans le sous-chapitre 5.4.2 est réversible et conduit
à un algorithme dual de synthèse, dans lequel une approximation à une résolution donnée se déduit de
l’approximation et du détail à la résolution immédiatement inférieure. Pour la synthèse on peut
utiliser la relation suivante:
n =∞ n =∞
a f [ j , k + 1] = ∑h n − 2 m a f [ m, k ] + ∑g n −2 m d f [ m, k ] (5.135)
n =−∞ n =−∞
A l’inverse de l’algorithme d’analyse qui opérait par filtrages suivis de décimations,
l’algorithme de synthèse opère par interpolations suivi de filtrages. L’algorithme de synthèse
(supposons que l’on a choisi la meilleure base, celle-ci étant comme celle présentée sur la figure 5.22,
partie droite) est présenté dans la figure suivante:
Signal reconstruit
S S
+
H’(z) G’(z)
S S
↓2 ↓2
↑2 ↑2
(da0 ,da1 ) (ad0 ,ad1 )

S S
Opérateur de synthèse (S)
aaa daa add ddd
Figure 5.23. Algorithme pyramidal de synthèse

Les cellules de synthèse opèrent tout d’abord une interpolation sur les entrées (en fait il s’agit
d’un insertion d’un zéro entre deux échantillons consécutifs), puis un filtrage par H’ et G’, filtres
transposés de H et G (c’est-à-dire tels que h’n =h-n et g’n =g-n).
Pour plus de détails théoriques, les lecteurs peuvent consulter [1]. Dans l'annexe A1 on décrit
les aspect d'implémentation de la transformation en paquet ondelette directe et inverse.
5.4.5. Exemples d'application
Pour illustrer le principe d'utilisation de la décomposition en paquets d'ondelette on présente le

cas du débruitage d'un signal. Les algorithmes de débruitage et de compression de données fondés sur
la décomposition en paquets d’ondelettes reposent sur le principe suivant:
1. Décomposer le signal en paquets d’ondelettes

2. Choisir une base B de caractérisation du signal
3. Sur B, sélectionner les coefficients Ci les plus significatifs (porteurs d’information utile)
4. Reconstruire le signal à partir des coefficients Ci retenus et des fonctions d’ondelettes
correspondantes.
Les deux premières étapes ont été présentées antérieurement. Après avoir sélectionné une base
B, il est possible de reconstruire le signal en utilisant la transformée en ondelettes inverse et les
coefficients de projection sur la base choisie. Cependant, il est nécessaire d’effectuer au préalable une
sélection parmi les coefficients, sinon, le signal reconstruit sera exactement identique au signal de
départ, et l’opération de décomposition n’aura permis aucun traitement.
Plusieurs méthodes existent pour sélectionner les coefficients dans la base optimale B. Les
critères de sélection les plus couramment rencontrés sont énumérés ci-dessous. Notons qu’il s’agit
d’une décomposition sur une base orthonormale et qu’il y a donc conservation de l’énergie totale du
signal initial E = ∑i x i . Donc, ∑ j C j
2 2
= E.
L’idée de Donoho et de ses collaborateurs [11], [12] est que l’énergie du bruit est répartie sur
tous les coefficients de la décomposition en paquets d’ondelettes alors que celle du signal n’est
présente que sur une partie de ceux-ci. Donc les plus petits coefficients correspondent seulement à du
bruit et les plus grands à du bruit auquel est rajouté le signal.
Deux méthodes de seuillage ont été développées, appelées Hard Tresh et Soft Tresh.
Dans ces deux méthodes, le choix du seuil t est empirique aussi pour automatiser la procédure,
la méthode SURE a été développée. Nous explicitons ces trois méthodes ci-dessous.
Méthodes de seuillage
Les méthodes de seuillage que nous avons utilisées sont abondamment décrites et utilisées par
Donoho et Johnstone dans [11] et [12].
§ Hard Tresh
x = Hard Tresh (y,t) x = y si y ≥ t (5.136)

x = 0 sinon
où y est constitué du signal bruité et où t est le seuil, x est le signal après seuillage. Les coefficients
inférieurs au seuil sont éliminés. Les autres sont gardés tels qu’ils sont.
§ Soft Tresh
x = Soft Tresh (y,t) x = sign ( y )( y − t ) si y ≥ t (5.137)

x = 0 sinon

où y est constitué du signal bruité et où t est le seuil.
§ SUREThresh
Nous voulons ici minimiser l’estimateur non biaisé du risque développé par Stein (Stein’s
Unbiased Estimate of Risk : SURE), pour déterminer le seuil, comme il est décrit dans [11] :
SURE(y) = ( n − 2 ) ∑i=11 yi < λ + ∑i =1 min( yi2 , λ2 )

n n
(5.138)
où λ est le seuil choisi pour estimer SURE (y).
Donc, avec SUREThresh, le seuil est choisi automatiquement. Ce choix automatique du seuil
est l’un des buts que nous poursuivons. Ensuite, nous seuillons soit par SoftTresh, soit par HardTresh.
Les deux premières méthodes sont des propriétés bien spécifiques :
- HARDTRESH : en terme d’erreur quadratique est meilleure, mais la méthode crée des
oscillations parasites.
- SOFTTRESH : le signal est au moins aussi lisse que le signal pur et la méthode ne crée pas
d’oscillations parasites.
Il existe d’autres méthodes envisageables pour assurer le débruitage. Par exemple, on peut
utiliser le seuillage énergétique. On décide, dans ce cas, de conserver un pourcentage α de l’énergie
du signal étudié. Les coefficients sont alors triés par ordre décroisant; les plus grands sont ensuite
retenus un par un, jusqu’à ce que l’énergie des coefficients sélectionnés soit égale à αE. Les autres
coefficients sont fixés à zéro.
Le plus grand avantage de la décomposition en paquets d’ondelettes est la possibilité de la
sélection de la meilleure base utilisant des bases orthogonales à partir d’une certaine méthode. Les
coefficients dans cette base seront seuillés de telle manière à maintenir l’information essentielle et
éliminer l’influence du bruit. La méthode la plus utilisée pour choisir la meilleure base est la
minimisation du coût de l’entropie Shanon-Weaver, parce que la majorité de l’énergie des
coefficients de la meilleure base est concentrée sur un nombre minimal de coefficients représentatifs.
L’inconvénient de ce critère est qu’il privilégie les coefficients «basses fréquences» qui sont les plus
énergétiques.
Pour illustrer le principe de débruitage en utilisant la décomposition en paquets d'ondelette, on
considère l'exemple d'un chirp bruité, pour un RSB=4 dB. Sur la figure 5.24.a. on présente les
coefficients issus par décomposition et la meilleure base, au sens d'entropie de Shannon.
Arbre de décomposition
Decomposition tree
0
-0.5
-1
Signal original (bleu) et signal bruité (rouge)
Original signal (blue);Noisy signal (red)
2
1.5
-1.5
Entropy
-2 0.5
-2.5 -0.5
-1
-3 0 50 100 150 200 250 300
Signal debruité par HardThresholding

HardThresholding denoised signal
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 2
1.5
Le tableau des
The coefficients of thecoefficients
best basis 0.5
1 0
-0.5
0
-1
0 50 100 150 200 250 300
-1
1.5
Signal debruité par SoftThresholding
SoftThresholding denoised signal
-2
Level
-3 0.5
-4 0
-0.5
-5
-1
0 50 100 150 200 250 300
-6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
a. b.
Figure 5.24. Debruitage par décomposition en paquets d'ondelettes

5.4.6. Décomposition en paquets d'ondelette 2D [13]
Dans la section 5.2.1. on a introduit la notion de l'analyse multi-résolution séparable à partir

de laquelle on a développé la transformée ondelettes 2D. L'analyse en paquets d'ondelettes 2D est une
généralisation de cette approche : comme dans le cas 1D, on décompose également les détails, en
utilisant les opérateurs d'analyse/synthèse présentés sur la figure 5.10. L'algorithme de décomposition
utilisé est toujours pyramidal; le résultat sera un ensemble de sous-espaces (appelés également
"imagettes" ). Sur la figure suivante on présente l'exemple de décomposition d'une image sur 3
niveaux.
L'image originale a0
Opérateur d'analyse (A) : voir fig. 5.10.a
A
A A
A A
Figure 5.25. Décomposition en paquets d'ondelette 2D
Comme on peut observer sur cette figure, chaque sous-espace W jp ,q est décomposé en quatre
sous-espaces orthogonaux, selon :
W jp ,q = W j2+p1, 2q ⊕ W j2+p1+1,2q ⊕ W j2+p1,2 q+1 ⊕ W j2+p1+1, 2q +1 (5.139)
Ces sous-espaces sont localisés en quatre nœuds d'un arbre quaternaire, comme il est illustré
sur la figure suivante.
W jp ,q
W j2+p1, 2 q W j2+p1+1,2 q W j2+p1, 2q +1 W j2+p1+1, 2q +1
Figure 5.26. L'arbre quaternaire de décomposition
L'algorithme de décomposition et du choix de la meilleure base est similaire au celui des cas
1D. En fait, on applique l'algorithme de décomposition 1D sur les lignes puis sur les colonnes. A la
reconstruction, on effectue les opérations inverses [13].
L'implémentation pratique de la décomposition en paquets d'ondelettes 2D implique
l'utilisation d'un banc de filtres séparables qui est, en fait, une extension 2D du banc de filtres utilisés

dans le cas 1D. De point de vue physique, un tel banc de filtres décompose l'image de départ en
plusieurs imagettes.
Pour le choix de la base optimale, on peut utiliser la version 2D de l'algorithme décrit en
section 5.4.4., en utilisant toujours l'entropie de Shannon comme fonction de coût.
→ Si M(W jp,q ) ≤ M(W j2+p,1 2q ) + M(W j2+p1+1,2 q ) + M(W j2+p,1 2q +1 ) + M(W j2+p1+1,2q +1 ) ⇒
⇒ W jp,q − conservé; Cout = M(W jp,q ) (5.140)
→ Les fils sont conservés, Cout = Cout fils

Sur la figure suivante on présente un exemple de représentation d'une meilleure base, pour
deux niveaux de décomposition.
W L0,0
W L0+,11
W L1,+01 W L1,+11
W L0+,01 W L1,+11 W L0+,11
WL1,+01
W L0+,01
Figure 5.27. La représentation de la meilleure base dans le cas 2D
L'image de départ Niveau 1 Niveau 2
La meilleure base (répres. 3D)

La meilleure base (répres. 2D)
Figure 5.28. Décomposition en paquets d'ondelettes 2D

5.5. Analyse en paquets d'ondelette invariante en temps [14]
5.5.1. Préliminaires
Ces dernières années, la transformation en ondelettes et la décomposition en paquets

d’ondelettes ont été très utilisées, mais leurs applications ont été limitées par le fait qu’elles ne sont
pas invariantes en temps, c’est-à-dire que si on modifie l’origine des temps d’un signal, la meilleure
base (dans le cas de la décomposition en paquets d’ondelettes) ne sera pas la même. Ceci constitue un
grand inconvénient dans les applications de traitement des signaux statistiques, par exemple la
détection et l’estimation des paramètres des signaux. Ce phénomène est dû à la discrétisation de la
TOC.
Un autre inconvénient est que jusqu’à présent, pour choisir la famille d’ondelettes pour faire la
décomposition, il n’existait pas de méthode; le choix étant fait par l’essai de plusieurs familles et
ensuite on regarde quelle est la famille la mieux adaptée à la situation donnée. Ce choix n’est pas
valable pour une autre application parce que la procédure utilisée n’est pas objective.
Donc, il est nécessaire de chercher à implanter une technique qui pallie ces inconvénients et qui
s’appelle la décomposition en paquet d’ondelettes invariante en temps (Shift-Invariant Wavelet
Packet Decomposition- SIWPD).
Ce chapitre présente cette technique d’un point de vue théorique (on définit la librairie de
paquets d’ondelettes invariante, on introduit un algorithme pour choisir la meilleure base qui sera
invariante en temps). Ensuite, on présente la comparaison entre la décomposition en paquet
d’ondelettes classique et celle qui est invariante en temps.
5.5.2. La librairie de paquets d’ondelettes invariante en temps
Soit la séquence {hn } qui représente les coefficients du filtre qui respectent les équations
suivantes:
Σhn-2k hn-2l=δ k,l. (5.141)
∑ hn = 2 (5.142)
n
Soit {φ n (x)} un ensemble d’ondelettes, qui est généré par l’équation (5.145)
φ 2n = 2 ∑ hk φ n ( 2 x − k )
 k
 (5.143)
φ 2n+1 = 2 ∑ g k φ n (2 x − k )

g k = ( −1) h1− k où φ 0 ( x ) ≡ ϕ ( x ) est une fonction d’échelle qui satisfait
k
ϕ ( x − p), ϕ ( x − q ) = δ p, q p, q ∈Ζ (5.144)
Il a été observé [14] que la projection d’une fonction f(x) sur une base classique
{2 φ0 (2 j x − k ) : k ∈Ζ} reste invariante pour un décalage inférieur à 2-jm (m∈Z). Néanmoins, si on
j/ 2
fait la décomposition en paquets d’ondelettes, à partir de l’algorithme pour sélectionner la meilleure

base classique ( ce qui a été montré dans le sous-chapitre 5.4.3), la propriété d’invariance en temps ne
sera pas valide [14]. Donc, la première méthode pour obtenir l’invariance est d’ajuster la
localisation temporelle des fonctions de base. Ainsi: les nouveaux coefficients restent les mêmes
que les coefficients du signal non décalé et la représentation temps-fréquence est la même, mais
décalée en temps de quelques périodes. Cette stratégie propose la création d’une librairie étendue qui
engendrera toutes les versions décalées des fonctions de base. Ensuite, il faut chercher un algorithme
efficace qui trouve la meilleure base. Cela veut dire qu’il faut retenir, lors de la décomposition, tous
les sous-espaces du signal décalé ou non.
Pour décrire cette stratégie, on introduit les notations

Blj, n, m = {2 ( l+ j) /2 φ n [ 2 l ( 2 j x − m ) − k ] : k ∈ Z } (5.145)
{
U l j,n ,m = clos L2 ( ℜ ) Bl j,n ,m } (5.146)
Vj=combinaison linéaire{2 φ 0 (2 x-k); k∈Z} j/2 j

(5.147)
Définition La librairie de paquets d’ondelettes invariante en temps est une collection de toutes les
bases orthonormales de Vj qui sont sous-ensemble de
{B j
l , n ,m : l ∈ Z − , n ∈ Z+ ,0 ≤ m < 2 − l } (5.148)
Cette librairie peut être mise sous une configuration d’arbre qui facilite les algorithmes rapides
de choix de la meilleure base. Une telle configuration est présentée sur la figure 5.29 :
(0,0,0)
(-1,0,m-1,0) (-1,1,m-1,1)
(-2,0,m-2,0) (-2,1,m-2,1) (-2,2,m-2,2) (-2,3,m-2,3)
(-2,0,m-3,0
(-3,0,m -2,0) )(-3,1,m-3,1) (-3,2,m-3,2) (-3,3,m-3,3) (-3,4,m-3,4) (-3,5,m-3,5) (-3,6,m-3,6) (-3,7,m-3,7)
Figure 5.29. L’ensemble étendu de paquets d’ondelettes organisé sous une structure d’arbre
Chaque nœud d’arbre est indexé par le triplet (l,n,m) et représente le sous-espace Ujl,n,m . Ici l
représente le niveau de décomposition, n-la position dans le niveau. Comme dans les arbres binaires
utilisés pour la décomposition en paquets d’ondelettes, chaque noeud contient un pointeur vers un
vecteur défini sur un intervalle dyadique donné par Il,n=[2ln,2l(n+1)].
Le paramètre additionnel m est un nouveau degré de liberté introduit pour ajuster la
localisation temporelle des fonctions de base. On l’appellera indice d’invariance. La proposition
suivante donne les conditions nécessaires pour assurer l’orthonormalité d’un certain sous-ensemble.
Proposition 5.4. Soit E = {( l , n, m)} ⊂ Z − × Z + × Z + ,0 ≤ m < 2 − l , la collection des indices qui

satisfont:
(i) Le segment Il,n=[2ln,2l(n+1)) est un recouvrement disjoint de [0,1).
(ii) Les indices d’invariance d’une paire de noeuds (l1 ,n1 ,m1 ),(l2 ,n2 ,m2 )∈E sont liés par
m1mod(2-l)=m2 mod(2-l) (5.149)
où l est le niveau où on évalue’ intervalle dyadique Il,n.
Alors E génère une base orthonormale (BO) pour Vj≡Uj0,0,0 , par exemple Blj, n,m : ( l , n, m) ∈ E c’est { }
une BO et l’ensemble de toutes E génère une librairie de paquets d’ondelettes invariantes en temps.
La condition (ii) est équivalente à rechercher l’indice d’invariance relative entre le nœud père
et les nœuds enfants soit zéro ou un. En effet, chaque nœud père (l,n,m) génère des nœuds enfants (l-
1,2n,m’) et (l-1,2n+1,m’’) où, tenant compte de la condition (ii), l’indice d’invariance n’aura que deux
valeurs: m’=m’’=0 ou m’=m’’=2-l
L’arbre de décomposition associé à un certain signal décrit la représentation du signal dans
une base orthonormale choisie dans la librairie invariante en temps. La collection des indices E

représente la collection de tous les nœuds terminaux. Pour vérifier que la condition (ii) est respectée
on considère l’exemple présenté sur la figure suivante:
Figure 5.30. Exemple de décomposition en paquets d’ondelettes invariante en temps.

(a) Le signal modulé linéairement en fréquence avec 64 échantillons non-décalés. (b) Le même signal décalé de 15
échantillons. (c) l’arbre de décomposition pour le signal non décalé. (d) l’arbre de décomposition pour le signal décalé.
On peut voir que les signaux ont la même meilleure base de décomposition, mais on a obtenu
l’invariance grâce aux indices d’invariance. Avec des lignes en trait épais on a représenté les
branches correspondantes aux décompositions des nœuds qui ont mc=m+2-l, c’est-à-dire qu’on a
choisi, dans l’étape de sous-échantillonage, les termes pairs de la décomposition.
On considère les nœuds (-3,0,4) et (-5,3,20). A ces nœuds correspondent deux intervalles
dyadiques: I-3,0=[0,1/8) et I-5,1=[3/32,1/8). Ces deux intervalles sont contenus dans l’intervalle I-
2,0 =[0,1/4) qui correspond au nœud (-2,0,0). Donc, l=-2. La vérification de la relation (ii) est:
m1mod(2-l)=m2 mod(2-l)→4mod(4)=20mod(4)=0
5.5.3. La sélection de la meilleure base
La configuration de l’arbre de la librairie étendue facilite une méthode efficace pour choisir la
meilleure base.
Soit f∈Vj=Uj0,0,0 et soit M une fonction de coût additive. Soit B une librairie de paquets
d’ondelettes invariante en temps.
Définition La meilleure base pour f dans B par rapport à M est B∈ B pour laquelle M(Bf) est
minimale.
Soit Ajl,n,m la meilleure base pour le sous-espace Ujl,n,m . Par conséquent, Aj0,0,0 représente la
meilleure base pour f∈Vj par rapport à M.

Algorithme de recherche de la meilleure base
Si la librairie est un arbre, alors on peut trouver la meilleure base par

induction sur k. Soit Bl,n,m la base de vecteurs correspondant à l’intervalle
de la forme Il,n=[2ln,2l(n+1)) et soit Al,n,m la meilleure base pour f projetée
sur les vecteurs de Bn,k,m . Pour l=0, il existe une seule base, celle
correspondant à I0,n. Ici m représente l’indice d’invariance qui sera donné
par l’équation (6.10).
On construit Al+1,n,m, pour tout n≥0 ainsi:
( ) (
 Bl ,n ,m , si M (Bl , n,m ) ≤ M Al −1,2 n,mc + M Al −1,2 n+1,mc )
Al ,n ,m =  (5.150)
 Al −1, 2n, mc ⊕ Al −1, 2n +1,,mc ,sinon
Les indices d’invariance sont générés ainsi:

( ) ( )
1 1

mc = 
m, si ∑
i =0
M Al , 2n+ i, m x ≤ ∑
i= 0
M Al, 2n +i ,m+ 2− l x
(5.151)
m + 2 − l , sin on

L’algorithme est récursif et s’arrête au dernier niveau de décomposition, quand l=-L

(A-L,n,m =B-L,n,m ). L’indice d’invariance relatif (entre le nœud père et les nœuds enfants, m-m c) ne peut
avoir que deux valeurs (m-m c∈{0,2-l}).
Proposition 5.5. Soit E1 et E2 deux collections d’ indices qui respectent la proposition 5.4, et soit B1
et B2 deux bases orthonormales. Alors B1 et B2 sont identiques à un décalage près si uniquement il
existe une constante q∈ Z telle que pour tous les (l,n,m)∈E1 il existe (l,n,,m’)∈E2 où
m’=(m+q)mod(2-l).
Preuve:
On dit que les bases de Vj sont identiques à un décalage près si seulement s’ il existe q∈Z tel que pour chaque
élément du B1 on a un élément identique dans B2 qui est translaté de q2 -j
En fait, si
2 ( l + j )/2 φ n [2 l ( 2 j x − m) − k ] ∈ B1 (5.152)
alors
2 ( l + j )/2 φn [2 l ( 2 j ( x − q2 − j ) − m) − k ] ∈ B2 (5.153)
Si E représente la collection des indices obtenue par la proposition 5.4. et B est la base correspondante, alors
(l,n,m) ∈ E est équivalent à Bj l,n,m ⊂B. Aussi, on peut observer que
φn [ 2 l (2 j ( x − q 2 − j ) − m) − k ] = φ n [ 2 l ( 2 j x − m' ) − k '] (5.154)

où m’=(m+q)mod(2-l) et k’=k+[2 l(m+q)].
Définition Les arbres binaires sont invariants pour un décalage temporel s’ils correspondent aux
bases invariantes pour le même décalage.
Proposition 5.6. La meilleure base obtenue par algorithme décrit dans ce sous-chapitre est
invariante en temps.
La démonstration de cette proposition se trouve en [14].

L’implémentation, de point de vue théorique, est identique à la décomposition en paquets
d’ondelettes classiques (voir le sous-chapitre 5.4).
Les organigrammes pour l'implementation de ces approches sont donnés dans l'annexe 1.
CONCLUSION
D’un point de vue pratique, l’idée de base pour obtenir l’invariance est d’adapter le
sous-échantillonage quand on étend un nœud.
5.5.4. La comparaison entre la décomposition en paquets d'ondelette classique et celle invariante

en temps
Dans ce sous-chapitre, on présente la comparaison entre la décomposition en paquets

d’ondelettes classique et la décomposition en paquets d’ondelettes invariante en temps. On
comparera:
- l’entropie globale, c’est-à-dire la somme entre les entropies des cellules qui forment
la meilleure base.
- la meilleure base de la décomposition.
Pour mettre en évidence les propriétés de la décomposition en paquets d’ondelettes invariante
en temps, vis-à-vis des propriétés de la décomposition classique, on illustre l’exemple suivant. On
suppose une portion du signal utile compressé sur 64 points autour du pic de corrélation. Pour mettre
en évidence les propriétés d’invariance, on fait un zéro-padding sur 64 positions. Ainsi le signal
d’analyse est composé de 128 échantillons comme on peut le voir sur la figure 5.31.a.
En translatant ce signal de 23 échantillons on obtient le signal présenté à la figure 5.31.b. La
famille d’ondellete Symmlet, à l’ordre 6 est mise en oeuvre.
En appliquant l’algorithme de décomposition classique sur les deux signaux on obtient deux
arbres de décomposition, présentés dans les figure 5.31.c,d. Les nœuds terminaux correspondent aux
coefficients qui se trouvent dans la meilleure base. On peut facilement observer qu’en raison du fait
que les signaux n’ont pas la même origine temporelle, les meilleures bases sont différentes.
Figure 5.31. Comparaison entre WPD et SIWPD

Par contre, si on utilise la décomposition en paquets d’ondelletes invariante en temps, on

obtient (voir les figures 5.31.e et 5.31.f) toujours la même meilleure base.
Pour chacune de 4 bases définies, on a calculé les entropies globales, et leurs valeurs se
trouvent dans le tableau suivant:
Tableau 5.2.
WPD SIWPD
x(t) 4.53 1.32
x(t-23) 6.23 1.32
Pour la décomposition classique, on a les valeurs différentes qui dépendent de l’origine

temporelle du signal. A partir de la décomposition invariante en temps, on obtient une entropie
constante, sans avoir la même origine des temps. Cet état peut être utilisé pour effectuer une
classification objective des familles d’ondelettes, et on peut établir une procédure pour choisir la
famille la plus mieux pour un certain signal. Par exemple, pour notre signal, décomposé par SIWPD,
on a obtenu les valeurs suivantes pour l’entropie (calculée toujours dans la meilleure base), en
utilisant plusieurs familles d’ondelettes:
Tableau 5.3
Familles d’ondelettes
Coiflet, 2 Coiflet, 3 Daubechies, 4 Daubechies, 6 Symmlet, 6 Symmlet, 8
Entropie de 1.4628 1.3732 1.6555 1.5783 1.3254 1.3447
x
La plus petite entropie est obtenue pour la famille ‘’Symmlet’’, à l’ordre 6. Cette famille sera
donc la mieux adaptée à notre signal.
5.5.5. La décomposition en paquets d'ondelettes invariante en temps 2D (DPOIT 2D)
La procédure pour implémenter la DPOIT 2D reste essentiellement la même que dans le cas
1D. Dans ce cas, l'indice de décalage n'est plus une seule valeur mais un vecteur m=(m x,my).Soit mp et
me les indices de décalage de père et, respectivement, des enfants. Le décalage relatif peut prendre
quatre valeurs :
me-m p={(0,0},(2-l,0),(0,2-l),(2-l,2-l)} (5.155)
La valeur la mieux adaptée sera toujours celle qui minimise l'information de coût. La preuve
peut se faire en extrapolant la preuve du cas 1D.
Sur la figure suivante on donne l'exemple de la DPOIT 2D, comparativement à la
décomposition classique.
Figure 5.32. Comparaison WPD2D et SIWPD2D

Références
[1] S. Mallat – “A Wavelet Tour of signal processing”, Academic Press, 1998

[3] Daubechies, I. - "Orthonormal Bases of Compactly Supported Wavelets", Comm. in Pure and Applied Math., Vol. 41
No. 7 pp909-996, 1988.
[4] A. Poularikas (Editor-in-Chief), "The transforms and applications handbook", CRC Press & IEEE Press, ISBN
0849383420, 1996
[5] R.R. Coifman – “Wavelet Analysis and Signal Processing”, in Signal Processing Part 1 : Signal Processing Theory.
L. Auslander et al.eds., IMA. Vol. 22, Springer, New York. 1990
[6] M.J. Smith, T.P. Barnwell – “A procedure for designing exact reconstruction filter banks for tree structured sub-band
coders”, In Proc. IEEE Int. Conf. Acoust., Speech, and Signal Processing,San Diego, CA, March 1984
[7] M. Vetterli - "Filter banks allowing perfect reconstruction", Signal Proc., 10(3):219-244, April, 1986
[9] R.R. Coifman – “Wavelet Analysis and Signal Processing”, in Signal Processing Part 1 : Signal Processing Theory.
L. Auslander et al.eds., IMA. Vol. 22, Springer, New York. 1990
[10] D.L. Donoho and I.M. Johnstone – “Adapting to unknown smoothness by wavelet shrinkage”, Pretint Department of
Statistics, Stanford University, 1992.
[11] D. Donoho - "Nonlinear Wavelet Methods for Recovery of Signals. Densities and Specrta from Indirect and Noisy
Data", Proceedings of Symposia in Applied Mathematics, 173-205, 1993
[12] D. Donoho, I. Johnson - "Ideal spatial adaptation by wavelet shrinkage", Biometrika 81, N° 3, 425-455, 1994
[13] S. Mallat -"An efficient image representation for multiscale analysis", In Proc. of Machine Vision Conference, Lake
Taho, February, 1987
[14] I. Cohen, “Shift-Invariant Adaptive Wavelet Decomposition and Applications”, Research Thesis, Israel Institute of
Technology, 1998

Exercises et problèmes
1. (Analyse Multirésolution) On considère une analyse multirésolution et l'équation d'échelle pour

φ(t) définie selon (5.12).
On suppose que {φ(t-n)} est une base orthonormale pour V0 . Montrer que :
a) h [ n] = 1 ;
b) h [ n ] = 2 φ ( 2t − n ) ,φ ( t )
2. (Analyse Multirésolution) Soit h un filtre miroir conjugué associé à une fonction d'échelle φ .
a) Montrer que si la dérivée d'ordre p de ĥ ( ω ) est 0 à ω = π alors φˆ ( 2 kπ ) = 0 pour tous
(l )
k ∈ Z − {0}et l<p.
∞
b) Dériver que si q<p alors ∑ n qφ (n ) = ∫−∞∞ t qφ (t )dt .
n= −∞
∞
3. (Analyse Multirésolution) Montrer que ∑ φ (t − n) = 1 si φ est une fonction échelle orthogonale.
n= −∞
4. (Analyse Multirésolution)
a) On considère le produit infini :
k
bi
pk = ∑ a ; b <1
i =0
1
Montrer que p = lim p k = −
a b
1 .
i→∞
1 + z −1
b) A partir de l'expression du filtre de Haar passe-bas H (z ) = et sa version normalisée
2
M 0 (ω ) =
H e jω ( ) ∞ ω  − j sin (ω / 2 )
montrer que Φ (ω ) = ∏ M 0  k  = e 2 .
ω
2 k =1 2  ω/2
c) Montrer que l'ondelette de Haar est donnée par :
ω
−j sin 2 (ω / 4)
Ψ (ω ) = jωe 2
ω/4
5. (Analyse Multirésolution) On considère le signal
1, t ∈ [0,1]
f (t ) = 
1, t ∉ [0,1]
a) Trouver les coefficients de la décomposition de f(t) sur l'ensemble des ondelettes de Haar -
{ψ m,n }.
2
b) Vérifier que ∑ ∑ f ,ψ m,n = 1 (l'identité de Parseval).
m n
( )
c) On suppose f a (t ) = f t − 2 −i ; i ∈ Z + . Donner les domaines d'échelle pour lesquels les
coefficients de la décomposition de ce signal sur l'ensemble des ondelettes de Haar sont non-nuls.
 1 
d) Le même exercice pour f b (t ) = f  t − .
 2
6. (Les moments nuls) Montrer qu'une fonction ψ avec p moments nuls est orthogonale sur tous les
polynômes d'ordre p.

7. (Les moments nuls) Donner la preuve du théorème 5.4.

8. (La taille du support) Donner la preuve de la proposition 5.1.
9. (Les ondelettes de Daubechies) Soit ψ(t) l'ondelette mère de support compact générée par les
(
filtres miroir quadratique de Daubechies. Soit ψ 'j ,n (t ) = 2 − j / 2 ψ ' 2 − j t − n les dérivées des )
fonctions ondelettes générées par ψ(t).
a) Vérifier que h1 et g1 définis par
( −1
) (
hˆ1 (ω ) = 2hˆ (ω ) e jω − 1 ; gˆ 1 (ω ) = 2 e jω − 1 gˆ (ω ) )
sont des filtres à réponse finie.
b) Montrer que la transformée de Fourier de ψ '(t) peut être écrite selon :
ψˆ ' (ω ) = 1
( )
gˆ 2 −1ω ∞ hˆ1 2 − p ω
∏
( )
2 p =2 2
10. (Les filtres miroir quadratique) On définit un banc de filtre avec quatre réponses impulsionelles
~
h, g, h et g~ qui décompose un signal a0 [n]
a1 [n ] = a 0 ∗ h[2n ] d1 [n] = a0 ∗ g [2 n]
En utilisant la relation (5.70), la reconstruction est donnée par :
(
a 0 [ n] = a(1∗ h [ n] + d 1 [ n] ∗ ~
~
~ g [ n]
a) Montrer que a~[n ] = a 0 [n − l ] si
gˆ (ω ) = hˆ (ω + π ), h (ω ) = hˆ(ω ), ~ gˆ (ω ) = − h (ω + π )
~ˆ ~ˆ
et h satisfait la condition quadratique
hˆ 2 (ω ) − hˆ 2 (ω + π ) = 2e − jl ω
b) Montrer que l est nécessairement pair.
11. (Les ondelettes et les bancs de filtres) On définit

∞
φ k +1 (t ) = 2 ∑ h[n ]φ k (2t − n )
n = −∞
avec φ 0 =1[0,1] et a k [n] = φ k (t ), φ k (t − n ) .
a) Soit P un opérateur défini par :
1  ˆ ω  
2 2
ω  ˆh ω + π  fˆ  ω + π  
Pf (ω ) =
ˆ h  fˆ   +
2  2  2 2  2  

Montrer que aˆ k +1 (ω ) = Paˆ k (ω ) .
b) Montrer que s'il existe φ telle que lim φ k − φ = 0 alors 1 est une valeur propre de P et
k →∞
∞
( )
φˆ(ω ) = ∏ 2 −1 / 2 hˆ 2 − p ω .
p=1
12. (La transformée ondelettes rapide) Soit b[n]=f(N -1n) avec 2L=N-1 et f ∈V L . On veut, en utilisant
a L [n] = f ,φ L,n calculés à partir de b[N], trouver les coefficients ondelettes de f, définis dans le
théorème 5.7.
( )
a) Soit φ L [n] = 2 − L / 2 φ 2 − L n . Montrer que b[ n] = a L ∗ φ L [ n] .
b) Prouver que s'il existe C>0 tel que pour tous ω ∈ [− π , π ]
∞
φˆd (ω ) = ∑ φˆ(ω + 2kπ ) ≥ C
k = −∞
alors aL peut être calculé à partir de b avec un filtre stable φ L−1[n] .

13. (La transformée ondelettes rapide) On considère la séquence

y=[1 0 -3 2 1 0 1 2]
a) Calculer les coefficients de la décomposition de cette séquence sur l'ensemble des ondelettes de
Haar.
b) Montrer que la reconstruction, au sens du théorème 5.7, est parfaite.
14. (Ondelettes biorthogonales)

Expliquer l'intérêt pratique de l'utilisation des ondelettes biorthogonales.
15. (Analyse par paquets d'ondelettes)

A partir de l'algorithme de décomposition en paquets d'ondelettes, proposer une procédure de
débruitage pour le cas 1D. Commentaires sur le choix de l'ondelette et sur le critère de la sélection
de la meilleure base.
16. (Décomposition en paquets d'ondelettes invariante en temps)

Quels sont les avantage de l'utilisation de la DPOIT par rapport à la décomposition en paquets
d'ondelettes classique?

6. Représentation temps-fréquence bilinéaires
6
REPRESENTATIONS TEMPS-FREQUENCE BILINEAIRES
6.1. La transformée de Wigner-Ville [1,3]
6.1.1. Définition [1]
Le carré de la transformée de Fourier est appelé le spectre de puissance et il caractérise

l’énergie de la distribution d'un signal dans le domaine fréquentiel. Puisque la transformée de Fourier
este linéaire, le spectre de puissance est une fonction quadratique de fréquence. On utilise également
le carré de la transformée de Fourier à courte terme et la transformé en ondelettes pour décrire la
distribution énergétique d'un signal dans le domaine temps-frequence. Les carrés de la transformée
Fourier à court terme et de la transformée en ondelettes sont appelés le spectrogramme et,
respectivement, le scalogramme. Comme discuté dans les chapitres précédents, les résultats obtenus
par le spectogramme et par le scalogramme font l’objet de la sélection de fonctions d’analyse. Pour
surmonter ces problèmes, nous présentons une méthode plus générale pour décrire la distribution
énergétique d'un signal dans le plan temps-frequence.
Selon le théorème de Wiener-Kinchine, le spectre de puissance peut être considéré comme la

transformée de Fourier de la fonction d’autocorrélation R(τ), selon :
SP(t , ω ) = S (ω ) = ∫ R(τ ) exp{− jωτ }dτ
2
(6.1)
où R(τ) est donné par :
R(τ ) = ∫ s(t )s * (t − τ )dt (6.2)

L’équation (6.1) n’est pas une fonction du temps ce qui indique que la quantité d'énergie
présente à la fréquence ω englobe toute la durrée temporelle. Cette relation montre que le spectre est
distribué dans le temps. En utilisant (6.1), il n'y a aucune façon de constater si le spectre de puissance
d'un signal change au cours du temps. Le spectre de puissance standard est donc insatisfaisant pour
caractériser les signaux dont le contenu en fréquence évolue au cours du temps, comme la plupart des
signaux biomédicaux, de sons ou de vibrations.
En examinant (6.1), nous pouvons voir qu'une possibilité de construire un spectre dépendant
de temps consiste à rendre la fonction d'autocorrélation dépendante du temps. La transformée de
Fourier résultante de la fonction d'autocorrélation R(t, τ), qui est fonction de la variable τ, devient
alors une fonction de temps, par :
P(t, ω ) = ∫ R (t, τ ) exp {− jωτ }dτ (6.3)
On appelle P(t,ϖ) le spectre de puissance dépendant de temps. La question qui persiste est de
déterminer la fonction d'autocorrélation dépendante du temps R(t, τ).
Apparemment, le choix de R(t,τ) n'est pas arbitraire. Par exemple, puisque P(t,ϖ) décrit le
spectre de puissance dépendant du temps, en sommant tous les spectres P(t 0 ,ϖ) instantanés on doit
retrouver le spectre de puissance |S(ϖ)|2 , par :
∫ P(t , ω )dω = S (ω )
2
(6.4)

ce qu’on appelle traditionnellement la condition de conservation de la marginale en fréquence.

Réciproquement, sur l'axe de fréquence doit être égale à l'énergie instantanée, selon :
∫ P(t , ω )dω = s (t )
1 2
(6.5)
2π
ce qui traduit la condition de conservation de la marginale en temps. Si P(t,ϖ) représente la
distribution d'énergie du signal dans le domaine temps-fréquence, alors nous lui voulons des valeurs
réelles :
P(t,ϖ) = P* (t,ϖ) (6.6)
En accord avec le concept conventionnel de l'énergie, nous souhaitons également que le

spectre dépendant du temps soit non-négatif.
D'une manière primordiale, cependant, nous devons nous assurer que P(t,ϖ) s’identifie en
effet à l'analyse en fréquence du signal et c'est également la propriété la plus difficile à justifier. Pour
les représentations linéaires, telles que la transformée de Fourier à court terme et la transformée en
ondelettes, la qualité de la représentation peut simplement être jugée par la concentration des
fonctions élémentaires. Plus les fonctions élémentaires sont concentrées, mieux la représentation
proposée pour décrire les comportements locaux d'un signal. Malheureusement, ce n'est pas le cas du
spectre dépendant du temps. Pour les spectres dépendant de temps, il n'y a aucune fonction
élémentaire explicite.
Le spectre dépendant du temps le plus connu est le spectrogramme. D'une manière alternative,
on a vu au chapitre 4 que le spectrogramme peut être écrit comme la transformée de Fourier de la
fonction d'autocorrélation dépendante du temps R(t, τ), où :
R(t , τ ) = ∫ As (υ , τ )Aγ (υ , τ ) exp {j υt }dυ
1
(6.7)
2π
où As(υ,τ) représente la fonction d'ambiguïté de s(t). Aγ(υ,τ) est la fonction d'ambiguïté de la fenêtre
d'analyse γ(t). Comme vu au chapitre 4, la résolution du spectrogramme dépend de la sélection de la
fonction d'analyse γ(t).
Pendant les cinquante dernières années, beaucoup de recherches ont été concentrées sur la
construction du spectre dépendant du temps. La méthodologie de découvrir les fonctions
d'autocorrélation dépendantes du temps désirées R(t, τ) a été une démarche importante. Nous ne
fouillerons pas ici dans ces détails, mais présentons plutôt les résultats qui ont été bien établis, comme
la distribution de Wigner-Ville.
La distribution de Wigner-Ville (DWV) a été initialement développée pour le domaine de la
mécanique quantique en 1932 et a été adaptée pour l'analyse des signaux par un scientifique français
Ville 15 ans plus tard. On la connaît généralement, dans la communauté de traitement des signaux,
comme la distribution de Wigner-Ville.
Dans le cas de la DWV, la fonction d'autocorrélation dépendante de temps est choisie par :
 τ  * τ 
R(t , τ ) = s t +  s  t −  (6.8)
 2  2
La substitution de cette fonction d'autocorrélation dépendant du temps en (6.3) rapporte :
 τ  * τ 
DWV s (t , ω ) = ∫ s  t +  s  t −  exp {− j ωτ }dτ (6.9)
 2  2
L’equation (6.9) traduit habituellement l'auto-DWV. La DWV croisée est définie par :
 τ  * τ 
DWV s, g (t , ω ) = ∫ s  t +  g  t −  exp{− jωτ }dτ (6.10)
 2  2
où s(t) et g(t) représentent deux signaux différents. Il est facile de vérifier que :
DWV s, g (t , ω ) = DWV * g ,s (t , ω ) (6.11)
Par conséquent,
DWV s (t , ω ) = DWV * s (t , ω ) (6.12)

ce qui implique le fait que auto-DWV sera toujours réelle.
D'une manière équivalente, la DWV peut également être calculée à partir du domaine
fréquentiel. Soit
 τ * τ
s1 (τ ) = s t +  et g 1 (τ ) = g  t − 
 2  2
dont les transformées de Fourier sont données par :
τ τ
s1 (τ ) ↔ S1 (ω ) = 2S (2? )e j 2? t et g1 (τ ) ↔ G1 (ω ) = 2G * (2? )e − j 2 ? t
En utilisant le théorème de convolution, (6.10) peut être écrite comme :

 τ  τ
DWVs, g (t ,ω ) = ∫ s t +  g *  t −  exp{− jωτ }dτ =
 2  2
= ∫ s1 (τ ) g1 (τ ) exp {− jωτ }dτ = S1 (ω ) ⊗ G1 (ω ) =
2α =ω + Ω / 2
j ( 4α − 2ω )
=
4
∫ S (2α )G *
[2ω − 2α ]e dα =
2π
 Ω  * Ω
∫ S ω + G  ω −  exp {j Ωt }dΩ
1
= (6.13)
2π  2  2
où S(ω) est la transformée de Fourier de s(t) et G(ω) est la transformée de Fourier de g(t). L’auto-
DWV correspondante est :
 Ω  * Ω
DWV s (t , ω ) = ∫ S ω +  S  ω −  exp { jΩ t}dΩ
1
(6.14)
2π  2  2
6.1.2. Propriétés générales de la distribution de Wigner-Ville [1,3]
Dans la section précédente, nous avons présenté les concepts de spectre dépendant de temps et
de la distribution de Wigner-Ville. Comparée à la TFCT, la DWV présente une meilleure résolution,
et, également ne souffre pas des effets de la fenêtre (voir le chapitre 4). Dans ce qui suit, nous
étudierons les propriétés de la DWV.
1. L'invariance par translation temporelle
Si la DWV d'un signal s(t) est DWVs (t,ω), alors la DWV de sa version décalée en temps
s0 (t)=s(t-t 0 ) est la DWV décalée temporellement de s(t), exprimée selon :
DWV s0 (t , ω ) = DWV s (t − t 0 , ω ) (6.15)
2. L'invariance par translation fréquentielle (modulation fréquentielle)
Si la DWV d'un signal s(t) est DWVs (t,ω), alors la DWV de sa version modulé en fréquence
s0 (t)=s(t)exp{jω0 t} est la DWV de s(t) décalée en fréquence, exprimée selon :
DWV s0 (t , ω ) = DWV s (t , ω − ω 0 ) (6.16)
La preuve de ces deux propriétés est laissée à titre d’exercice.
Sur la figure suivante, on met en évidence ces deux propriétés, à partir d'une modulation
linéaire de fréquence (signal chirp).

Signal décalé en temps Signal original Signal décalé en fréquence (modulé)
F
DWV T DWV DWV
Figure 6.1. Les propriétés d'invariance par décalage en temps et en fréquence
Sur cette figure on observe que, dans le cas de la DWV, la structure temps-fréquence d'un
signal est conservée par décalage en temps ou en fréquence. Cela représente une propriété importante
de la DWV, intensivement exploitée dans des applications comme la détection ou la classification des
signaux.
3. Les marginalles en temps et en fréquence
Par définition, la marginale en temps d'une représentation temps-fréquence est obtenue par
l'intégration de celle-ci sur tout l'axe de fréquence :
 τ  * τ  1
∫ DWV s (t , ω )dω = ∫ s  t +  s  t −  ∫ exp{− jωτ }dωdτ =
1
2π  2   2  2π
(6.17)
 τ  * τ 
= ∫ s t +  s  t − δ (τ )dτ = s (t )
2
 2  2 
D'une manière similaire la marginale en fréquence peut être obtenue par intégration sur tout le
domaine temporel :
 τ  * τ 
∫ DWV s (t , ω )dt = ∫∫ s t +  s  t −  exp{− jωτ }dtdτ
 2  2 (6.18)
= ∫ exp {− j ωτ }∫ s (t )s * (t − τ )dtdτ = ∫ exp {− jωτ }R (τ )dτ = S (ω )

2
4. La conservation de l'énergie par transformation
Cette propriété assure que l'énergie obtenue par DWVs(t,ω) sera identique à l'énergie du signal
de départ. Elle est induite par les conditions marginales en temps et en fréquence et par la relation de
Parseval
∫∫ DWV s (t , ω )dωdt = ∫ S (ω ) dω = ∫ s(t ) dt

1 1 2 2
(6.19)
2π 2π
4. Valeurs réelles
La relation 6.12 montre le fait que la DWV d'un signal aura toujours des valeurs réelles.
5. Covariance par dilatation
Cette propriété est exprimée de la manière suivante :

 ω
y (t ) = k x(kt ); k > 0 ⇒ DWV y (t , ω ) = DWV x  kt,  (6.20)
 k
6. Compatibilités par filtrage et par modulation
La propriété de compatibilité par filtrage assure le fait que si le signal y est la convolution
entre x et h (autrement dit, y est la sortie d'un filtre h quand on applique x à l'entrée) alors la DWV de
y est la convolution temporelle entre la DWV de x et la DWV de h :
∞ ∞
y (t ) = ∫ h(t − s )x (s )ds ⇒ DWV y (t , ω ) = ∫ DWV h (t − s, ω )DWV x (s , ω )ds (6.21)
−∞ −∞
D'une manière duale la propriété de compatibilité par modulation s'exprime par : si y est une
modulation de x par une fonction m, la DWV de y est une convolution fréquentielle entre la DWV de
x et la DWV de m :
∞
y (t ) = m(t ) x(t ) ⇒ DWV y (t , ω ) = ∫ DWV m (t , ω − ξ )DWV x (t , ξ )dξ (6.22)
−∞
7. Conservation des supports temporel et fréquentiel
Si le signal a un support compact en temps et en fréquence alors sa DWV aura le même

support temporel et fréquentiel :
x (t ) = 0, t > T ⇒ DWV x (t , ω ) = 0, t > T
(6.23)
X (ω ) = 0, ω > B ⇒ DWV x (t , ω ) = 0, ω >B
Cette propriété est illustrée sur la figure suivante, où on considère comme signal de test une
sinusoïde avec une modulation d’amplitude gaussienne. On présente également la représentation
temporelle et le spectre du signal.
Représentation temporelle du signal
1
F 0.8
0.6
0.4
T 0.2
-0.2
-0.4
-0.6
-0.8
-1
50 100 150 200 250
Distribution de Wigner-Ville
Représentation fréquentielle du signal
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
50 100 150 200 250
Figure 6.2. La conservation du support fréquentiel et temporel
8. Unitarité - la formule de Moyal
La propriété d'unitarité exprime l'effet de la conservation du produit scalaire du domaine

temporel et du domaine temps-fréquence :
∞ 2 ∞ ∞
∫ x(t ) y (t )dt ∫ ∫ DWV x (t , ω )DWV y (t , ω )dtdω
* 1
= *
(6.24)
−∞ 4π 2
−∞ −∞

9. La fréquence instantanée
La fréquence instantanée d'un signal x peut être calculée à partir de sa DWV comme le
moment de premier ordre (le centre de gravité) en fréquence :
∞
∫ υDWV x a (t , υ )dυ
f x (t ) = −∞
∞
(6.25)
∫ DWV xa (t ,υ )dυ
−∞
où x a est le signal analytique associé à x. La preuve de cette propriété est donnée en [1, pag. 109].
10. Le retard de groupe
D'une manière duale, le retard de groupe peut être obtenu comme le moment temporel du
premier ordre de sa DWV, selon :
∞
∫ tDWV xa (t , υ )dt
t x (υ ) = −∞
(6.26)
∞
∫ DWV xa (t ,υ )dt
−∞
Ces deux propriétés sont importantes dans des applications où on cherche à estimer la
fréquence instantanée d'un signal mono-composante.
11. La localisation parfaite d'un signal chirp
On suppose un signal chirp dont l'expression générale est x (t ) = e j 2πυ x (t )t , où υ x (t ) = υ 0 + 2βt .

L'expression de la DWV de ce signal, obtenue en utilisant (6.10) est :
DWV x (t , υ ) = δ (υ − (υ 0 + βt )) (6.27)
Cette relation met en évidence la propriété centrale de la DWV qui a constituée le cadre de
base pour la généralisation menée par Cohen [3] et qui a conduit à la construction de la classe de
Cohen. Cette propriété est illustrée sur la figure suivante.
Distribution de Wigner-Ville d'un chirp
2D 3D
0.45
0.4
Amplitude
(normalisée)
0.35
Fréquence
0.3
0.25
0.2
0.15
0.1
0.05
0
50 100 150 200 250 F T
Temps
Figure 6.3. DWV d'un signal chirp
Comme on a vu dans cette section, la DWV respecte un nombre important de propriétés qui la
rend utile, avec quelques modifications, dans des application comme l'extraction ou l'estimation des
paramètres. Néanmoins, la distribution de Wigner-Ville ne vérifie pas quelques propriétés qui
auraient été souhaitables pour rendre cet outil encore plus performant. La première propriété non
vérifiée par Wigner-Ville est la positivité. En effet, la distribution de Wigner-Ville peut prendre des
valeurs négatives ce qui d'une part ne permet pas de la classer dans la catégorie des densités d'énergie,
et d'autre part rend l'interprétation des résultats assez difficile. D'autre part, la distribution de Wigner-
Ville ne vérifie pas la propriété dite de causalité; c'est-à-dire que l'évaluation de la distribution à un
instant t donné nécessite la connaissance du signal avant et après cet instant. Le passé du signal ne
suffit pas. La mise en œuvre d'une analyse en temps réel n'est donc pas envisageable.
Une autre propriété de la Distribution de Wigner-Ville, qui peut être vue comme un
inconvénient important est sa bilinéarité. Celle-ci est à l’origine de l’apparition de termes dits
d’interférences qui peuvent dans certains cas nuire à la lisibilité de la représentation temps-fréquence
obtenue. C’est pourquoi, il convient d’étudier ces termes de manière plus précise.
6.1.3. Les termes d'interférence générés par la DWV [1]
Cette "limite" de la distribution de Wigner-Ville est un prix à payer pour toutes ses autres
bonnes propriétés. En effet, la forme quadratique de celle-ci est à l'origine de la plupart des
caractéristiques intéressantes de la distribution, mais elle est également à l'origine de la non-linéarité
de cette dernière. Considérons pour cela deux signaux x(t) et y(t). La DWV de z(t)=x(t)+y(t ) - le
signal somme des deux signaux précédents a pour expression (en partant de la relation (6.9)) :
  τ  τ   τ   τ 
DWV z (t , ω ) = ∫  x  t +  + y t +    x *  t −  + y *  t −   exp {− j ωτ }dτ ⇒
  2  2   2   2 
 τ  τ  τ  τ
⇒ DWV z (t , ω ) = ∫ x t +  x *  t −  exp {− jωτ }dτ + ∫ y t +  y *  t −  exp {− j ωτ }dτ +
 2  2   2  2
 τ  τ  τ  τ
+ ∫ x t +  y *  t −  exp {− jωτ }dτ + ∫ x *  t +  y t −  exp {− j ωτ }dτ ⇒
 2  2  2  2
⇒ DWV z (t , ω ) = DWV x (t ,ω ) + DWV y (t , ω ) + 2 Re DWV x, y (t , ω ) {
(6.28) }
Le troisième terme de cette expression est non nul et représente le terme dit d'interférence.
Ceux-ci augmentent rapidement puisque leur nombre (si on pose N le nombre de signaux
élémentaires constituant un signal z(t)) est donné par le produit N(N-1)/2.
Ces termes nuisent à la lisibilité des représentations qui peuvent être faites à partir de la
distribution, mais ils peuvent dans certains cas être utiles car ils contiennent une information sur la
phase du signal. Il peut donc être intéressant de bien comprendre les mécanismes qui sont à l’origine
de l’apparition des termes interférentiels de manière d’une part à les différencier des termes non-
interférentiels, et d’autre part pour en extraire le cas échéant une information utile.
Les études qui ont été faites sur les interférences ont montré que les termes interférentiels
avaient une structure oscillante. Il est donc envisageable de limiter l’importance de ces termes en
effectuant un filtrage qui tienne compte de cette particularité. La mise en œuvre de cette idée a abouti
à la définition des versions lissées de la distribution de Wigner-Ville qui fait l’objet de la section
ultérieure. Il est montré, par quelques exemples, le mécanisme et la géométrie des termes
d'interférences.
On suppose un signal composé de deux sinusoïdes complexes : s(t ) = exp ( j ω1t ) + exp ( j ω 2 t ) .
Le spectre de ce signal est 2πδ (ω1 ) + 2πδ (ω 2 ) tandis que la DWV est donnée par la relation
suivante :
DWV s (t , ω ) = 2π ∑ δ (ω − ω i ) + 4πδ ω − ω µ cos (ω d t )
2
( ) (6.29)
i =1
où ωµ et ωd est le centre géométrique et la distance entre les deux sinusoïdes, dans le domaine
fréquentiel, comme il est illustré sur la figure suivante :
S (ω )
2
300
ω1 + ω 2
ωµ =
2
200
100 ωd =ω1 -ω2
ω
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
ω1 ω2
Figure 6.4. La définition du centre géométrique et la distance entre deux sinusoïdes
La DWV exprimée par la relation (6.29) est présentée sur la figure suivante.
DWV de deux sinusoïdes
0.45
0.4 Termes d'interférences

0.35
Fréquence
0.3
0.25
0.2
0.15
0.1
0.05
0
50 100 150 200 250
Temps
Figure 6.5. La DWV de deux sinusoïdes
Sur cette figure, on met en évidence le résultat issu de l'expression (6.29) : on obtient deux
auto-termes aux fréquences ω1 et ω2 mais également des termes d'interférence , placés sur un axe
situé entre les deux composantes propres. Lorsque les auto-termes sont non-oscillants, ceux
d'interférence ont une structure oscillante de pulsation ωd . D'ailleurs, l'amplitude de ces termes est
deux fois plus grande que celle de termes propres.
La géométrie des termes d'interférence issus par la DWV est donnée par la loi suivante : les
termes d'interférence générés par deux atomes temps-fréquence sont concentrés autour du milieu de
la droite qui unit ces points, ayant une structure oscillante à travers d'un axe perpendiculaire à cette
droite. La pulsation est donnée par la différence entre les fréquences correspondantes aux atomes
pris en compte. Cette loi est illustrée à partir de l'exemple suivant : on considère deux atomes
gaussiens et, pour différentes positions de ceux-ci, on obtient plusieurs configurations de termes
d'interférences, mais qui suivent la même loi.
Distribution de Wigner-Ville Distribution de Wigner-Ville
Temps Temps
Distribution de Wigner-Ville Distribution de Wigner-Ville

Temps Temps
Figure 6.6. La dépendance de la configuration des termes d'interférence de la positions des termes propres

6.1.4. La DWV discrète [4]
Il parait évident que la distribution de Wigner-Ville dans sa version continue n'est pas adaptée à
un traitement dans des conditions réelles. D'une part, le signal étudié est toujours connu sur une durée
finie. D'autre part, pour permettre une implémentation sur les ordinateurs actuels, il est nécessaire de
définir des versions de cette distribution à temps discret (mise en œuvre de la transformation sur un
signal échantillonné), à fréquence discrète ou même à temps et à fréquence discrets.
Il convient également de garder à l’esprit que la version discrétisée de la transformation de
Wigner-Ville ne sera dans tous les cas qu’une expression approchée de la version à temps continu. A
ce titre, certaines des propriétés de base de la transformation seront altérées voire perdues et de
nouvelles difficultés apparaissent comme le phénomène de repliement.
§ Distribution de Wigner-Ville à temps discret
Cette distribution doit répondre à certaines exigences :

− Conserver le maximum de caractéristiques de la version à temps continu.
− Permettre de retrouver la forme à temps continu de manière simple
Pour cela, on considère le signal à temps discret,
^
f (t ) = ∑ f ( nt ).δ (t − n.T ) (6.30)
n
où T est la période d'échantillonnage du signal
Alors on a:
 τ  τ 
DWV ^ (t , u ) = ∫−+∞∞ ∑ f (k .T ).δ (t + − k.T ) . ∑ f * (n.T ).δ (t − − n.T ) .e −2.i .π .u.τ .dτ (6.31)
f k 2  n 2 
d'où:
n.T
DWV ^ (t , u ) = ∑ ∑ f ( k.T ). f * (( n − k ).T ). exp( −2.i.π .( 2.k − n).T ).δ ( t − ) (6.32)
f n k 2
On constate alors que la distribution de Wigner-Ville du signal échantillonné est elle-même
échantillonnée en temps à une fréquence deux fois plus importante que celle du signal.
Partant de cette expression, il est naturel de définir la distribution de Wigner-Ville à temps
discret comme le poids de la distribution de Dirac, soit:
^ n. T
W ^ (t , u) = ∑ W ^f ( n, u).δ ( t − ) (6.33)
f
n 2
^
où W ˆ est la transformée de Fourier de la distribution de Wigner-Ville de fˆ .
f
La distribution de Wigner-Ville à temps discret est périodique de période 1/T par rapport à u.
Pour obtenir la relation liant la version continue à la version discrète, qui permet de mieux
appréhender les conséquences de la discrétisation, il convient de rappeler que l'on a, d'une part:
^ n. T
W ^ (t , u) = ∑ W ^f ( n, u).δ ( t − )
f
n 2
et d'autre part:
1 l n. T
W ^ (t , u) =
f
∑
2. T n ,l
( −1) n.l .W f ( t , u −
2 .T
). δ (t −
2
) (6.34)
En identifiant terme à terme, on obtient alors la relation qui existe entre la distribution de
Wigner-Ville à temps discret et la distribution à temps continu, soit:
^ 1 n. T l
W f ( n, u) = ∑ ( −1) n.l .W f ( ,u −
^
) (6.35)
2. T n ,l 2 2. T
Cette formule met en évidence deux conséquences importantes de la discrétisation.
→ La distribution de Wigner-Ville est échantillonnée à une fréquence double de celle du signal;
→ La distribution de Wigner-Ville est périodique en fréquence de période 1/2.T avec un changement

de signe (on rappelle que T est la période d'échantillonnage du signal). Pour éviter le phénomène de
repliement spectral, il faut donc que la fréquence d'échantillonnage soit choisie de façon à ce que la
période de répétition en fréquence soit supérieure à la largeur de bande du signal. Si le signal analysé
n'est pas à bande limitée, il est donc impossible d'éviter le repliement spectral.
Dans le cas d'un signal à bande limitée, il existe deux méthodes pour s'affranchir du
repliement spectral.
→ La première consiste à échantillonner le signal à une fréquence au moins deux fois supérieure à la
fréquence de Shannon. En effet, dans ce cas, la période de répétition du spectre en fréquence est
de 2 fois la fréquence maximum du signal, soit exactement sa largeur de bande (la largeur de
bande d'un signal tient compte à la fois des fréquences positives et négatives du signal; la largeur
de bande est donc obtenue en multipliant par deux la fréquence positive la plus élevée).
→ La seconde méthode s'appuie sur le signal analytique . En effet, celui-ci a la particularité de ne
pas posséder, dans le plan fréquentiel, de composantes négatives. Il s'ensuit que la largeur de
bande du signal analytique est deux fois plus faible que celle du signal d'origine. Par conséquent,
pour éliminer le phénomène d'aliasing, il suffit d'échantillonner le signal à une fréquence égale à
la fréquence de Shannon et de calculer le signal analytique associé. Ce que l'on gagne en
fréquence d'échantillonnage doit être récupéré par le calcul, car en fait, le passage au signal
analytique multiplie par deux le nombre de composants sur lequel est calculée la distribution.
§ Distribution de Wigner-Ville à fréquence discrète
En raison de la symétrie entre la définition de la distribution de Wigner-Ville à partir du signal

temporel et du spectre du signal, il existe une dualité entre les résultats obtenus lors d'une
discrétisation en temps et d'une discrétisation en fréquence.
Ainsi, la distribution de Wigner-Ville d'un signal échantillonné en fréquence est périodique en
temps. En posant, Λ la période d'échantillonnage fréquentiel, on obtient la relation :
Λ l Λ
W ^ (t , u) = . ∑ ( −1) m.l .W f ( t − , u). δ (u − m. ) (6.36)
f 2 m, l 2. Λ 2
On observe alors que la distribution de Wigner-Ville est périodisée en temps de période 1/2.Λ
avec changement de signe et échantillonné en fréquence à une fréquence double de celle du signal
(période d'échantillonnage de Λ/2).
Par analogie avec la discrétisation à temps discret, on peut définir la distribution de Wigner-
Ville à fréquence discrète par :
W F^ ( t , m) = ∑ F ( k . Λ ). F * (( m − k ). Λ).exp( 2. i .π . t .(2. k − m). Λ)
^
(6.37)
k
Pour éviter les phénomènes de repliement temporel, il faut alors que la durée du signal
n'excède pas la durée 1/2.Λ. Comme dans le cas de la discrétisation temporelle, il convient donc de
choisir la fréquence d'échantillonnage fréquentiel de manière à s'affranchir de ce problème mais cela
reste possible.
§ Distribution de Wigner-Ville à temps et à fréquence discrète
Considérons maintenant un signal discrétisé à la fois en temps et en fréquence. La

discrétisation en temps va entraîner une périodisation en fréquence, de même que la discrétisation en
fréquence entraîne une périodisation en temps. Dans ces conditions, un nombre fini d'échantillons
suffit à décrire le signal dans l'espace temps-fréquence.
Pour ce faire, il faut que les périodes d'échantillonnage temporel T et fréquentiel Λ vérifient la
relation :
1
Λ= (6.38)
N .T

où N est le nombre d'échantillons dans le domaine temporel.

En posant les conventions de notation suivantes,
f r ( t ) = ∑ f ( t − N . l . t ) - le signal périodique réduit à l'intervalle N.T
l
f k = f r ( k . T ) - f le signal échantillonné à la fois en temps et en fréquence.
Alors en suivant une démarche identique à celle suivie pour définir la distribution à temps
discret, on peut écrire que :
1  N −1  − i .π . m  n. T m
W − (t , u) = . ∑  ∑ f k . f n*− k .exp .(2. k − n ) . δ ( t − ).δ ( u − ) (6.39)
f 2. N . T n, m  k = 0  N  2 2. N . T
Si on définit la distribution de Wigner-Ville à temps et à fréquence discrets comme le poids de
la fonction de Dirac bidimensionnelle aux points t=n.T/2 et u=m/2.N.T, on obtient :
 −i . π . m
N −1
1 
W (n, m) = . ∑ f k . f n− k .exp .( 2. k − n)
*
(6.40)
2. N . T k = 0  N 
Ceci revient à décomposer l'espace temps-fréquence en atomes temps-fréquence de dimension
T/2×1/2.N.T et de calculer la contribution énergétique du signal dans cet atome.
Partant de cette observation, il est clair qu'il est impossible de s'affranchir du phénomène de
repliement dans le cas d'une double discrétisation. En effet, pour obtenir une version de distribution
discrète ne temps et en fréquence, il faudrait que l'on ait d'une part, une distribution nulle à l'extérieur
d'un intervalle de fréquence [0, 1/2.T] et d'autre part, cette même distribution nulle en dehors d'un
intervalle de temps [0, N.T/2] où T représente la période d'échantillonnage temporel. Or ces deux
conditions ne peuvent être vérifiées simultanément puisqu'un signal n'est jamais à la fois de durée et
de spectre fini.
Dans la pratique, il est néanmoins possible de se rapprocher fortement de cette situation mais
il conviendra de toujours avoir à l'esprit les conséquences que peuvent avoir l'aliasing sur la
représentation du signal à partir d'une distribution de Wigner-Ville à temps et à fréquence discrète.
6.1.5. L'implémentation de la DWV discrète [4]
L’expression de la distribution de Wigner-Ville à temps et à fréquence continue est la

suivante:
+∞
Wx ( t ,ν ) = ∫
−∞
x ( t + τ / 2) ⋅ x ∗ ( t − τ / 2 ) ⋅ e −2⋅ j⋅π ⋅ν⋅τ ⋅ dτ
Une version discrète en temps et en fréquence de cette transformation est alors donnée par :
+∞
Wx ( n,ν ) = 2 ⋅ ∑ x[ n + k ] ⋅ x ∗
[ n − k ] ⋅ e − 4⋅ j⋅π ⋅ν⋅ k (6.41)
k =−∞
Pour mettre en œuvre cette transformation, il convient d’utiliser une implémentation qui se
rapproche de ce qui suit :
§ 1 passage au signal analytique : (on rappelle que le passage au signal analytique permet de
limiter le spectre du signal aux seules composantes positives.)
Pour obtenir le signal analytique, il existe deux méthodes envisageables:

A. La première consiste à calculer la transformation de Hilbert du signal considéré. Le signal
analytique est alors le résultat de la somme du signal initial (qui constitue la partie réelle du
signal analytique) et de la transformée de Hilbert de ce signal (qui constitue la partie imaginaire
du signal analytique).
B. La seconde méthode se décompose en 3 étapes:
1. calculer la transformée de Fourier du signal.
2. multiplier par 2 les coefficients correspondant à des fréquences strictement
positives, mettre les coefficients correspondant aux fréquences négatives à zéro. Lors de cette
étape, seul le coefficient correspondant au continu n’est pas modifié.
3. calculer la transformée de Fourier inverse du signal vecteur obtenu à l’issue

de la seconde étape. Le résultat obtenu est alors le signal analytique.
A ce stade, il convient de mettre l’accent sur une difficulté qui intervient dans le passage de la
version continue à la version discrète. En effet, le passage au domaine discret entraîne l’apparition de
phénomènes qui n’existent pas à temps continu tel que le repliement ou aliasing. La difficulté qui
intervient dans le cas des représentations temps-fréquence est que la transformation est discrétisée à
la fois en temps et en fréquence. De ce fait, il faut tenir compte du phénomène de repliement à la fois
dans le domaine temporel et dans le domaine fréquentiel. En raison de la dualité du temps et de la
fréquence, il sera toujours impossible d’éviter totalement tout phénomène de repliement mais il
convient toutefois de prendre des précautions afin d’en limiter les effets au maximum.
Pour cela, il faudra donc prendre les mesures suivantes: d’une part, le signal x(t) devra au
minimum être échantillonné à la fréquence de Shannon (ou de Nyquist) si l’on effectue le
passage par le signal analytique et à 2 fois la fréquence de Shannon si le passage au signal
analytique n’est pas effectué. Ces mesures doivent permettre d’éviter les problèmes de
repliement dans le domaine fréquentiel.
Afin d’éviter les problèmes de repliement temporel dont on oublie trop souvent l’existence, il
convient d’augmenter artificiellement le nombre de points sur lequel on effectue l’analyse afin
d’augmenter le pas d’échantillonnage dans le domaine fréquentiel. Pour cela, on fait appel à la
méthode du zéro-padding. Pour que celle-ci soit efficace, on multiplie habituellement par deux la
longueur du signal par cette méthode.
En tenant compte de toutes ces remarques, l’implémentation se poursuit de la manière suivante:

§ La seconde étape consiste à calculer le terme généralement désigné sous le nom de noyau et dont
l’expression est:
x[ n + k ] ⋅ x ∗[ n − k ]
où n représente l’indice d’instant d’échantillonnage.
La structure de l'algorithme devient :
créer une matrice noyau de dimension size(x)×(2.size(x)) partout nulle.

pour n variant de 1 à size(x),
noyau( n,0) = 2 ⋅ x[ n] ⋅ x ∗ [ n]
pour k variant de 1 à size(x)
noyau( n, k ) = 2 ⋅ x[ n + k ] ⋅ x ∗ [ n − k ]
noyau(n,2. size(x) -k)=conj(noyau(n,k))
fin pour
Wigner-Ville(n,:)=fft(noyau(n,:).conj(fft(noyau(n,:)))
end
Si le calcul est effectué dans de bonnes conditions et en respectant les observations concernant
le repliement, seuls les termes correspondant à des valeurs négatives ou nulles de k sont intéressantes
à visualiser.
En effet, à une valeur de k correspond un échantillon fréquentiel sachant que le pas
d’échantillonnage est donné par :
∆ν=fe/2* size(x) (6.42)
Le signal, dans le cas limite possède une largeur de bande telle que fe=2*B où B représente la
fréquence la plus élevée du signal. En utilisant le signal analytique, la largeur de bande du signal est
divisé par deux du fait de l’absence de composante dans le domaine des fréquences négatives. Le
passage à la transformée de Wigner-Ville est responsable d’une périodisation dans le domaine
fréquentiel de période la fréquence d’échantillonnage divisée par 2. Il s’ensuit que pour un signal

analytique de fréquence maximale fe/2, le ‘spectre’ utile du signal se limite à la bande de fréquence
[0,fe/2]. La moitié des termes du résultat suffisent donc à caractériser le signal.
6.2. La transformée Pseudo Wigner-Ville [1,3]
La pseudo-distribution de Wigner-Ville a été définie pour permettre un traitement plus

pratique des signaux de manière à obtenir une représentation se rapprochant le plus possible de la
définition originale de la distribution de Wigner-Ville qui n'est malheureusement pas directement
applicable. Le problème que l'on cherche à résoudre est celui de la durée du signal, qui dans la
version exacte est infinie ce qui est évidemment impossible à programmer. L'idée consiste alors à
n'effectuer l'étude que sur un signal vu à travers une fenêtre de durée fixée et finie.
De la définition de la taille de cette fenêtre et de sa forme dépendront les résultats obtenus tant
dans le domaine de la résolution que dans celui de la validité des mesures. En effet, il faudra tenir
compte des effets de fenêtrage que nous allons expliquer ultérieurement plus en détails mais aussi des
phénomènes tels que l'aliasing et également l'influence de toutes ces manipulations sur les termes
interférentiels que nous avons déjà évoqué précédemment.
6.2.1. Définition de la pseudo-distribution de Wigner-Ville (PDWV)
On utilise une fenêtre en τ (p(τ)), agissant sur la fonction q x ( t , τ ) . (La fonction q est définie
comme étant le noyau sur lequel est appliquée une transformation de Fourier; en d'autres termes :
 τ  * τ
q x ( t , τ ) = x t +  . x  t −  ) La distribution ainsi obtenue a été appelée pseudo-distribution de
 2  2
Wigner-Ville et sa définition est:
+∞ +∞
PWx ( t , ν ) = ∫
−∞
p (τ ). x (t + τ / 2). x * ( t − τ / 2). e −2.i.π .ν .τ . dτ = ∫
−∞
P(ν − ξ).Wx ( t , ξ ). dξ (6.43)
De manière plus exacte, on obtient la forme couramment utilisée de la pseudo-distribution de

Wigner-Ville lorsque la fenêtre p(τ) est factorisable selon :
p(τ ) = h * (τ / 2). h( −τ / 2) (6.44)
La distribution ainsi obtenue, tout en gardant l'esprit de la distribution de Wigner-Ville est une
analyse par l'intermédiaire d'une fenêtre glissante à court terme, ce qui en fait une proche voisine du
spectrogramme. Il semble donc intéressant de comparer ces deux outils du plan temps-fréquence afin
de mieux mettre en évidence les apports de la transformation de Wigner-Ville.
6.2.2. Comparaison entre la pseudo-distribution de Wigner-Ville et le spectrogramme
Bien que le spectrogramme et la distribution pseudo-Wigner-Ville utilisent les mêmes

supports (un segment de signal prélevé à l’aide d’une fenêtre à court terme), l’ordre différent dans
lequel s’effectuent les opérations de transformation de Fourier et de type quadratique entraîne des
différences de propriété importantes.
On peut citer deux exemples qui mettent en évidence cette remarque:
→ Dans le cas d’un signal à support fini de largeur T1 , et en effectuant une analyse à court terme de
ce signal à l’aide d’une fenêtre temporelle de largeur T2 , on constate que dans le cas du
spectrogramme, le spectre sera reparti sur une durée égale à T1 +T2 , alors que dans le cas de la
distribution pseudo-Wigner-Ville, le support temporel du signal est conservé (étalement du spectre
sur une durée T1 );
→ Une caractéristique particulièrement recherchée pour une distribution temps-fréquence est sa
capacité de localisation sur la loi d’évolution de la fréquence instantanée du signal. Dans le cas d’un
chirp linéaire, la fréquence instantanée est représentée par une droite dans le plan temps-fréquence

dont la pente détermine la rapidité de modulation. La meilleure situation d’analyse dans le cas du
spectrogramme est d’avoir un signal quasi stationnaire à l’intérieur de la fenêtre d’analyse. On se
trouve alors confronté au compromis du choix de la largeur de la fenêtre permettant de concilier à la
fois quasi-stationnarité à l’intérieur de la fenêtre et temps d’analyse suffisamment long pour ne pas
trop dégrader la résolution fréquentielle. Dans le cas d’un chirp linéaire, la résolution atteignable à
l’aide du spectrogramme sera d’autant plus faible que la pente de modulation du signal sera élevée :
en effet, la fenêtre dans laquelle on peut faire l’approximation de quasi-stationnarité est d’autant plus
étroite que la rapidité de modulation est importante. Ces aspects sont illustrés sur la figure suivante.
DWV Spectrogramme
0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
Figure 6.7. Comparaison entre la DWV et le spectrogramme
Dans le cas de la distribution de Wigner-Ville, la confrontation à ce problème intervient à un

degré supérieur. En effet, la situation d’analyse optimale est alors la modulation linéaire en raison de
l’introduction du produit du signal par son miroir local. Le choix de la fenêtre doit donc être fait de
manière à avoir une variation quasi-linéaire de la fréquence dans cette fenêtre et à conserver une
résolution fréquentielle suffisante. Il s’ensuit de ces remarques que l’analyse d’un chirp linéaire par
la distribution pseudo-Wigner-Ville permet d’obtenir une concentration quasi parfaite de la
représentation sur la droite représentant la fréquence instantanée du signal dans le plan temps
fréquence et ce, quelle que soit la pente de modulation du chirp.
6.2.3. La pseudo-distribution de Wigner-Ville lissée
La bilinéarité de la transformation est à l’origine de l’apparition de termes d’interaction entre

toutes les composantes du plan temps-fréquence.
Les termes d’interaction entre les fréquences négative et positive du signal peuvent être
éliminées en utilisant le signal analytique puisque celui-ci ne possède pas de fréquences négatives.
Toutefois, cette opération n’empêche en aucun cas l’apparition de termes d’interférence entre
composantes distinctes sur l’axe des fréquences positives. Il a été montré dans le sous-chapitre
antérieur que ces termes d’interférence avaient une structure fortement oscillatoire à la différence des
composantes propres du signal qui ont une structure beaucoup plus régulière.
De cette constatation est née l’idée de réduire l’influence des termes interférentiels par une
méthode correctement choisie de lissage. La distribution modifiée ainsi obtenue peut alors s’écrire:
+ ∞ +∞
C ( t ,ν; F ) = ∫ ∫ W ( t' , ν') ⋅ F (t − t ', ν − ν ') ⋅ dt '⋅dν '
x −∞ −∞ x
(6.45)
où F est une fonction de lissage normalisée:

+∞ +∞
∫ ∫
−∞ −∞
F ( t ,ν ) ⋅ dt ⋅ dν = 1 (6.46)
La représentation ainsi formulée définit la classe la plus générale des représentations

bilinéaires admissibles, sous la seule contrainte d’invariance vis-à-vis des translations dans le plan
temps-fréquence. Cette classe est connue sous le nom de classe de Cohen, du nom de celui qui
présenta pour la première fois les distributions bilinéaires sous cette forme, encore une fois dans le
domaine de la mécanique quantique (utilisation dans le plan position-impulsion).
Le choix de la fonction de lissage détermine donc de façon cruciale la méthode d’analyse

retenue comme approximation lissée de la distribution de Wigner-Ville initiale. D’autre part, il est
possible de déterminer les propriétés de la représentation bilinéaire obtenue à partir des seules
caractéristiques de la fonction de paramétrisation.
Ainsi, on voit que les méthodes du type spectrogramme pour lesquelles :
F ( t, ν ) = W h ( t, ν ) (6.47)
où h(t) est la fenêtre d’observation temporelle sont fondamentalement limitées par la nécessité d’un
compromis entre les résolutions temporelle et fréquentielle : améliorer la résolution fréquentielle ne
peut se faire qu’au prix d’un élargissement de la durée d’observation et inversement.
Cette propriété provient du fait que la fonction de lissage associée possède des
épanouissements temporels et fréquentiels dépendant les uns des autres (inégalité d’Heisenberg-
Gabor).
Une méthode naturelle pour s’affranchir de ce problème consiste alors à passer à une analyse à
deux degrés de liberté en utilisant une fonction de lissage à deux variables séparables, soit:
F ( t ,ν ) = g ( t ) ⋅ H ( ν ) (6.48)
Une telle fonction de lissage permet de définir la distribution pseudo-Wigner-Ville lissée:
+∞  +∞  τ  τ 
PW (t ,ν ) = ∫ e ⋅ h(τ ) ⋅ ∫−∞ g( ν − t ) ⋅ xν +  ⋅ x ∗  ν −  ⋅ dν  ⋅ d τ
− 2⋅ j⋅π ⋅ν ⋅τ
(6.49)
x −∞
  2  2 
où h(τ) est la transformée de Fourier inverse de H(ν).
La structure d’une telle transformation prend une forme relativement simple de corrélation
pondérée et centrée sur la droite de travail, suivie d’une transformation de Fourier elle-même
pondérée.
Une deuxième interprétation de cette représentation est possible, que rend plus tangible sa
mise en œuvre en l'apparentant à une TF à courte terme modifiée. Alors, si on prend comme fonctions
de lissage g(t)=δ(t) et h’(τ)=conj(h(τ/2))×h(-τ/2) (6.50), on retrouve la définition de la distribution
pseudo- Wigner-Ville :
2
τ   τ   τ 
PW x (t ,υ ) = ∞
∫−∞ h  x t +  x *  t − e − j 2πjυt dτ (6.51)
2  2  2
soit encore :
PWx (t ,υ ) = W xt (υ , υ ) υ =t (6.52)
où x t (υ ) = x (υ )h(υ − t ) est le signal x pondéré par h autour de t. Ceci permet de travailler à court
terme en faisant porter l'opération de transformation de Fourier non plus sur une tranche de signal
mais sur le produit de celle-ci par son image miroir. Ou, ce qui revient au même, à calculer une TFCT
dans laquelle la fenêtre de pondération serait continuellement choisie comme l'image en miroir de la
tranche analysée. Cette interprétation est à la base de la propriété de représentation parfaite d'une
modulation linéaire en fréquence. L'extension de cette propriété à la PWVL fournit le résultat central
selon lequel une telle analyse peut être considérée comme une TFCT modifiée dans laquelle
l'hypothèse, propre aux spectrogrammes, de stationnarité ou de constance dans la durée d'observation
peut être remplacée par l'hypothèse plus amiable d'approximation linéaire sur cette même durée. La
possibilité ainsi offerte d'élargissement de la durée d'analyse permet d'atteindre une meilleure
résolution fréquentielle, la "meilleure" fenêtre étant maintenant la plus grande pour laquelle
l'approximation reste valide. De plus, et toujours sous cette approximation, le choix d'une fenêtre
ayant la forme d'une fonction d'autocorrelation suffira à assurer la positivité de la représentation
associée si le signal considéré est monocomposante.
Cette stationnarisation locale se fait cependant au prix d'un traitement non linéaire dont l'effet
secondaire est de créer des termes d'interférence entre les composantes du plan temps-fréquence. Si
l'on revient alors à la forme générale, la pondération g introduit un nouveau lissage suivant l'axe de
temps. Le rôle essentiel de celui-ci est précisément de réduire les termes d'interaction entre
composantes situées autour de fréquences différentes. Le résultat principal est que l'amplitude d'un
terme interférentiel provenant de deux composantes distantes d'un intervalle fréquentiel δυ sera rendu
négligeable devant l'amplitude associée à chacune des composantes si le lissage temporel se fait sur
une durée au moins égale à 1/δυ. Ceci est illustré sur la figure suivante, où on présente la PWVL
d'un signal composé de deux sinusoïdes pour différentes tailles de la fenêtre G entre elles.
DWV PWVL : taille G - 65
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
PWVL : taille G - 121 PWVL : taille G - 9
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
Figure 6.8. Influence de la fenêtre G sur le niveau des termes d'interférence
A partir de cette figure on observe que, pour obtenir une bonne résolution fréquentielle
simultanément avec la réduction du niveau de termes d'interférence, il faut choisir une taille
fréquentielle petite (ceci se traduit par une bonne sélectivité fréquentielle).
D'une manière similaire on peut étudier l'influence de la taille de H en prenant comme
exemple deux atomes gaussiens, situés à la même fréquence.
DWV PWVL : taille H - 73
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
PWVL : taille H - 53 PWVL : taille H - 23

0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
Figure 6.9. Influence de la fenêtre H sur le niveau des termes d'interférence
En pratique, on choisit les tailles des fenêtres H et G telles que, pour un instant donné, dans la
fenêtre on a une seule composante temporelle et, respectivement, fréquentielle. Ainsi, en généralisant
les résultats illustrés sur 6.8 et 6.9, on peut dire que la PWVL permet d'éliminer tous les termes
d'interférence, dans le cas des signaux dont les support fréquentiel ou temporel est superposés. Dans
le cas où on a des composantes dont le support ne se superpose pas il faudra faire un compromis entre
la résolution souhaitée et le niveau des termes d'interférence. Cette situation est illustrée sur la figure
suivante on considère comme signal de test la somme des quatre atomes gaussiens.
DWV PWVL : taille H - 19; taille G -91
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
PWVL : taille H - 9; taille G -91 PWVL : taille H - 9; taille G -51
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
20 40 60 80 100 120 20 40 60 80 100 120
Temps Temps
Figure 6.10. Le compromis entre la résolution temps-fréquence et le niveau

des termes d'interférence
Comme on observe sur cette figure il est possible d'éliminer tous les termes d'interférence,
mais la résolution temps-fréquence sera affectée en conséquence. Autrement dit, la PWVL ne
respecte pas la propriété de conservation des supports, mais, dans les applications pratiques, grâce à
ces paramètres de contrôle, on peut améliorer la lisibilité de l'image temps-fréquence.
6.2.4. Implémentation de la PWVL [4]
La PWVL diffère de la transformée de Wigner-Ville de base par l’introduction de deux

fenêtres d’analyse l’une agissant sur le temps, l’autre sur la fréquence de manière à limiter les termes
d’interférence en localisant l’analyse. Ainsi le nombre de composantes du signal en interaction
diminue et le nombre de termes interférentiels diminue d’autant. La réduction de la distance entre
termes qui entrent en interaction permet également de réduire la rapidité de modulation des termes
interférentiels, qui rappelons le, ont une fréquence d’oscillation qui dépend directement de la distance
dans le plan temps-fréquence entre les termes à l’origine du terme interférentiel considéré.
L’idée de base est simple, mais la mise en œuvre rend la compréhension des opérations
effectuées délicate au premier abord.
Rappelons la formulation de la transformation de Wigner-Ville lissée:
+∞  +∞  τ  τ  − 2⋅ j⋅π ⋅ν⋅τ
PWVLx (t , ν ) = ∫−∞ h' (τ ) ∫−∞ g (s − t ) ⋅ x s + 2  ⋅ x ∗  s − 2  ⋅ ds  ⋅ e ⋅ dτ
La formulation à temps et à fréquence discrète est alors:

+∞
 +∞  −4⋅ j⋅π ⋅ k / 2 fe
PWVL [n, k ] = ∑ h[k ]  ∑ g[m − n] ⋅ x[m + k ] ⋅ x [ m − k ] ⋅ e
∗
2
× (6.53)
m=−∞ 
x
k =−∞
Comme dans le cas de la distribution pseudo-Wigner-Ville, il convient d’abord de calculer le
signal analytique (pour l’implémentation voir, le chapitre précédent).
Le calcul du noyau s’effectue alors de la manière suivante:
1. périodisation des échantillons temporels du signal sur 8 fois
la durée du signal de base.
2. pour n variant de 1 à N,
pour k variant de 1 à 2*N,
pour m variant de -M à +M,
noyau(n,k)=g(m)*sign_anal(n+k+m)*conj(sign_anal(n-
k+m)+noyau(n,k);
finpour,
noyau(n,k)=abs(h(k))^2*noyau(n,k);
finpour,
pWV(n,k)=transformée de Fourier du noyau sur k (ou
en core pour chaque valeur de n).
finpour.
Le calcul de la fréquence associée à chaque valeur de k est le même que celui effectué pour la
pseudo-distribution de Wigner-Ville.
6.3. La classe de Cohen [3]

Dans les sections précédents nous avons introduit la distribution de Wigner-Ville et ses
différentes versions, créées pour éliminer les inconvénients liés à sa bilinéarité. En addition, il existe
plusieurs représentations temps-fréquence bilinéaires qui ont été créées ces dernières années ([1], [2],
[3], [5], [6] ). Malgré cette diversité, il existe une expression générale qui unit toutes ces
représentations bilinéaires, concept introduit par Cohen [3]. Ce cadre général des représentations
temps-fréquence bilinéaires permettra la construction de la distribution la plus optimale pour une
application donnée.
Le concept introduit par Cohen est basé sur la fonction d'ambiguïté. On s'appuiera alors sur la
relation qui existe entre les fonctions noyau et les représentations temps-fréquence associées. La
dernière section sera consacrée à l'étude des principales approches temps-fréquence, issues de la
classe de Cohen.
6.3.1. La fonction d'ambiguïté [7]
Dans la section (6.1), on a vu que la DWV d'un signal peut être définie (6.9.) comme la
transformée de Fourier de la fonction d'autocorrelation instantanée (6.8), en utilisant τ comme
variable d'intégration. D'une manière similaire, la fonction d'ambiguïté symétrique (FA symétrique)
est définie, de point de vue mathématique, comme la transformée de Fourier de la fonction
d'autocorrelation instantanée, mais en utilisant t comme variable d'intégration :
 τ  * τ 
FAs (ϑ , τ ) = ∫ s t +  s  t −  exp{− jϑt }dt (6.54)
 2  2
qui a été déterminée par Ville et Moyal. D’un point de vue physique, la fonction d'ambiguïté exprime
la corrélation entre un signal et sa copie décalée en temps et/ou en fréquence. Elle est une des
approches de base utilisées dans le domaine radar et sonar.
L'expression (6.54) est appelée traditionnellement la fonction d'autocorrelation. D'une
manière similaire, la fonction d’intercorrélation sera définie par :
 τ  * τ 
FAs, g (ϑ , τ ) = ∫ s t +  g  t −  exp {− jϑt }dt (6.55)
 2  2
Bien que la DWV ait toujours des valeurs réelles, la FA prend généralement des valeurs
complexes :
FAs ,g (ϑ , τ ) ≠ FA* g , s (ϑ ,τ ) (6.56)
A partir de la relation (6.54) et en utilisant également la transformée de Fourier inverse, on
obtient :
 τ  * τ 
∫ FAs (ϑ , τ ) exp { jϑt }dϑ = s  t +  s  t − 
1
(6.57)
2π  2  2
Si on substitue cette relation en (6.9), on obtient :
DWV s (t , ω ) = ∫∫ FAs (ϑ , τ ) exp {− j [ωτ − ϑt ]}dϑdτ
1
(6.58)
2π
qui indique que la distribution de Wigner-Ville est la double transformée de Fourier de la fonction
d'ambiguïté symétrique.
La figure suivante illustre, en détail, les relations entre la distribution de Wigner-Ville et la
fonction d'ambiguïté symétrique.
On a vu, dans les sections précédentes, que dans le plan temps-fréquence, les termes
d’interférence se trouvent situés entre les termes utiles (et d’ici les difficultés d’interprétation). Par la
suite on montrera la propriété la plus importante de la fonction d'ambiguïté, dans le contexte de la
définition de la classe de Cohen : dans le plan d’ambiguïté les termes utiles se trouvent concentrés à
l’origine et les termes d’interférence sont éloignés de l’origine avec une distance proportionnelle à la
fréquence d’oscillation de ces termes dans le plan temps-fréquence.
Fτ Fϑ−1
 τ  τ Fτ
DWVs (t, ω )
Ft
FAs (ϑ,τ ) st + s* t − 
Fϑ−1  2  2 Fω−1
Ft Fω−1
Figure 6.11. Relation entre la distribution de Wigner-Ville et la fonction d'ambiguïté
On suppose un signal qui est la somme de deux fonction gaussiennes :

1
α  4  α 
x ( t ) = ∑ xi ( t ) = ∑   exp − ( t − t i ) + jω i t 
2 2
2
(6.59)
i =1

i =1 π
  2 
Ces deux fonctions gaussiennes sont localisées en (t ,ω )
1 1 et (t 2 ,ω 2 ) . La fonction
d’ambiguïté symétrique est donnée par:
2
FAx (ϑ ,τ ) = ∑ FAxi (ϑ ,τ ) + FAx 1, x 2 (ϑ , τ ) + FAx 2, x 1(ϑ , τ ) (6.60)
i =1
L’auto-fonction d’ambiguïté (auto-FA) WVxi est donnée par
  1 2 α 2 
FAxi (ϑ , τ ) = exp− 
  4α
ϑ + τ   exp j (ω iτ + ϑt i )
4 
{ } (6.61)
et les fonctions d’ambiguïté croisées, FAx1,x2 et FAx2,x1 sont:

  1
FAx1, x 2 (ϑ , τ ) = exp − 

 4α
( α 2
{(
ϑ − ω d ) + (τ − t d )   exp j ω µ τ − ϑt µ + ω d t µ
2
4  )}
(6.62)
  1
FAx 2, x 1 (ϑ , τ ) = exp − 
  4α
( α 2
{(
ϑ + ω d ) + (τ + t d )   exp j ω µ τ − ϑt µ + ω d t µ
2
4  )}
où
t1 + t2 f1 + f 2
tµ = ; fµ = ; t d = t1 − t 2 ; f d = f1 − f 2 (6.63)
2 2
A partir de ces relations, on peut voir que les termes (6.61) sont localisés autour de l’origine et
les termes d’interférence sont localisées autour des points (t d ,ω d ) et ( − t d ,−ω d ) , donc loin de
l’origine (la distance étant déterminée par (t d ,ω d ) ), comment on peut le voir sur la figure suivante.
τ
FAx1,x2
td
FAx1+ FAx2
− ωd
ωd ϑ
-t d
FAx2,x1
Figure 6.12. La fonction d’ambiguïté des deux signaux gaussiens
En utilisant les mêmes notations qu’en 6.63 et l’expression de DWV (6.8), on obtient la
distribution de Wigner-Ville du même signal :
WV x (t , ω ) = ∑ WV xi (t , ω ) + WV x1, x2 (t , ω ) + WV x2 , x1 (t , ω )
2
(6.64)
i =1
où:
- les termes propres de la DWV, WVxi, sont donnés par:
 1 
WV xi (t , ω ) = 2 ⋅ exp −  (t − t i ) 2 + α (ω − ω i )2 ; i = 1, 2 (6.65)
 α 
- les termes d’interférences de la DWV, WVx1,x2 et WVx2,x1, sont donnés par:
 
( )
WV x1 ,x 2 (t , ω ) = WV x2 , x1 (t , ω ) = 2 ⋅ exp − α t − t µ 2 + ω − ω µ 2 
1
α

( )
   (6.66)
{ [( )
× exp j ω − ω µ t d + ω d t ]}
Si on écrit la DWV et la FA en fonction de l'amplitude et de la phase,
DWV x1, x2 (t , ω ) = ADWV (t , ω ) exp{ jϕ DWV (t , ω )}
(6.67)
FAx1, x 2 (ϑ , τ ) = AFA (ϑ , τ ) exp { jϕ FA (ϑ , τ )}
En utilisant (6.62) et (6.66) on en déduit :

∂ ∂
ϕ FA (ϑ , τ ) = −t µ ϕ FA (ϑ , τ ) = ω µ (6.68)
∂ϑ ∂τ
qui signifie que les dérivées partielles de la phase de la fonction d'ambiguïté représentent les centres
en temps et en fréquence du même atome, mais dans le plan de Wigner-Ville. De la même manière

∂ ∂
ϕ DWV (t , ω ) = t d ϕ FA (t , ω ) = ω d (6.69)
∂ω ∂t
qui assure la réciprocité. Cette propriété est présentée sur la figure suivante. On observe que, par
rapport à la fonction d’ambiguïté, la situation est inverse : les termes d’interférences WVx1,x2 et
WVx2,x1 occupent la même position et, par conséquent, leur amplitude est deux fois plus grande que
l’amplitude des termes propres. En plus, les interférences sont placées autour du point t µ , ω µ , donc, ( )
entre les termes utiles. Cela est présenté sur la figure suivante; on représente également le plan
d’ambiguïté pour illustrer la propriété énoncée auparavant.
τ
ω 1.2.
1.1. Pla FAx1,x2 Pla
WVx2 td
ω2 FAx1+ FAx2
WVx1,x2+WV x2,x1
− ωd
ωµ ωd ϑ
ω1 -t d
WVx1 t
tµ FAx2,x1
t1 t2
Figure 6.13. La liaison entre la DWV et la FA
Si ω1 =ω2 =ω0 (les deux signaux gaussiens ont le même centre fréquentiel), alors la FAx1,x2
donnée par (6.62) devient :
  1 2 α
FAx1, x 2 (ϑ ,τ ) = exp − 

ϑ + (τ − t d ) 2   exp j ω 0τ − ϑt µ {( (6.70) )}
  4α 4 
qui est concentrée sur l'axe retard (τ). La distance entre le centre de FAx1,x2 et l'origine est t d ,
comme montré sur la figure 6.14. τ
ω 1.3. Pla FA x1,x2 1.4. Pla
t d
WVx1,x2+WV x2,x1
ωµ ϑ
-t d
t FAx2,x1
tµ
Figure 6.14. La correspondance entre le plane temps-fréquence et
e plane d'ambiguïté pour ω1 =ω2 =ω0
D'une manière similaire, pour t 1 =t2 =t0 , la fonction d'ambiguïté sera concentrée sur l'axe ϑ et
(6.62) devient :
  1
FAx1, x12 (ϑ , τ ) = exp −  {(
(ϑ − ω d )2 + α τ 2   exp j ω µ τ − ϑt0 + ω d t0 (6.71) )}
  4α 4 
En conclusion, la propriété de la fonction d'ambiguïté d'éloigner les termes d'interférence

représente la base de la plupart des méthodes de réduction des termes d’interférences. A partir de la
liaison établie ci-dessus, on peut définir différentes transformations temps-fréquence, chacune étant
adaptée à une certaine classe de signaux.

6.3.2. La définition de la classe de Cohen [6]

En 1966, Leon Cohen a finalisé, en utilisant les fonctions caractéristiques et la théorie des
opérateurs, une classe générale qui engendre toutes les transformations temps-fréquence bilinéaires.
En accord avec [6], la fonction d'autocorrélation instantanée est définie par :
R(t , τ ) = ∫ FA(ϑ , τ )Φ (ϑ , τ ) exp {j ϑt }dϑ
1
(6.72)
2π
où FA(ϑ, τ ) est la fonction d'ambiguïté symétrique définie par (6.54) et Φ (ϑ ,τ ) est la fonction noyau.
En utilisant le théorème de convolution, (6.72) peut être réécrite selon :
R(t ,τ ) = F −1[FA(ϑ ,τ )] ⊗ F −1[Φ(ϑ ,τ )] =

  τ   τ 
=  s t +  s *  t −   ⊗ φ (t ,τ ) =
  2   2  (6.73)
 τ  τ
= ∫ s  u +  s*  u − φ (t − u, τ )du
 2  2
où φ (t , τ ) représente la transformée de Fourier inverse de Φ (ϑ ,τ ) . Cette équation indique que la
fonction d'autocorrélation instantanée proposée par Cohen est une version filtrée linéairement de
s(t+τ/2)s* (t-τ/2), qui représente la fonction d'autocorrelation employée par la distribution de Wigner-
Ville. En conséquence, la différence entre la DWV et les autres distributions de la classe de Cohen
(comme la distribution de Choi-Williams) est complètement déterminée par la nature du filtre φ (t , τ ) .
Si φ (t , τ ) est un filtre passe-tout, c'est-à-dire Φ (ϑ ,τ ) =1, R(t, τ ) devient :
 τ  * τ 
R(t , τ ) = ∫ FA(ϑ , τ ) exp { jϑt }dϑ = s  t + s  t − 
1
(6.74)
2π  2  2
qui représente l'expression de la fonction d'autocorrelation employée par la distribution de Wigner-
Ville. L'expression générale de la classe de Cohen s'obtient en remplaçant, dans la définition du
spectre de puissance dépendant du temps (6.3.), l'expression de R(t, τ ) proposée par Cohen (relation
(6.72)) :
C (t , ω ) = ∫ ∫ FA(ϑ ,τ )Φ(ϑ ,τ ) exp{ j (ϑt − ωτ )}dϑdτ
1
(6.75)
2π
D'une manière alternative, en remplaçant (6.73) en (6.3.) on obtient la deuxième définition de

la classe de Cohen :
 τ  * τ
C (t , ω ) = ∫ ∫ s  u +  s  u − φ (t − u, τ )du exp {− jωτ }dτ (6.76)
 2  2
En utilisant également la définition de la distribution de Wigner-Ville (6.9) on obtient, à partir
de (6.76), la troisième définition de la classe de Cohen :
C (t , ω ) = ∫∫ Π (η − t , ξ − ω )DWV s (η , ξ )dηdξ (6.77)
où
Π (t , ω ) = ∫∫ φ (η, ξ )e − j 2π (ηt +ωξ ) dηdξ (6.78)
représente la transformée de Fourier bidimensionnelle du noyau.
Pour calculer la fonction d'ambiguïté d'un signal il faut disposer de valeurs du signal sur tout
le support de définition. Ceci n'est pas toujours possible en pratique, et, par conséquent, la définition
(6.76) sera envisageable pour des applications en temps réel.
Les relations (6.75) et (6.76) représentent le point clé de l'approche de Cohen : le problème
de la construction d'une RTF est ramené à la sélection de la fonction noyau Φ (ϑ ,τ ) . Ainsi chaque
propriété de la RTF se traduit par une condition imposée à la structure de la fonction noyau. Ces
liaisons sont présentées, pour les plus importantes d’entre elles, dans le tableau suivant.

Tableau 6.1. Contraintes induites sur le noyau par les propriétés de la RTF correspondante
Propriétés Contraintes sur le noyau
1. Invariance par translation temporelle Indépendance de temps (t)
2. Invariance par translation fréquentielle Indépendance de fréquence (ω)
3. Valeurs réelles Φ (ϑ , τ ) = Φ (− ϑ , −τ )
4. Marginal en temps Φ (ϑ ,0 ) = 1
5. Marginal en fréquence Φ (0, τ ) = 1
6. La fréquence instantanée ∂
Φ (ϑ ,0 ) = 1 et Φ (ϑ , τ ) τ =0 = 0
∂τ
7. Le retard de groupe ∂
Φ (0, τ ) = 1 et Φ (ϑ , τ ) ϑ =0 = 0
∂ϑ
8. Positivité Φ (ϑ,τ ) est la fonction d'ambiguïté d'un fonction
γ(t)
Par la suite on liera les approches temps-fréquence classiques déjà introduites (spectrogramme
et PWVL) au cadre général de la classe de Cohen.
Tout d'abord, on montre que le spectrogramme appartient à la classe de Cohen. On suppose
une fonction temporelle γ(t) dont la fonction d'ambiguïté vaut :
 τ  * τ 
Φ (ϑ , τ ) = ∫ γ  t + γ  t −  exp{− jϑt }dt (6.79)
 2  2
et, par la transformée de Fourier inverse, on obtient :
 τ  * τ 
φ (t , τ ) = γ  t + γ  t −  (6.80)
 2  2
En remplaçant (6.80) en (6.76) on obtient :
 τ  τ  τ  τ
C (t , ω ) = ∫∫ γ  t − u + γ  t − u −  s u +  s *  u −  exp {− j ωτ }dudτ =
 2  2  2  2
  τ   τ    τ    τ   τ    τ  
=  ∫ s  u + γ * t −  u +   exp − j ω  u +  du   ∫ s *  u − γ t −  u −  exp  j ω  u −  dτ  
  2   2    2    2   2    2  
τ τ
Avec les changements de variables x = u + et y = u − on obtient :
2 2
( )( )
C (t , ω ) = ∫ s ( x )γ (t − x ) exp {− j ωx}dx ∫ s ( y )γ (t − y ) exp {− j ωy}dy =
* *
(6.81)
= TFCTs (t , ω )TFCTs* (t , ω ) = TFCTs (t , ω ) = SPs (t , ω )
2
En conclusion, le spectrogramme peut être interprété comme une distribution de la classe de

Cohen pour un noyau déterminé par une fonction temporel le γ(t). Une autre interprétation du
spectrogramme peut être obtenue en utilisant la formule de Moyal, qui permet d'exprimer le
spectrogramme par :
SPs (t , ω ) = ∫∫ DWVγ (τ − t , ξ − ω )DWV s (τ , ξ )dτdξ
1
(6.82)
4π 2
En conséquence, le spectrogramme peut être vu comme la distribution temps-fréquence de la
classe de Cohen pour laquelle Φ (ϑ ,τ ) est la DWV de la fenêtre γ(t). Cette nouvelle formulation nous
permet de mettre en évidence, d'une façon alternative, le compromis entre la résolution temporelle et
fréquentielle du spectrogramme : si on choisit une fenêtre d'analyse courte, la fonction de lissage de la
DWV sera étroite en temps et large en fréquence, en fournissant une bonne résolution temporelle et
une mauvaise résolution fréquentielle.

Le problème avec le noyau employé par le spectrogramme est dû au fait qu’on ne dispose que
d'un seul degré de liberté pour le choix du noyau. Si on rajoute encore un degré de liberté par la
définition de fonction noyau suivante :
Π (t, ω ) = g (t )Γ(− ω ) (6.83)
(où Γ(ω ) est la transformée de Fourier de la fenêtre γ(t)) on pourra contrôler indépendamment la
performance de la nouvelle RTF sur toutes les deux axes (temps et fréquence). On obtient la
distribution Pseudo Wigner-Ville Lissée, qui a été présenté dans la section (6.2.1). Le compromis
associé au spectrogramme entre la résolution temporelle et fréquentielle est remplacé, dans le cas de
la PWVL, par le compromis entre la résolution temps-fréquence et le niveau de termes d'interférence.
En termes pratiques, on multiplie la fonction d'autocorrélation locale du signal par une fenêtre
glissante γ centrée en t puis on prend sa DWV. Cette opération correspond à un lissage selon l’axe
des fréquences. La DWV du signal fenêtré est ensuite lissée selon l’axe de temps, par un filtre de
réponse impulsionnelle g. Par ce lissage séparable, on peut régler indépendamment les
caractéristiques de lissage selon l’axe des temps et selon l’axe des fréquences. D’une manière
générale, le lissage spectral, introduit sous la forme d’une fenêtre glissante, vise à atténuer les
interférences entre les composantes temporelles, tandis que le lissage temporel vise à atténuer les
interférences entre les composantes fréquentielles.
Sur la figure 6.15. on présente la PWVL d’un signal constitué par deux MLF (2 chirps), avec
la RTF idéelle présentée sur la même figure. Pour comparaison on représente également la DWV :
malgré à une bonne résolution, la DWV introduit beaucoup des termes d’interférences.
Le principe de la PWVL, présenté ci-dessus, consiste en l’application d’un lissage temporel et
fréquentiel, ce qui est équivalent avec l’application d’un noyau rectangulaire dans le plan d’ambiguïté
(voir la figure 6.15.). Conformément à la propriété de la FA, démontré dans la section 6.3.1.), par ce
noyau on va garder les termes propres (qui se trouve autour de l’origine) et on va éliminer la plupart
des termes d’interférences.
Néanmoins, l’application de ce noyau va diminuer la résolution T-F ; pour optimiser la
résolution on va effectuer un lissage indépendant en temps et un fréquence. La recherche des
paramètres optimaux de lissage est souvent difficile à réaliser et, donc, l’application de cette méthode
est limitée dans le cas où on connaisse la structure du signal.
RTF idéelle Distribution de Wigner-Ville
Fréquence
Fréquence
Temps Temps
Plan d’ambiguïté Pseudo Wigner-Ville Lissée
Fréquence
Doppler
Noyau
Retard Temps
Figure 6.15. Comparaison entre la DWV et la PWVL
Ainsi, une application qu’on peut l’envisagée est le débruitage des signaux.
6.3.3. Les membres de base de la classe de Cohen [6]
Le grand intérêt pour l’étude de la classe de Cohen, pendant ces dernières années, a été la
découverte de nouvelles représentations temps-fréquence qui permettent à la fois de conserver toutes
les propriétés utiles d’une RTF mais aussi la suppression de termes d’interférence. Comme nous
avons vu dans la section 6.3.1., la partie de la fonction d’ambiguïté qui correspond aux termes
propres est localisée autour de l’origine du plan d’ambiguïté, tandis que la partie correspondante aux
termes d’interférence tend de se distribuer plus loin de l’origine. Cette propriété a été à la base de
plusieurs études pour la construction d’une fonction noyau Φ (ϑ ,τ ) afin que le produit
Φ(ϑ , τ )FA(ϑ , τ ) soit localisé au voisinage de l’origine. Cependant, en introduisant quelques
contraintes sur Φ (ϑ ,τ ) , on peut assurer, selon le tableau 6.1., la conservation d’une partie des
propriétés utiles, en fonction d’une application concrète. Néanmoins, la satisfaction de ces propriétés
et la suppression des termes d’interférence ne peuvent pas être accomplies simultanément. Par
exemple, pour réduire les termes d’interférence, le produit Φ(ϑ , τ )FA(ϑ , τ ) doit être nul pour ϑ et
τ grands. De l’autre côté, les propriétés de marginales en temps et en fréquence imposent :
Φ (ϑ ,0 )FA(ϑ ,0 ) = FA(ϑ ,0 ) Φ(0, τ )FA(0, τ ) = FA(0, τ ) (6.84)
qui impliquent l’existence non-nulle de ce produit sur les axes ϑ et τ . Mathématiquement, cette
condition est en contradiction avec celle qui est nécessaire pour assurer la réduction des termes
d’interférence. En pratique, il va falloir réaliser un compromis entre la satisfaction des propriétés
utiles et le niveau de termes d’interférence résidents.
Dans cette section on présente quelques RTFs qui représentent les éléments de base de la
classe de Cohen. On présente la spécificité de chacune des méthodes concernant la réduction des
termes d’interférence et les conséquences sur la conservation des propriétés utiles.
A. La distribution de Choi-Williams DCW [8]
Pour éliminer, dans le plan d’ambiguïté, les termes qui se trouvent loin de l’origine, Choi et
Williams [8] ont proposé l’introduction d’un noyau exponentiel :
 π (ϑτ ) 2 
Φ (ϑ , τ ) = exp −  (6.85)
 2σ 2 
Le paramètre σ 2 contrôle le taux de décroissance de la fonction exponentielle. Si ce paramètre
est petit on éliminera la plupart des termes d’interférence, mais on affectera les termes propres. Il
s’agira toujours d’un compromis pour le choix de σ 2 .
L’expression de la distribution CW est :
2σ 2 ( s − t )2
2 ∞σ −  τ  τ
CWx (t, f ) =
π ∫ ∫−∞ τ
e τ2
x s +  x*  s − e − j 2 πfτ dsdτ (6.86)
 2  2
Sur la figure suivante on présente l’exemple d’application de la distribution de CW dans le cas
du même signal de test utilisé antérieurement pour la PWVL.
Plan d’ambiguïté Distribution de Choi-Williams
Fréquence
Doppler
Retard Temps
Figure 6.16. Distribution de Choi-Williams
Sur la figure suivante on présente la structure du noyau de la DCW pour σ 2 =0.03.

Projection 2D
Représentation 3D du noyau de la DCW
Amplitude
Doppler Retard Doppler Retard
Figure 6.17. La représentation graphique du noyau de la DCW pour σ 2 =0.03
L’expression du noyau, donnée en (6.83), satisfait les propriétés imposées aux noyaux (voir le
tableau 6.1.). Cela représente un avantage par rapport à la PWVL où ces propriétés étaient respectées
seulement pour des noyaux avec des structures particulières. Un autre avantage est représentée par la
résolution T-F obtenue (voir la figure 6.15. et 6.16.) qui est meilleure dans le cas de la distribution de
Choi-Williams. En plus, cette transformation est plus facilement applicable en pratique que la PWVL
car dans ce cas on a un seul paramètre à régler ( σ 2 ) alors que dans le cas de la PWVL il nous faut
choisir deux fenêtres de lissage.
Néanmoins, en raison de la structure du noyau utilisé (qui présente les propriétés :
φ ( 0,0) = 1 et φ ( ξ , τ ) < 1 si ξ ≠ 0, τ ≠ 0 ), on peut rejeter tous les termes d’interférence entre les
fonctions avec des centres temps-fréquence différents, mais on garder les termes d’interférences entre
les composants avec les support temporel et/ou fréquentiel superposés. Sur la figure suivante on
présente ces deux cas.
DCW des atomes avec des centres T-F différents DCW des atomes avec le support fréquentiel superposé
Fréquence
Fréquence
Temps Temps
Figure 6.18. La géométrie des interférences pour la distribution CW
A cause de cet inconvénient, l’utilisation de la distribution de CW pour de signaux avec des

supports superposés (le cas des signaux TDMA – Time Division Multiply Acces, par exemple) est
limitée. Pour éliminer cet inconvénient, une idée consiste à modifier l’orientation du noyau (qui
restera gaussien) pour que les singularités du signal soient bien mises en évidence dans le plan
d’ambiguïté. Cette approche, appelée représentation temps-fréquence par le noyau gaussien adaptatif
(RTF-NGA) sera présentée dans le sous-chapitre suivant.
B. La distribution de Rihaczek (DR) et la distribution de Margenau-Hill (DMH) [6], [9]
En [9], Rihaczek a proposé une expression alternative pour la distribution de l’énergie temps-
fréquence d’un signal. Ainsi, il a considéré l’interaction énergétique entre un signal s restreint à un
intervalle infinitésimal δ T centré en t et le même signal s passé par un filtre passe-bande de bande
infinitesimale δ B centré en υ. Cette interaction peut être exprimée par :
[
δ T δ B s (t )S * (υ )e − j 2πυ t ] (6.87)
Cette grandeur nous permet d’introduire la distribution de Rihaczek par :
Rs (t ,υ ) = s (t )S * (υ )e − j 2πυ t (6.88)
qui représente la distribution de l’énergie du signal autour d’un point (t, υ). Cette distribution est un
élément de la classe de Cohen ([6]) pour lequel la fonction de noyau est définie par :
Φ (ϑ , τ ) = e j πϑτ (6.89)
Comme cette relation le montre, le noyau aura une forme complexe ; sur la figure suivante on
présente le module carré de ce noyau.
Amplitude
Retard
Doppler
Figure 6.19. Représentation graphique 3D du noyau de la distribution de Rihaczek
Par transformé de Fourier inverse, on retrouve l’expression temporelle du noyau :

 τ
φ (t , τ ) = δ  t −  (6.90)
 2
Cette distribution respecte toutes les propriétés présentées dans le tableau 6.1., sauf la
propriétés 3 : à cause de la forme complexe du noyau cette distribution prendra des valeurs
complexes, difficiles à interpréter en pratique. Pour éliminer cet inconvénient, Margenau et Hill ont
utilisé seulement la partie réelle de la distribution de Rihaczek, en introduisant la distribution de
Margenau-Hill. Celle-ci est également un élément de la classe de Cohen pour lequel la fonction
noyau a pour expression (voir la figure 6.20) :
Φ (ϑ , τ ) = cos(πϑτ ) (6.91)
Amplitude
Doppler
Retard
Figure 6.20. Représentation graphique 3D du noyau de la distribution de Margeneau-Hill
La structure des termes d’interférence générés par les distributions de Rihaczek et Margenau-
Hill est différente par rapport à la géométrie des termes d’interférence générés par la distribution de
Wigner-Ville : les termes d’intérference associés aux points (t 1 ,υ1 ) et (t 2 ,υ2 ) sont localisés aux points
(t 1 ,υ2 ) et (t 2 ,υ1 ). Pour démontrer cette propriété on suppose un signal s(t)=s1 (t)+s2 (t) où s1 (t) et s2 (t)
sont deux atomes gaussiens dont la transformée temps-fréquence idéale est illustrée sur la figure
6.21.a. L distribution de Rihaczek de s(t) est donnée par :
Rs (t ,υ ) = [s1 (t ) + s 2 (t )][S1 (υ ) + S 2 (υ )] e − j 2πυt = s1 (t )S1* (υ )e − j 2πυt + s 2 (t )S *2 (υ )e − j 2πυ t +
*
+ s1 (t )S 2* (υ )e − j 2πυ t + s 2 (t )S1* (υ )e − j 2πυt = Rs1 (t ,υ ) + R s2 (t , υ ) + Rs1 ,s2 (t , υ ) + Rs2 ,s1 (t ,υ ) (6.92)

1444 424444 3
termes d'intérferen ce

Cette relation montre que les termes d’interférence sont situés autour des centres énergétiques
de s1 (t)S2 (υ) et, respectivement, s2 (t)S1 (υ). Autrement dit, les termes d’interférence sont situés autour
de points (t 1 ,υ2 ) et (t 2 ,υ1 ), comme montré sur la figure 6.21.b.
Signal de test : 2 atomes gaussiens
Fréquence
Distribution de Rihaczek
υ2
Fréquence
υ1
Temps
t1 t2 Temps
a. RTF idéale de deux atomes gaussiens b. Distribution de Rihaczek
Figure 6.21. Les termes d’interférence générés par la distribution de Rihaczek
Ainsi, l’utilisation de la distribution de Rihaczek ou de Margeneau-Hill n’est pas envisageable

pour des signaux multi-structures, avec des composantes localisés à la même position temporelle ou
fréquentielle.
C. La distribution de Page [10]
Motivé par la construction d’une densité d’énergie causale, plus adaptée à l’implémentation
pratique, Page [10] a proposé la distribution temps-fréquence suivante :
d  t 2
   t  − j 2πυ t  (6.93)
*
Ps (t ,υ ) =  ∫ s (u )e du  = 2 Re  x (t ) ∫ s(u )e
− j 2πυ u − j 2πυ u
du  e 
dt  −∞    −∞  
Celle-ci correspond à l’élément de la classe de Cohen pour lequel la fonction noyau est définie
par :
Φ (ϑ , τ ) = e
− jπϑ τ
(6.94)
dont l’expression temporelle vaut :
 τ 
φ (t , τ ) = δ  t −  (6.95)
 2
Le noyau spécifique à cette distribution est présenté sur la figure suivante :
Amplitude
Doppler Retard
Figure 6.22. Le noyau de la distribution de Page
Ce noyau vérifie la plupart de propriétés présentées dans le tableau 6.1. sauf 3 et 8. En plus,
par rapport à la DWV, la distribution de Page ne respecte pas la propriété de compatibilité par
filtrage. Néanmoins, l’intérêt pour la distribution de Page est due au fait qu’elle est le seul élément de
la classe de Cohen qui est simultanément causal, unitaire, compatible avec les modulations et qui
conserve les supports temporel et fréquentiel.
La géometrie de termes d’interférence est similaire à celle de la distribution de Rihaczek (voir
[3]) d’ou les mêmes limitations pratiques.
D. Distributions de Born-Jordan (DBJ) et Zhao-Atlas-Marks (DZAM) [1,11]
Pour assurer la propriété de conservation des supports temporel et fréquentiel, Born et Jordan
ont proposé une fonction noyau de la forme suivante :
sin (πϑτ )
Φ (ϑ , τ ) = (6.96)
πϑτ
Cette fonction définit la distribution de Born-Jordan exrpimée par :
∞ t+τ / 2
BJ s (t , υ ) = ∫ s(u + τ / 2)s * (u − τ / 2 )due − j 2πυτ dτ
1
τ ∫ (6.97)
−∞ t − τ / 2
Sur la figure suivante on présente le noyau de la distribution de Born-Jordan. On observe que
la forme de ce noyau s’approche de celle du noyau de la distribution de Choi-Wiliams, mais, par
rapport à celle-ci, la distribution de Born-Jordan respecte la propriété de conservation du support
temps-fréquence.
Représentation spatiale Projection 2D
Aplitude
Doppler
Doppler Retard
Retard
Figure 6.23. Représentation du noyau de Born-Jordan
Ceci est mis en évidence sur la figure suivante où on représente la DCW et la DBJ d’un signal
composé de deux sinusoïdes de fréquences différentes, avec le même support temporel (voir 6.24.a).
RTF idéale
Fréquence
a. Temps
Distribution de Choi-Williams
Fréquence
b. Temps
Distribution de Born-Jordan
Fréquence
c. Temps
Figure 6.24. Comparaison entre la distribution de Choi-Wiliams et de Born-Jordan
Une autre observation pratique qu’on puisse faire est que la géométrie des termes
d’interférence générés par ces deux distributions est la même (figure 6.24.b et 6.24.c) : on aura
toujours des termes d’interférence entre les composantes dont les supports temporels et/ou
fréquentiels sont superposés. Ceci est dû à la structure des noyaux employés [3] et la réduction totale
de ces termes peut se faire par un lissage fréquentiel. Néanmoins, pour le même niveau de termes
d’interférence, la distribution de Born-Jordan conserve le support temporel des atomes du signal
(l’explication sera donnée dans le paragraphe correspondant à la distribution de Z.A.M.) (figure
6.24.c), tandis que, dans le cas de la distribution de Choi-Williams, la réduction des termes
d’interférence suppose l’utilisation d’un noyau étroit, qui induit une redistribution de l’énergie en
dehors du support physique du signal (figure 6.24.b).
Un autre avantage de la DBJ est lié au fait que, dans ce cas, il n’y aucun paramètre à choisir,
par opposition à DCW où le choix de σ est essentiel pour avoir une bonne lisibilité de l’image temps-
fréquence issue.
Comme on vient de l’observer sur la figure précédente, la réduction totale des termes
d’interférence peut se faire par un lissage temporel à travers l’axe fréquentiel.
Ceci a été exploité par Zhao, Atlas et Marks [11], qui ont proposé l’utilisation d’une fenêtre de
lissage h, capable de générer un noyau de forme conique (« cone-shape kernel ») et capable de
produire une atténuation importante des termes d’interférence. En effet, la distribution proposée peut
être vue comme étant une généralisation de la distribution de Born-Jordan, pour une fenêtre arbitraire
h:
∞ t+τ / 2
ZAM s (t ,υ ) = ∫ h(τ ) ∫ s (u + τ / 2 )s (u − τ / 2)due
* − j 2πυτ
dτ (6.98)
−∞ t− τ / 2
On observe que pour h (τ ) =

1
on retrouve l’expression de la DBJ. Cette nouvelle distribution,
τ
qui fait partie de la classe de Cohen, utilise une fonction noyau de forme temporelle conique (comme
la distribution de Born-Jordan), dans le plan (t,τ) (voir la figure 6.25), donnée par :
h(τ ), τ ≥ 2 t
φ (t , τ ) =  (6.99)
 0, sinon
τ
Amplitude
τ=-2t τ=2t
τ
t
a. Fonction de forme conique b. Représentation spatiale de φ(t,τ)
Figure 6.25. Représentation graphique de φ(t,τ)
On montre alors que la forme conique du noyau assure la conservation du support temporel (la
démonstration sera similaire dans le cas fréquentiel). On suppose un signal de support temporel
limité, donné par :
≠ 0, t ∈ [− T / 2, T / 2]
s(t ) = 
= 0, t ∉ [− T / 2, T / 2]
(6.100)
On cherche la forme générale de φ(t,τ) pour laquelle la RTF associée conserve le support
fréquentiel :

≠ 0, t ∈ [− T / 2, T / 2]
C s (t , ω ) = 
= 0, t ∉ [− T / 2, T / 2]
(6.101)
En introduisant l’expression de s(t) en (6.76), on obtient :

t +T + τ 
∞  2 2 
 τ  * τ
C s (t , ω ) = ∫  ∫ s  u +  s  u − φ (t − u ,τ )du e
− jωτ
dτ (6.102)
−∞
 T τ
 2   2  
t − − 
 2 2 
Pour que l’intervalle d’intégration ne soit pas défini en dehors de support utile, [-T/2,T/2] on
impose que φ(t,τ)=0 pour τ < 2 t . Ainsi, on assure que les RTFs associées à ce type de noyau (les
distributions de Born-Jordan et Zhao-Atlas-Marks sont les plus connues) respectent les propriétés de
conservation des supports temporel et fréquentiel. Dans le domaine d’ambiguïté, le noyau aura pour
expression :
τ /2 sin (ϑτ / 2 )
Φ (ϑ , τ ) = h(τ )∫ exp {− j ϑt }dt = 2h(τ ) (6.103)
−τ / 2 ϑ
La réduction des termes d’interférence dépend du choix de la fonction h(τ). Zhao, Atlas et
Mark ont proposé l’expression suivante pour cette fonction [11] :
h (τ ) = exp − ατ 2
1
τ
{ } (6.104)
Ainsi, la fonction noyau devient :

sin (ϑτ / 2 )
Φ (ϑ , τ ) =
ϑτ / 2
exp − ατ 2 {α >0 } (6.105)
Dans le plan d’ambiguïté, le noyau sera défini par :

1 τ =0
Φ (ϑ , τ ) = 
{
exp − ατ ϑ = 0
2
} (6.106)
Sur la figure suivante on présente ce noyau pour deux valeurs du paramètre α.

Noyau de la DZAM : α=0.3 Noyau de la DZAM : α=0.003
Amplitude
Amplitude
Retard
Retard Doppler
Doppler
Projection 2D Projection 2D
Retard
Retard
Doppler Doppler
Figure 6.26. Le noyau de la distribution de Zhao-Atlas-Marks

Le paramètre α contrôle le degré de suppression des termes d’interférence : pour α grand, il

est possible d’éliminer une grande partie des termes d’interférence, surtout ceux qui se trouvent sur
l’axe de retard (figure 6.26). Pour α petit les performances de la DZAM, au niveau de la réduction
des termes d’interférence, sont identiques à celles de la DBJ.
Par rapport au noyau de la distribution de Choi-Williams, qui conserve les termes qui se
trouvent sur les axes retard et Doppler (figure 6.17), le noyau de la DZAM élimine les termes qui sont
localisés sur l’axe retard. En conséquence, cette distribution permettra d’éliminer tous les termes
d’interférence crées par des fonctions avec le même support fréquentiel. Pour illustrer cette propriété,
on considère le signal de test utilisé sur l’exemple donné sur la figure 6.18.
DCW : FAs (ϑ ,τ )Φ (ϑ ,τ ) FAs (ϑ, τ ) DZAM : FAs (ϑ ,τ )Φ (ϑ ,τ )
Doppler
Doppler
Doppler
Noyau de la Noyau de la
DCW DZAM
Retard Retard Retard
DCW DZAM
Fréquence
Fréquence
Temps Temps
Figure 6.27. Comparaison entre la DCW et la DZAM
Dû à la forme du noyau, dans le cas de la distribution de Zhao-Atlas-Marks, les termes

d’interférence sont réduits. Grâce à ces performances, cette distribution a été beaucoup utilisée dans
le contexte de l’analyse de la parole [1], [11].
6.3.4. Conclusion
Dans cette section nous avons abordé la problématique des RTFs issues de la classe de Cohen.
Nous avons vu que chaque élément de cette classe est lié, d’une manière univoque, à une fonction
noyau de parametrisation.
En fonction du choix de ce noyau, on peut obtenir différentes distributions temps-fréquence,
adaptées pour une certaine classe de signaux. Par exemple, la distribution de Wigner-Ville (qui est
obtenue pour φ (υ , τ ) =1) est bien adaptée à des signaux de modulation linéaire de fréquence.
Une autre propriété importante des distributions de la classe de Cohen est l’invariance par
translation en temps et en fréquence. Cette propriété est très utile en traitement du signal radar ou
sonar, où on ne connaît pas la position du signal reçu dans le plan temps-fréquence.
Malheureusement, la propriété de biliniarité induit des termes d’interférence, qui affectent
gravement le processus d’interprétation de l’information dans le plan temps-fréquence. Comme
solution potentielle, on peut envisager la construction d’un noyau susceptible de ne retenir que les
termes propres. Mais, un noyau fixé ne peut assurer des bonnes performances que pour une classe
étroite des signaux.

Pour ces raisons, il est apparu un fort intérêt pour les distributions temps-fréquence avec des
noyaux adaptés aux structures des signaux (noyau dépendant du signal). Un noyau optimal, comme
on le verra dans le paragraphe suivant, appliqué dans le plan d’ambiguïté du signal, permet une très
bonne extraction des caractéristiques du signal.
6.4. Le noyau gaussien adaptatif
Un choix naturel du noyau peut être le noyau gaussien, qui nous assure un meilleur compromis entre
la résolution temps-fréquence [1]. Ce choix, spécifique à la transformation de Choi-Williams,
représente le point de départ pour l’approche qu’on présentera par la suite.
Tout d’abord, on introduit, dans la structure du noyau gaussien classique, un paramètre variable
(6.107), qui permet l’adaptation du noyau à la structure du signal , dans le plan d’ambiguïté.
 τ 2 +ϑ2 
φ (ξ , τ ) = exp  − 

(6.107)
 2σ 2
(ψ ) 
où σ(ψ) représente la distribution des points du noyau pour un certain angle ψ. On appelera cette
variable « la fonction de distribution angulaire » .L’angle ψ est mesuré par rapport à l’axe τ, :
ϑ
ψ = arctan (6.108)
τ
où (τ ,ϑ ) - représente la paire retard-Doppler.
La nouvelle structure de ce noyau permet l’utilisation d’une procédure d’optimisation pour
adapter la forme de celui-ci à la structure du signal. Pour la construction efficace de cette procédure,
on utilise l’expression du noyau en coordonnées polaires (6.109). La méthode de transformation est
détaillée en [12].
L’expression (6.109) montre que, en effet, l’optimisation du noyau est équivalente à
l’optimisation du choix de ψ.
 r2 
φ (r ,ψ ) = exp  − , r = τ 2 + ϑ 2

(6.109)
 2σ 2
(
ψ ) 
La procédure d’optimisation consiste à chercher φ opt qui maximisera la fonction présentée
dans la relation (6.110) :
2π ∞
∫ ∫ A(r ,ψ )φ (r ,ψ )
2
f = rdrdψ (6.110)
0 0
Cette fonction représente la distribution d’énergie dans le plan d’ambiguïté, pour différentes
valeurs de l’angle ψ. Le but est de trouver les valeurs optimales de ψ pour lesquelles cette distribution
est maximale. En conséquence, les valeurs obtenues permettront de mettre en évidence les
composants d’un signal multi-structures.
L’intérêt pour l’optimisation dans le plan d’ambiguïté est justifié par la propriété de
séparation entre les termes utiles et les termes d’interférence : lorsque dans le plan temps-fréquence
les termes d’interférence se trouvent parmi les composantes utiles, dans le plan d’ambiguïté ils sont
placés loin d’origine (voir la section 6.3). Donc, on peut faire l’extraction des termes utiles en
considérant un masque qui gardera seulement les termes autour de l’origine (en effet, c’est l’idée de
construction des noyaux pour les RTFs de la classe de Cohen ). Ce masque (noyau) sera adapté pour
fournir le meilleur compromis entre la conservation du support temps-fréquence et la suppression des
termes d’interférences (si le masque est étroit, on éliminera la plupart des termes d’interférence, mais
on perdra aussi des termes utiles ; par contre, si le masque est grand, on garde beaucoup de termes
d’interférences). Pour résoudre ce compromis, on introduit une contrainte pour la procédure
d’optimisation (6.111) : le volume du noyau doit être inférieur à une certaine valeur α . Cette valeur
contrôlera le niveau des interférences et sera fixée au début.
1 2π ∞ 1 2π 2
∫ ∫ Φ (r , ψ ) 2
rdrd ψ = ∫ σ (ψ )dψ ≤ α , α ≥ 0 (6.111)
4π 2 0 0 4π 2 0
Le procédure d’optimisation est présentée sur la figure 6.28.

α - la valeur limite du volume du noyau
Evaluation de Φopt
2π ∞
Φ ∫0 ∫ A( r,ψ )Φ(r ,ψ ) rdrd ψ Φopt

2
Calcul de la Calcul de
Signal FA x max 0
FA 0 Calcul de RTF x
fonction AFx(τ,f)* Φopt (τ,f)
2π FFT2D(AF0 )
σ 2 (ψ )dψ ≤ α
x 1
∫
d’ambiguite
4π 2 0
Figure 6.28. L’algorithme de RTF avec le noyau gaussien adaptatif
Dans une première étape, on calcule la fonction d’ambiguïté du signal. Ensuite, à partir de
celle-ci, on cherche φ opt qui maximise la fonction f. On utilise, comme procédure d’optimisation du
choix de φ opt , un algorithme du gradient, détaillé en [12]. On utilise un pas variable : au début, grand
et ensuite, de plus en plus petit, pour éviter les valeurs maximales locales. On utilise, comme
condition d’arrêt de l’algorithme soit le nombre imposé d’itérations, soit la grandeur de la
modification par rapport à l’itération antérieure.
Le noyau obtenu pondère la fonction d’ambiguïté et le résultat sera transformé dans le plan
temps-fréquence, en utilisant la transformation de Fourier bidimensionnelle.
Sur la figure suivante, on illustre ce principe, à partir d’un signal synthétique, composé de
deux chirps. La transformation temps-fréquence idéale de celui-ci est présentée dans la figure 6.29.a.
RTF idéale RTF adaptative Noyau optimal
Fréquence
Fréquence
Doppler
Temps Retard
a e
d
2π ∞
∫ ∫ A (r , ψ )φ (r , ψ )
Plan d’ambiguïté 2 Procédure
f = rdrd ψ d’optimisation
Noyau gaussien
0 0
ψ
Doppler
Retard ψ [rad]
b c
Figure 6.29. Le principe de la RTF à partir du noyau gaussien adaptatif
(a) RTF idéale du signal ; (b) Fonction d’ambiguïté et positionnement du noyau ;
(b) Fonction f pour différentes valeurs de ψ ; (d) Noyau optimal obtenu par la procédure d’optimisation
(e) Représentation temps-fréquence adaptative
Sur la figure 6.29.b on peut voir la fonction d’ambiguïté du signal et, également, le noyau
pour un certain angle ψ ; pour un intervalle de variation [0 ;2π] on obtient une fonction f qui est
présentée sur la figure 6.29.c. On voit deux pics, correspondants aux angles pour lesquels le noyau
recouvre les structures correspondantes des signaux chirp.
Après l’application de la procédure d’optimisation (extraction des maxima) on obtient le
noyau optimal, présenté sur la figure 6.29.d. Enfin, sur la figure 6.29.e. on peut voir la transformation
temps-fréquence obtenue en utilisant le noyau optimal. On observe que l’image temps-fréquence

obtenue a une bonne visibilité, ce qui nous permet de mettre en évidence les deux composantes du
signal. Pour montrer la supériorité de cette méthode par rapport aux méthodes qui utilisent des
noyaux fixes, on présente aussi les résultats obtenu, pour le même signal, à partir de la Distribution
Pseudo Wigner-Ville Lissée (PWVL) et de la Distribution de Choi-Williams (CW).
Smoothed Pseudo Wigner Distribution Choi-Williams Distribution
Fréquence
Fréquence
Figure 6.30. Distribution PWVL et CW du signal composé de deux chirps
§ Noyau gaussien adaptatif à court terme
Malheureusement, la méthode présentée ci-dessus a deux grands inconvénients. Tout d’abord,

lorsqu’on construit un noyau adaptatif pour toute la durée du signal, on ne peut pas suivre les
particularités d’un signal ayant une fréquence instantanée qui varie rapidement dans le temps. Ainsi,
il vaut mieux utiliser une méthode qui construit un noyau gaussien adaptatif sur les intervalles donnés
par une fenêtre glissante sur toute la longueur du signal.
Le deuxième inconvénient est représenté par le choix initial du paramètre α , qui peut être
impossible quand on ne connait pas la structure du signal traité, ce qu’il est le cas en identification
des signaux.
Par la suite, on présente une méthode pour remedier au le premier inconvénient. En principe,
l’intérêt pour l’analyse à court terme est bien étendu (on peut le montrer par l’analogie avec la
Transformation de Fourier en Court Terme). Cette nouvelle méthode est présentée, d’une manière
schématique, sur la figure suivante.
Fenêtre
Signal
Noyau gaussien adaptatif en court terms
RTF adaptive en court terms

Figure 6.31. RTF avec des noyaux conçus à court de terme
En pratique, l’application de cette méthode sera toujours un problème parce qu’on ne dispose
pas d’une information qui peut dire quelle est la taille optimale de la fenêtre. Une solution pour
résoudre ce problème consiste en utilisation de l’information offerte par le plan de phase, obtenu par
la Décomposition en Paquet d’Ondelettes Invariante en Temps (SIWPD – Shift Invariant Wavelet
Packet Decomposition). Le principe de cette méthode est présenté sur la figure 6.32. Comme signal
de test, on utilise on utilise un signal à 8 sauts de fréquence (FSK 8) ; sa RTF idéal est présentée sur
cette figure.
A partir de SIWPD on obtient le plan de phase et, ensuite, la marginale en temps, qui nous
offre une information qui sera exploitée pour déterminer les longueurs optimales des fenêtres. Pour
chaque fenêtre on construit un noyau optimal qui permet d’obtenir une RTF optimale.

Signal FSK Le plan de phase
SIWPD
Fréquence instantanée
La marginale en temps
RTF adaptative à court terme

Fenetres d’analyse avec des tailles variables
Fréquence
Temps
Figure 6.32. Le principe de RTF adaptative à court terme avec des fenêtres d’analyses variables
• Résultats comparatifs
Par la suite, on analyse comparativement les performances de cette nouvelle approche, en

utilisant PWVL, la représentation de CW et la Distribution de Wigner-Ville Modifiée (Modified
Wigner-Ville Distribution – MWVD) - voir le chapitre suivant. Mais, tout d’abord, on introduit
quelques paramètres de qualité pour analyser, d’une manière objective, les performances de chaque
RTF.
1. Le degré de conservation du support temporel (« Degree of time support conservation –

DTSC »)
Ce paramètre est défini pour un certain atome T-F et représente le support temporel de celui-ci
(∆t), normalisé à la taille du signal (T), c’est-à-dire :
∆t
DTSC = (6.112)
T
La signification ∆t et T est représentée sur la figure 6.33. Dans le cas idéal, ce paramètre vaut
1.
2. Le degré de conservation du support fréquentiel (« Degree of frequency support conservation –

DFSC »)
Ce paramètre est définit comme la bande de fréquence d’un certain atome divisée par la
fréquence d’échantillonnage :
B
DFSC = (6.113)
Fe
La signification de B et Fe est présentée sur la figure 6.33.
f
Fe
B
∆t
t
T
Figure 6.33. Les supports temporel et fréquentiel
3. Le facteur d’atténuation des interférences (« Interférences attenuation factor – IAF »)

Ce paramètre montre la qualité de l’élimination des termes d’interférence T-F :
E
IAF = u (6.114)
Ei
où Eu est énergie des termes utiles et Ei est l’énergie des termes d’interférence. Dans le cas idéal, ce
facteur doit être ∞. Pour le signal FSK présenté la figure 6.32., les résultats obtenus à partir des
méthodes présentées ci-dessus sont résumés dans le tableau suivant.
Tableau 6.2. Les performances des distributions temps-fréquence

TFRs DTSCn DTFCn IAF
Idéal 0.125 0 ∞
Pseudo Wigner-Ville Lisée 0.0947 0.029 1.5
Choi-Williams 0.1 0.034 1.02
Modified Wigner-Ville 0.0688 0.062 53.27
Noyau Gaussien Adaptatif 0.0512 0.022 3.1
Noyau Gaussien Adaptatif à Court Terme 0.0893 0.011 157.27
On observe la supériorité de cette méthode en ce qui concerne les indices de conservation des
supports en fréquence et en temps, et, également, la meilleure suppression des termes d’interférence.
Sur la figure suivante on présente, graphiquement, les résultats obtenus à partir de PWVL,
CW, MWVD et la RTF avec le noyau gaussien adaptatif (NGA). A titre de comparaison, il faut
également regarder la figure 6.32.
Pseudo Wigner-Ville Lissée Distribution de Choi-Williams
Fréquence
Fréquence
Temps Temps
a b
MWVD RTF - NGA
Fréquence
Fréquence
Temps
Temps d
c
Figure 6.34. Comparaison entre différentes RTFs
(a) Pseudo Wigner-Ville Lissée avec la taille de g qui vaut 33 et
La taille de h qui vaut 123. (b) Distribution de Choi-Williams avec le paramètre de lissage σ=3.5.
(c) Modified Wigner-Ville distribution avec ε=0.15 and D=2.1.
(d) RTF avec le noyau gaussien adaptatif (NGA) : volume α=25

§ Conclusions
Dans ce chapitre, on a introduit une nouvelle méthode pour obtenir une transformation temps-
fréquence adaptative, ayant comme but l’élimination des termes d’interférence. En partant de la
classe de Cohen on a développé la notion de noyau gaussien adaptatif dans le plan d’ambiguïté et
ensuite une méthode pour le construire.
On a mis en évidence les principaux inconvénients et on a introduit une méthode pour
améliorer les performances.
On a étudié comparativement les approches introduites avec les plus classiques et on a vu que
les résultats obtenus sont meilleurs.
En conclusion, ces approches nous offrent la possibilité de traiter, d’une manière optimale, les
signaux multi-composantes. En plus, les notions présentées nous ouvrent de nouveaux champs
d’application, parmi lesquelles on peut mentionner :
- utilisation des paramètres du noyau optimal comme élément de classification des signaux ;
- ayant comme point de départ la notion de noyau optimal, on peut concevoir des poly-noyaux pour
caractériser les signaux avec une structure relativement compliquée (les signaux de
communications). Ces poly-noyaux peuvent être utilisés comme outil pour l’identification et la
séparation des composantes du signal traité.
Références
[1] S. Qian, D. Chen – “Joint Time-Frequency Analysis” , Pretince Hall, New Jersey, 1998
[2] P. Flandrin – "Représentations temps-fréquence" , Ed. Hermes, Paris, 1993
[3] L. Cohen - "Time-Frequency Analysis",
[5] A. Papandreou, G.F. Boudreaux-Bartels - "A generalization of the Choi-Williams and the Butterworth time-frequency
distributions", IEEE Trans. Signal. Processing, vol. 41, pp. 463-472, 1993
[6] L. Cohen, "Time-frequency distributions - A review", Proc. IEEE, vol. 77, no. 7, pp. 941-981, July, 1989
[7] P.M. Woodward - "Probability and Information theory with Applications to Radar", Elmsford, NY: Pregamon Press,
1953
[8] H.I. Choi, W.J. Williams – "Improved Time-Frequency Representations of Multicomponent Signals Using
Exponential Kernels", IEEE Trans. Acoust., Speech, Sig. Proc, Vol. ASSP-37, no. 6, pp. 862-871, 1989
[9] A.W. Rihaczek – "Signal Energy Distribution in Time and Frequency", IEEE Trans. Info. Th., vol. IT-14, no. 3, pp.
369-374, 1968
[10] C.H. Page – "Instantaneous Power Spectra", J. Appl. Phys, vol. 23, pp. 103-106, 1952
[11] Y. Zhao, L.E. Atlas, R.J. Marks - "The Use of Cone-Shaped Kernels for Generalized Time-Frequency
Representations of Nonstationary Signals", IEEE Trans. Acoust. Speech. Sig. Proc., vol. ASSP-38, no. 7, pp. 1084-1091,
July, 1990
[12] R.G. Baraniuk and D.L. Jones - "A signal-dependent time-frequency representation: Optimal
kernel design", IEEE Trans. Signal Processing, vol. 41, pp. 1589-1602, April 1993

Exercices et problèmes
1. (Calcul de la DWV) Calculer la DWV d'une fonction gaussienne définie par :

1
α 4  α 
s(t ) =   exp  − t 2 
π   2 
2. (Propriétés de la DWV)
a) Montrer les propriétés d'invariance par décalage temporel et fréquentiel (relations 6.15 et 6.16).
b) Justifier pour quoi ces propriétés sont souhaitées dans des applications comme la classification ou
la détection des signaux.
c) Montrer la propriété de covariance par dilatation dans la cas de la DWV
3. (Propriétés de la DWV)
a) Justifier les propriétés de compatibilité par filtrage et modulation
b) Justifier la propriété de conservation des supports temporel et fréquentiel.
c) Donner la preuve de la formule de Moyal.
d) Prouver la relation (6.27).
4. (Termes d'interférence issus de la DWV)

a) Prouver la relation (6.29)
b) Calculer la DWV de la somme de deux atomes gaussiens :
1/ 4
α   α 
s(t ) = ∑   exp − (t − t i )2 + jω i t 
2
i =1 π   2 
Quelle est la géométrie des termes d'interférence ?
5. (Termes d'interférence issus de la DWV)

a) On suppose deux signaux donnés par :
s1 (t ) = cos (2πf 1t ) + cos(2πf 2 t )
s 2 (t ) = cos(2πf 1t ) + cos (2πf 2 t + ϕ )
Donner les expressions de la DWV de ces deux signaux.
b) A partir de la figure suivante, proposer une méthode pour distinguer les deux signaux.
DWV(s 1 ) DWV(s 2 )
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
25 30 35 40 45 25 30 35 40
6. (Discrétisation de la DWV)
Vérifier les propriétés d'invariance par translation et la modulation dans le cas de la DWV
discrète.
7. (PWVL)
Montrer que la PWVL respecte les propriétés d'invariance par translation et modulation.
8. (Fonction d'ambiguïté)
Calculer la fonction d'ambiguïté d'une fonction gaussienne donnée par
1
α  4  α 
s(t ) =   exp − (t − t 0 )2 + jω 0 t 
π   2 
9. (Fonction d'ambiguïté)
a) Donner les preuves pour les relations 6.70 et 6.71.
b) Présenter, d'une manière schématique, la correspondance entre le plan temps-fréquence et le plan
d'ambiguïté dans le cas t 1 =t2=t0 .
10. (Classe de Cohen)

Prouver les concordances (tableau 6.1.) entre les propriétés d'une RTF et les contraintes imposées
au noyau associé.

La relation (6.79) prouve que le spectrogramme fait partie de la classe de représentations temps-
fréquence bilinéaires de Cohen. Dans ce cas, quelle est la géométrie des termes d'interférence de
cette distribution.

Prouver que la distribution de Choi-Williams respecte toutes les propriétés données dans le
tableau 6.1., sauf celle de positivité.
a) Prouver que la distribution de Rihaczek respecte toutes les propriétés données dans le tableau 6.1.,
sauf la propriété 3.
b) Montrer que la distribution de Margenau-Hill ne respecte pas les propriétés de compatibilité par
filtrage et par modulation et celle d’unitarité.

Trouver les expressions de la distribution de pseudo-Rihaczek et de la distribution de pseudo-
Margenau-Hill, par analogie avec l’expression de la pseudo-Wigner-Ville. Peut-on trouver une
liaison entre les nouvelles distributions et le spectrogramme similaire à celle entre la PWV et le
spectrogramme ?

a) Prouver que la distribution de Page respecte toutes les propriétés présentées sur le tableau 6.1.,
sauf 3 et 8.
b) Donner l’expression de la distribution de pseudo-Page. Quels sont les avantages et les
inconvénients induits par cette modification ?
a) Prouver que la distribution de Born-Jordan respecte les mêmes propriétés due à la distribution de
Choi-Williams, et, en plus, celles liées de la conservation du support temps-fréquence.
b) Montrer que la géométrie de termes d’interférence générés par la distribution de Choi-Williams
est identique à ceux générés par la distribution de Born-Jordan.

a) Trouver, parmi les propriétés presentées dans le tableau 6.1., celles qui sont satisfaites par la
distribution de Zhao-Atlas-Marks.
b) Quelle contrainte faut-il imposer à la fonction h(τ) pour que la RTF issue soit donnée par des
valeurs réelles ?


Quels sont les avantages de la distribution de Zhao-Atlas-Marks par rapport à la distribution
de Choi-Williams ?

Soit un noyau donné par φ(t,τ). Quelle est la condition qui doit être l’imposée pour que la RTF
associée soit capable de conserver le support fréquentiel ?

7. Méthodes temps-fréquence modernes
7
METHODES TEMPS-FREQUENCE MODERNES
7.1. Motivations [2,4]
L'analyse temps-fréquence repose sur la combinaison des deux variables temps et fréquence
dans une même représentation, fournissant ainsi une signature de l'évolution temporelle du contenu
spectral. C'est la raison pour laquelle les représentations temps-fréquence (RTF) ont connu un fort
développement, au niveau des outils disponibles, et une grande extension de la gamme d'applications:
traitement du signal sonar et radar [1], imagerie médicale, communications numériques, etc.
La classification des signaux, en utilisant des paramètres extraits du plan temps-fréquence
représente un domaine où les RTFs sont les approches les plus adaptées, grâce à l'information
complète sur la nature du signal que l'on peut extraire de plane temps-fréquence [4]. Néanmoins,
dans le cas des RTFs quadratique (voir chapitre 6), la classification est rendue difficile en raison de la
bilinéarité des distributions de la classe de Cohen qui génèrent des termes d'interférence.
Le succès de l'extraction des caractéristiques discriminantes est assuré si la RTF utilisée est
adaptée aux signaux traités. Il est donc nécessaire d'appliquer, à chaque signal, sa RTF optimisée.
Pour des signaux ayant une structure simple, la RTF optimale peut être une des représentations de la
classe de Cohen, mais pour les signaux dont la structure est plus complexe, le choix de la meilleure
RTF pose des problèmes difficiles à surmonter, car les noyaux classiques ne préservent pas un
ensemble des propriétés acceptables pour résoudre le problème posé.
La question fondamentale est donc : comment peut-on augmenter la lisibilité d'une RTF pour
extraire les paramètres d'un signal ? Une première méthode temps-fréquence adaptative, proposée au
début des années '90, est la RTF basée sur le noyau gaussien adaptatif (NGA), qui a été décrite dans
la section 6.4. On a vu que cette méthode est capable de fournir une image temps-fréquence avec un
niveau réduit de termes d'interférence. Néanmoins, cette approche présente deux inconvénients
majeurs, illustrés sur la figure 7.1.
En pratique, il est souvent difficile de trouver la bonne valeur pour le paramètre α (section
6.4), surtout pour les signaux ayant une structure complexe dans le plan temps-fréquence. Si la valeur
du volume est trop petite, on élimine tous les termes d’interférence, mais les supports temporel et
fréquentiel sont affectés. Dans le cas contraire la RTF sera toujours entachée d'interférences. Ce
phénomène est illustré sur la figure suivante, en considérant comme signaux de test une modulation
discrète en fréquence à 8 états (figure 7.1.a.). et un mélange d'une sinusoïde, une modulation
hyperbolique de fréquence et d'une impulsion (figure 7.1.b.).
Dans le premier cas (figure 7.1.a.), il est difficile de mettre en évidence toutes les
composantes. Pour y arriver on a choisi α=25. Par conséquent, le choix de α est déterminant pour les
performances de la RTF-NGA et, donc, il faut définir une procédure pour estimer cette valeur.
Puisque cette procédure sera dépendante de la structure du signal, elle ne sera valable que pour une
classe étroite de signaux.
Sur la figure 7.1.b., un autre inconvénient est mis en évidence, lié à la forme particulière du
noyau. La RTF-NGA, de ce signal, caractérisée par un niveau relativement élevé des termes
d’interférence, montre l’incapacité du noyau gaussien à s’adapter à une structure d’un signal
multicomposantes.

Centre de Recherche "Extraction et Exploitation de l'Information en Environnements Incertains
RTF-NGA: α=15 RTF-NGA: α=25
Fréquence
Fréquence
Temps Temps
a. Influence de la valeur de α sur la lisibilité de la RTF
Plan d’ambiguïté RTF-NGA: α=10
Fréquence
Doppler
Retard Temps
b. Influence de la forme du noyau
Figure 7.1. Les principaux inconvénients de la RTF-NGA
Une solution consiste alors à construire des noyaux complexes (polynoyaux) qui vont
permettre de retrouver toutes les composantes dans le plan d’ambiguïté. Ces polynoyaux seront
composés par un certain nombre de noyaux gaussiens primaires dont les paramètres (l’angle par
rapport à l’axe de retard et la dispersion) pourront être calculés à partir de certaines fonctions de base
qui fourniront une approximation optimale (au sens de l’erreur d’approximation, par exemple) du
signal. Il s’agit du principe des décompositions adaptatives [1] développé dans la section suivante.
7.2. Le principe des décompositions temps-fréquence adaptatives
Ce principe, introduit par S.Mallat et Zhang [6] et appelé également "Matching Pursuit",
consiste en la projection, de manière itérative, d’un signal s(t) sur un ensemble de fonctions de base
hp (t) :
s( t ) = ∑ B p h p ( t ) (7.1)
où les coefficients Bp sont donnés par :

B p = s, h p (7.2)
L’opérateur • ,• représente le produit scalaire. La relation (7.2) montre le degré de similarité

entre le signal s(t) et la fonction de base hp (t). La figure suivante présente la procédure de la
décomposition adaptative du signal. r
h p −1
r
r s p −2
s p −1 r
r sp r
s p −1
B p −1h p −1
r
hp
r
Bp hp
Figure 7.2. La décomposition adaptative du signal
Initialement (p=0) on a s0 (t)=s(t) (le signal original). On cherche la fonction h0 (t) parmi
toutes les fonctions h(t) qui ressemble le plus au signal s(t). Le coefficient de la projection sera choisi
selon (on considère p=0) :
2
= max s p ( t ) , h p (t )
2
Bp (7.3)
hp
Le signal résiduel vaut alors :

s p+1 ( t ) = s p ( t ) − B p h p ( t ) (7.4)
et, supposant que hp (t) est d’énergie unité, l’énergie du signal résiduel sera :
s p+ 1( t ) = sp ( t )
2 2 2
− Bp (7.5)
Par la continuation du processus on obtiendra :
∞
= ∑ Bp
2 2
s (t ) (7.6)
p= 0
qui représente l’équation de conservation de l’énergie, similaire à la relation de Parseval dans le

domaine de Fourier. Les étapes suivantes reprennent cet algorithme et cherchent la fonction hp (t) qui
a la meilleure similitude avec le signal résiduel sp (t). La décomposition adaptative met en évidence
{ }
l’ensemble des fonctions de base h p ( t ) qui est le plus ressemblant avec la structure temps-fréquence
du signal. A cet ensemble de fonctions, en appliquant alors la transformation de Wigner-Ville on
obtient :
WV s (t , f ) = ∑ B p2WV hp (t , f ) + ∑ B p B *qWV h p hq (t , f ) (7.7)
p p≠ q
En [1, pag. 187] il est montré que le deuxième terme de la relation (7.7) a une énergie nulle.
Donc, on peut écrire l’expression générale de la représentation temps-fréquence adaptative (RTFA)
selon :
RTFA s (t , f ) = ∑ B p WV h p (t , f )
2
(7.8)
p
Le principe sera à la base du cadre général à la particularisation des relations présentées ci-
dessus aux deux familles de fonctions de base : les ondelettes et les chirplets.
7.3. La Distribution de Wigner-Ville Modifiée (DWVM)

On considère la librairie de paquets d’ondelettes invariante en temps (POIT) [7] qui est une
collection de toutes les bases orthonormales de Vj (combinaison linéaire{2 j/2 ϕ0 (2jx-k); k∈Z} ) qui
sont sous-ensemble de
{B j
l , n ,m : l ∈ Z − , n ∈ Z+ ,0 ≤ m < 2 − l } (7.9)
où Blj,n ,m = { 2 ( l+ j)/ 2 ϕ n [ 2 l ( 2 j x − m) − k ] : k ∈ Z} (7.10)

Soit B un ensemble défini par la relation (20) et {C λ} les coefficients de la meilleure base d’un
signal g. Alors :
g ( t ) = ∑ C λ ϕ λ (t ) , {ϕ λ }λ∈N ∈ B (7.11)
λ∈ N
Tenant compte de la relation (7.7), la distribution de Wigner-Ville de l'approximation du
signal g(t) s’écrit :
WV g (t , f ) = ∑ Cλ C λ*' WV ϕ ,ϕ ' (t , f )
λ,λ'∈N λ λ
 
= ∑ C λ ⋅WVϕ ( t , f )+ 2 ∑ Re Cλ C * λ' ⋅ WVϕ ,ϕ ' (t , f ) 
2
(7.12)
λ∈N λ
λ >λ'  λ λ 
L’équation (7.12) sépare la transformation de Wigner-Ville classique en deux parties :

• La superposition d’auto-distributions de toutes les fonctions de base. Cette superposition

représente les auto-termes. L’auto-distribution d’une fonction de base peut être calculée par la
relation :
− j 2πfτ
WVϕλ (t , f ) =∫ ϕ λ (t + τ / 2)ϕ *λ (t − τ / 2)e dτ (7.13)
• La seconde somme représente les inter-distributions de Wigner-Ville de toutes les fonctions de

base; cela représente les termes croisés. L’inter-distribution de deux fonctions de base est donnée
par la relation (7.14) :
WVϕ ,ϕ ' (t , f )=∫ ϕ λ (t + τ / 2)ϕ λ*' (t − τ / 2)e − j 2πfτ dτ (7.14)
λ λ
Les sommes sont limitées aux fonctions de base dont les coefficients de projection est plus
proche qu’un certain seuil et dont la localisation dans le plan temps-fréquence sont plus proches
qu’un seuil prédéfini. Soit ε le seuil d’amplitude et D le seuil de distance dans le plan temps-
fréquence. Alors, on peut définir deux ensembles par les relations :
{
Λ = λ Cλ ≥ εM , } M = max{ C } λ
λ
Γ = {{λ , λ } 0 < d (ϕ , ϕ ) ≤ D, C C }
(7.15)
'
λ λ' λ λ'
≥ε M 2 2
d (ϕ λ , ϕ λ' ) représente la distance entre deux fonctions de base dans le plan temps-fréquence. La
quantité est définit par :
(
( t λ − t λ' )2 f λ − f λ' )
1/ 2
 2

(
d ϕ λ ,ϕ λ' ) =
 ∆t λ ∆t λ'
+
∆f λ ∆f λ'


(7.16)
 
( )
où t λ , f λ est la position centrale de la fonction de base ϕ λ dans le plan temps-fréquence et ∆tλ et
∆fλ sont les ambiguïtés temporelle et fréquentielle. Par les modifications du seuil de distance et du
seuil d’amplitude ε, on peut supprimer la plupart des termes d’interférence [3].
Les fonctions de base sont données par:
ϕ l ,n ,m, k ( t ) = 2 l /2 ϕ n [ 2 l ( t − m) − k ] (7.17)
où l est le niveau de décomposition courant, n l’indice de fréquence, m l’indice d’invariance et k
l’indice de la position dans la cellule courante. A chaque fonction de base est associée une cellule
dans le plan temps-fréquence; le centre de celle-ci a les coordonnées :
t = ( k − 1) ⋅ 2 l + m + ( 2 l − 1) ⋅ Ch − 2 l−1 (7.18)
( n + 0.5)
f = (7.19)
2l
où Ch est le centre énergétique du filtre passe-bas, donné par la relation :
1
Ch = 2 ∑ j h j
2
(7.20)
h j ∈Z
où hj représente les coefficients du filtre passe-bas.
La largeur et la hauteur de cette cellule sont données par les relations suivantes :
∆t = 2 l−1 ; ∆f = 2 − l (7.21)
Ainsi, si on tient compte de l’amplitude des coefficients de la décomposition POIT, la
meilleure base et de la distance entre les centres énergétiques des ondelettes correspondantes, on
élimine les termes d’interférence en conservant la structure temps-fréquence du signal. Les
performances de cette méthode sont meilleures que celles obtenues par les méthodes présentées
antérieurement ; ce fait, justifié objectivement en [3], est dû à la décomposition en paquets
d’ondelettes invariante en temps (DPOIT), qui fournit la meilleure base au sens de l'entropie
minimale, et permet une sélection efficace des coefficients et, donc, un choix optimal des fonctions
de base.

Malgré ses performances, cette approche, introduite par I. Cohen [7], présente deux
inconvénients qui limitent son application :
- Les résultats de la DWVM dépendent fortement du choix du couple de paramètres (ε,D) qui
n’est pas toujours optimal et est difficile à définir. Pour s'affranchir de cet inconvénient, nous avons
proposé et argumenté deux techniques. A l'opposé de l’approche de I. Cohen, qui accordait la même
importance à tous les termes d’interférence, on a montré [11] que les termes d’interférences entre les
ondelettes qui appartiennent au même sous-espace du signal sont des termes utiles et doivent être
privilégiés par rapport aux autres. La première technique va permettre de garder tous ces termes et
éliminer les autres. Dans le même article, nous avons également montré l’intérêt pour un seuillage
adaptatif. Cette solution consiste à calculer, pour chaque sous-espace du signal, un seuil qui permet
d’améliorer les performances de la procédure de sélection des coefficients.
Ces deux techniques accroissent les performances de la DWVM. L’exemple suivant illustre
clairement les avantages offerts par la DWVM par rapport à la RTF-NGA et à la DWVM classique
(l’approche de I. Cohen). Cet exemple utilise le même signal que celui considéré pour mettre en
évidence les inconvénients de la RTF-NGA.
RTF-NGA: α=10 DWVM classique: ε=2; D=2.4 DWVM automatisée
Fréquence
Fréquence
Fréquence
Temps Temps Temps
Figure 7.3. Amélioration de la lisibilité par DWVM
7.4. Le Dictionnaire Adaptatif Chirplets à 4 paramètres (DAC4)

Pour améliorer les performances de la RTFA, une idée naturelle est d’introduire un nouveau
paramètre (degré de liberté) pour les fonctions de base. On va ainsi former un dictionnaire des
fonctions de base à quatre paramètres. Le dictionnaire à quatre paramètres le plus naturel est celui
composé par des fonctions "chirplet" [9]. La justification est présentée sur la figure suivante : d'un
point de vue théorique, il est possible d’approximer n’importe quelle forme dans le plan temps-
fréquence par un nombre limité des chirplets. Une certaine erreur sera commise mais peut être
contrôlée sa valeur par une bonne résolution.
f f
Approximation d’un
signal avec un
ensemble de
fonctions chirplets
t t
Figure 7.4. Approximation d’une forme quelconque par un certain nombre de chirplets
Pour obtenir un dictionnaire "chirplet" adapté à la structure du signal de départ, il faut trouver une
méthode qui choisisse la meilleure combinaison des fonctions chirplets. Deux solutions peuvent être
formulées :
• La première, formulée par D. Lowe [9], consiste à représenter une structure temps-fréquence d’un
signal comme un mélange de distributions gaussiennes bidimensionnelles. Alors, on choisit les
fonctions chirplets bien adaptées à ces distributions.
• La deuxième, introduite par S. Chian [10], est de construire directement le dictionnaire à quatre
paramètres à partir du dictionnaire de Gabor à trois paramètres (décalages temporel, fréquentiel et
échelle) et en introduisant le quatrième paramètre (le taux de modulation) par l’application de la
transformation de Fourier fractionnaire (FRFT). Pour choisir itérativement les fonctions de base,
Bultan [10] a utilisé l’algorithme de « Matching Pursuit ».

7.4.1. Expression mathématique des fonctions chirplet
Cette expression est donnée par la formule (33).

e j 2π ( f0 + ct ) t , t ∈ [ t 0 , t 0 + d ]
ψ i ( t, θ ) = 
 0, sinon (7.22)
θ = (t 0 , f 0 , c, d )
Figure 7.5. Les paramètres d’une fonction chirplet
Les différents paramètres qui interviennent dans cette formule sont :

t 0 – l’origine temporelle ;
f 0 – l’origine fréquentielle ;
c – la vitesse de variation de la fréquence (taux de modulation);
d- la durée du signal chirplet.
La figure 7.5. donne les représentations temporelle et fréquentielle d’une fonction chirp en
montrant également l’implication de chacun des paramètres.
Sachant qu’une fonction ondelette est caractérisée par un facteur d’échelle et qu’à partir de c
et d on peut définir un facteur d’échelle pour la fonction chirplet, la similitude est évidente entre la
fonction introduite ci-dessus et une fonction ondelettes, en ce qui concerne le support limité de cette
fonction.
7.4.2. La RTFA obtenue à partir de DAC4
Le dictionnaire utilisé pour construire la RTFA est composé par l’ensemble de M fonctions de
type chirplet. Initialement, on ne construit pas le dictionnaire; on considère uniquement connu le
nombre de fonctions cherchées M (la dimension de l’espace de recherche). L’algorithme de cette
méthode peut être décomposé en deux phases (voir la figure 7.12).
La première phase permet d’estimer les paramètres de chaque fonction chirplet. Cette
estimation sera basée sur la maximisation du rapport de vraisemblance et, pour diminuer l’erreur
d’estimation, on utilisera la procédure d’optimisation de quasi-Newton. Cette procédure
d’optimisation donne un caractère optimal à cette RTFA.
La deuxième phase, permet d’obtenir effectivement la RTF en utilisant l’algorithme
"Matching Pursuit".
L’attribut adaptatif est dû à la procédure d’optimisation qui a une double action : localement,
elle cherche à trouver la fonction chirplet la mieux adaptée à une composante donnée du signal et,
globalement, elle définit l’ensemble des fonctions les mieux adaptées à la structure temps-fréquence
du signal.
§ Phase 1 : Estimation des paramètres de chacune des fonctions « chirplet »
Cette phase permet d’estimer les quatre paramètres de chacune des fonctions de
décomposition. L’estimation est itérative, pour obtenir une qualité satisfaisante de ce processus.

• Estimation globale :
On considère le signal s(t) comme une suite de deux chirps et sa représentation T-F présentée
sur la figure 7.6.a.
f f Energie cumulée
cg
π/4/M
t t c
cg
a. RTF du signal de depart b. Estimation globale de c
c. Energie cumulée
Figure 7.6. Estimation globale de c
Pour estimer le taux de modulation, on tourne, dans le plan TF, une droite (figure 7.6.b).
L’incrément angulaire vaut π . Pour chaque valeur de l'incrément angulaire, l’énergie
4M
cumulée (figure 7.6.c) est calculée et la valeur maximale correspond à la valeur estimée de c.
Cette valeur est alors utilisée pour l’estimation globale de la durée. Le principe est présenté
sur la figure suivante Energie cumulée
f dg
f
d
t t t0
a. RTF du signal de départ b. Estimation globale de d c. Energie cumulée
Figure 7.7. Estimation globale de d
Pour définir la longueur du signal d, on considère une fenêtre 2D de longueur variable (selon
la figure 7.7.b) et on calcule fois l’énergie de la région où cette fenêtre est superposée à l’atome.
L’énergie pour d ( d ∈[ 0; length ( s)] ) peut être représentée, comme sur la figure 7.7.c. et la
durée optimale (globale) représente la taille de la région où l’énergie reste approximativement la
même sous l'hypothèse d'un chirp faiblement atténué.
• Estimation de t0 et f0
Le paramètre t 0 peut être estimé (voir figure 7.7) comme correspondant à un certain
pourcentage de l’amplitude du front croissant. Pour l’estimation simultanée de (t 0,f0 ), on peut calculer
la transformation de Wigner-Ville du signal modulé avec la fonction chirplet obtenue à partir de c et
d. Le calcul de la marginale en temps et en fréquence permet alors d’avoir l’estimation de (t 0 ,f0 ). Un
exemple pour un signal composé de deux chirps, est présenté sur la figure 7.8.
Forme d’onde issue de
Signal de départ
l’estimation globale
Marginal en fréquence
Marginal en
tc temps
Signal modulé
TWV fc
Figure 7.8. Principe de l’estimation de (t 0 ,f0 )

En utilisant le principe présenté ci-dessus on obtient le centre énergétique (t c,f c) de l’atome

pris un compte. Pour déterminer le point (t 0 ,f0 ) on utilise la formule suivante :
 dg
 t 0 = t c −
2
 d
(7.23)
f = f −c ⋅ g
 0 c g
2
On remarque que si cg est négatif (il s’agit de chirp où la fréquence décroît), f 0 (la fréquence
initiale) sera la fréquence maximale du spectre.
• Estimation locale de c et d
Pour éviter les situations où l’énergie cumulée, en fonction de c, présente deux pics (deux
valeurs maximales) ou quand la fenêtre utilisée pour estimer d n’est pas bien superposée à l’atome
TF, on a établi qu’il est impératif d’avoir une étape d’estimation locale. On utilise la même procédure
que celle proposée pour l’estimation globale, mais en commençant la rotation autour du point (t0,f0 ),
calculé ci-dessus. Le principe et la comparaison avec l’estimation globale sont présentés à la figure
7.9. f f
dl
cl Axe de cl
reference
(t0 ,f0 ) (t0 ,f0 )
t t
Figure 7.9. Principe de l'estimation locale des paramètres
Forme d’onde issue de Signal de départ

l’estimation globale
Forme d’onde
issue de
l’estimation
locale
Figure 7.10. Comparaison entre l’estimation globale et locale
Sur la figure 7.10 on peut observer que la forme d’onde obtenue par l’estimation locale est
plus adaptée à l’atome considéré que la forme obtenue par l’estimation globale.
Pour améliorer la qualité de l’estimation, on applique ces étapes trois fois. Un nombre plus
élevé d’itérations n’apporte pas de résultats plus significatifs.
Ces étapes permettent de définir un vecteur θe (la relation 7.22), qui sera la valeur d’entrée
pour la procédure suivante.
• Estimation optimale
Pour augmenter la précision de l’estimation, on a utilisé une méthode d’optimisation basée sur
la maximisation d’une fonction objective qui représente la projection du signal sur une certaine
fonction. Cette procédure est basée sur un algorithme du gradient.
Donc, la valeur optimale de θ est obtenue selon :
θ opt = MAX − s ⋅ ψ ( θ )
θ
[ 2
] (7.24)
La procédure d’optimisation nécessite, comme données d’entrée:

− Le vecteur initial: θe ;

− L’espace de recherche pour la meilleure solution :

 M  π π  N
θ = (t 0 , f 0 , c, d ) ∈  t e −
M
, t e +  × [ 0,2π ] × − ,  × .25,  (7.25)
 2 2  4 4  2
Signal de
départ Fonction de base
après l’estimation
locale
Fonction de base
après l’estimation
optimale
Figure 7.11. L’estimation optimale des paramètres par rapport à la procédure locale
La figure 7.11. permet d'observer l’avantage de l’utilisation de cette procédure

d’optimisation : la forme d’onde issue est très bien adaptée à la structure de l’atome singulier.
§ Phase 2 : calcul de la RTF
La fonction de base chirplet obtenue après la phase d’estimation, ψ θ opt , est utilisée pour la ( )
projection du signal. Ainsi, on obtient, à chaque itération, un ensemble (C ,ψ (θ )) (qui sera utilisé
i i opt
pour évaluer la transformation TF) et, également, le signal résiduel (la relation 7.26), qui sera utilisé
pour l'itération suivante (voir la figure 7.12).
( )
ss = s − Ci ⋅ ψ i θ opt
s, ψ (θ )
(7.26)
Ci = opt
Pour évaluer la RTF du signal de départ, on utilise les transformations TF de chaque atome retenu.
∑ C WV (ψ ) + WV ( ss ( ) )
N
TFRDAC 41 = i
2
i
N
(7.27)
i =1
Phase 1 : Estimation des paramètres de chaque Phase 2 : Calcul de la nouvelle RTF

fonction chirplet
s(t)
cg , d g
Estimation de t 0 et f0
t0 ,f0 3 itérations N itérations
Estimation locale
de c et d Transformation T-F
( )
N
RTFDAC41 = ∑ C i2 WV (ψ i ) + WV ss ( N )
i =1
θ0=(t 0,f0,c,d)
Ensemble retenu
Evaluation du signal résiduel
(θ )
Estimation optimale C1 C2 Ci CN
[ ] θopt ss = s − C ⋅ψ
θ opt = MAX − s ⋅ ψ ( θ )
i opt
2
θ C i = s ,ψ (θ opt ) ψ1 ψ2 ψi ψN
Figure 7. 12. Algorithme de la RTFA-DAC4

7.5. Résultats expérimentaux
Pour justifier les performances de l'approche propsoé, on a tout d’abord considéré un signal
composé de 6 chirps (modulations linéaires de fréquence - MLF) élémentaires. La transformation TF
idéale est présentée sur la figure 7.13.a.
RTF idéale RTFA-DAC4: M=12
Fréquence
Fréquence
Temps Temps
a. b.
Figure 7.13. RTF idéale et RTFA-DAC4 pour un signal composé de 6 MLF
La figure 7.13.b illustre le fait qu’on puisse bien localiser, dans le plan TF, les six éléments du
signal. Un autre exemple montre la capacité de DAC4 à approximer une structure non-linéaire dans le
plan TF. Le signal utilisé est un mélange d'un signal sinusoïdal, d'un chirp et d'une modulation
sinusoïdale en fréquence. Les résultats sont présentés sur la figure 7.14.
RTFA-DAC4: M=12 RTFA-DAC4: M=5
Fréquence
Fréquence
Temps Temps
RTFA-DAC4: M=16 RTFA-DAC4: M=20
Fréquence
Fréquence
Temps Temps
Figure 7.14. RTFA-DAC4 pour le deuxième signal de test pour différentes valeurs de M
On constate que les termes d'interférences ont été éliminés, mais on ne peut pas approximer
précisément les modulations non-linéaires, à cause de la forme linéaire des fonctions de base qui ne
permet pas une approximation fidèle d'une forme non-linéaire.
Dans ce paragraphe on va tout d'abord étudier l'effet de l'atténuation du signal sur les degrés
de conservation des supports temporel et fréquentiel.
Comme signal de test on utilise un chirp atténué temporellement. La fonction d’atténuation
est définie par la relation suivante :
g ( t ) = e − at (7.28)
où a est le facteur d’atténuation. Pour différentes valeurs de a, les indicateurs DTSC et DFSC (voir la
section 6.4) sont calculés. Les résultats obtenus sont présentés sur la figure 7.15. Les valeurs de
DTSC et DFSC pour a=0 (chirp non atténué) montrent une bonne mesure liée à la qualité des
transformations, concernant la conservation des supports temporel et fréquentiel. Ces résultats sont
présentés dans le tableau 7.1.
Tableau 7.1. : DTSC, DFSC et TFSC pour le signal original

Distribution T-F DTSC DFSC
Idéal 1 0.3
PWVL 0.992 0.46
DWVM 0.956 0.393
NGA 0.979 0.477
RTF-DAC4 0.992 0.36
Support temporel en fonction de a
DTSC
a
Support fréquentiel en fonction de a
DFSC
a
Figure 7.15. DTSC et DFSC en fonction du facteur d’atténuation a pour les quatre approches:
DAC4, PWVL, DWVM et NGA
Quelques remarques peuvent être faites:
1. Du point de vue de la conservation du support temporel (paramètre DTSC) les performances de

RTF-DAC4 sont similaires à celles de PWVL, mais la première présente l'avantage d'être fortement
automatisée : pour l'évaluer on a initialement choisi le nombre de fonctions désirées et le nombre de
fonctions de base (64). Par contre, pour évaluer la PWVL, on a dû adapter les tailles des fenêtres G et
H. De plus, nous avons été contraints de faire un compromis entre les résolutions temporelle et
fréquentielle.
Les performances des autres méthodes (NGA et DWVM) sont moins bonnes que celles
présentées ci-dessus. La justification est due au fait que ces distributions ne sont pas adaptées à la
structure du signal : même si le signal de départ est atténué, RTF-DAC4 peut suivre la loi de variation
en fréquence. Au contraire, DWVM, par exemple, qui utilise un critère d’entropie (le critère du choix
de la meilleure base donnée par DPOIT) a un fonctionnement fort différent : lorsque le signal est
atténué, des coefficients sont perdus et, par conséquent, l’entropie augmente et donc la sélection de la
meilleure base n'est plus efficace.
2. Sur le plan de la conservation du support fréquentiel (paramètre DFSC) les résultats sont
similaires. Le deuxième graphique de la figure 7.16, montre la supériorité de RTF-DAC4 par rapport
aux autres méthodes.
Pour des valeurs du coefficient d’atténuation supérieures à 0.4, DFSC n’apporte aucune
information, puisque le signal initial tend vers une impulsion qui occupe tout le support fréquentiel.
Les tests présentés dans la suite de ce paragraphe permettent de qualifier le décalage temporel
minimal entre deux signaux chirp pour lequel on pourra continuer à les distinguer. On utilise deux
chirps avec un décalage t 0 ∈ [1; 30] échantillons. Pour chaque valeur de t 0 , on applique les quatre
distributions T-F et on évalue le paramètre DTSC (la procédure de mesure est présentée
schématiquement sur la figure suivante).

t0 t
DAC4 NGA PWVL DWVM
Calcul de DTSC et comparaison
Figure 7.16. La procédure de mesure de SSCR pour les chirp décalés temporellement
Les résultats obtenus sont reportés dans le tableau 7.2; la valeur idéale de SSCR vaut 1.
Tableau 7.2. : SSCR en fonction de t 0
t0 SSCR
PWVD DWVM NGA RTF-DAC4
24 4 1 1 1
17 3 1 1 1
16 3 1 1 1
15 2.5 1.5 1 1
14 2.5 3 1 1
13 2 2 1 1
12 2 2.5 0.5 1
11 2 4 0.5 1
10 2 2 0.5 1
9 2 2 0.5 1
8 2 2.5 0.5 1
7 2 4 0.5 0.5
6 2 0.5 0.5 0.5
2 2 0.5 0.5 0.5
1 2 0.5 0.5 0.5
Comme on peut le constater, les performances de RTF-DAC4 sont meilleures. Le

fonctionnement des autres méthodes est affecté :
− dans le cas de PWVL : quand les signaux sont proches l’un de l’autre (un décalage plus petit que
24), le choix des tailles des filtres ne permet pas de mettre en évidence ces deux composantes.
− DWVM fonctionne correctement jusqu’un décalage de 15 échantillons; la situation est présentée
sur la figure 7.18. L’explication de ce phénomène est montrée, d’une manière schématique, sur la
figure 7.17.
Fréquence Interferences
parasites
Chirp1
D
Chirp2
Temps
Figure 7.17. Apparition des termes d’interférence parasites pour DWMD

RTF idéale Fonction d'ambiguïté
Doppler
Temps Retard
DWVM: eps=0.3,D=16 DAC4 - M=2 éléments
Temps Temps
Figure 7.18. Décalage temporel: comparaison entre MWVD et DAC4
Comme il est démontré en [11], les termes d’interférence entre les fonctions de base qui
appartiennent au même sous-espace sont des termes utiles. Pour les retenir on a introduit un seuil de
distance, D. Dans le cas où les atomes sont très proches l’un de l’autre on a des termes qui
appartiennent aux différents sous-espaces et une distance plus petite que le seuil D. Par conséquent,
on aura des termes d’interférence qui nuisent aux performances de DWVM. Le fonctionnement de
NGA est limité par la capacité du noyau à s’adapter à la structure du signal dans le plan des
ambiguïtés. La figure 7.19 montre que le noyau gaussien ne peut pas mettre en évidence les deux
chirps. Mais, par rapport aux DWVM et PWVL, NGA fonctionne jusqu’à un décalage de 13
échantillons. Ce graphique illustre la supériorité de RTF-DAC4 en ce qui concerne la conservation
de la structure du signal, quand il s’agit de chirps décalés en temps.
RTF idéale Fonction d'ambiguïté
Doppler
Temps Retard
Noyau Gaussien Adaptatif: alpha=3 DAC4 - M=2 elements
Temps Temps
Figure 7.19. Décalage temporel: comparaison entre NGA et DAC4
7.6. Conclusion. Perspectives

Cet chapitre a présenté deux approches temps-fréquence modernes adaptées aux applications
comme la classification des signaux. Par les exemples présentés, on a mis en évidence les avantages
de ces méthodes, en ce qui concerne l'amélioration de la lisibilité des images temps-fréquence
générées. Une étude comparative des performances de ces méthodes par rapport aux outils classiques
(distribution de pseudo Wigner-Ville lissée) et ayant comme critère d'évaluation le degré de
conservation du support temporel et, aussi, la lisibilité de l'image obtenue a été critiquée.
Les deux outils présentées (DWVM et DAC4) ont un haut degré d'adaptation aux structures
temps-fréquence du signal, en raison de la famille de fonctions de base, déterminée d'une manière
optimale, soit par une décomposition en paquets d'ondelettes, soit par l'algorithme Matching Pursuit.
Quel que soit l'algorithme de décomposition, la famille obtenue est complète, et nous assure l'unicité
des caractéristiques du signal. Pour la classification, on utilisera alors cet ensemble de fonctions et les
caractéristiques discriminantes seront extraites à partir des paramètres des fonctions de base.
Néanmoins, ces méthodes présentent quelques limitations et l'élimination de celles-ci fera
l'objet de travaux ultérieurs. Ainsi, la DWVM a deux grandes limitations : le choix des paramètres ε
et D et la capacité de l'ensemble des fonctions ondelette de mettre en évidence précisément les
caractéristiques du signal analysé. Pour éliminer le premier inconvénient, deux méthodes ont été
envisagées:
− L'utilisation du concept des termes d'interférence utiles, décrit en [11]. Selon ce concept, on
évaluera les termes d'interférence seulement pour les fonctions qui appartiennent au même sous-
espace, surmontant ainsi le problème du choix de D. Pour le choix de ε une idée consiste à
appliquer un seuil spécifique pour chaque sous-espace, mais la stratégie optimale de seuillage
sera définie dans les travaux futurs;
− L'utilisation de la TOS pour avoir une information sur la proximité des atomes dans le plan
temps-fréquence. A partir de cette information, on peut calculer l'ensemble des paramètres ε et D.
Le deuxième inconvénient peut être atténué par l'introduction de quelques paramètres
supplémentaires dans la structure des fonctions de base utilisées. En fait, par l'introduction du taux de
modulation linéaire, par exemple, on pourra davantage adapter l'ensemble des fonctions pour l'étude
des modulations linéaires. Ensuite, par l'utilisation des opérateurs "warping", on pourra accroître la
capacité de la transformée à s'adapter à n'importe quelle modulation traitée. Cette idée demeure
valable pour DAC4 dans l'esprit d'enrichir l'ensemble des fonctions de base dans lequel on effectue la
recherche de la meilleure combinaison. De plus, pour ôter l'inconvénient lié au choix de la dimension
de l'espace de recherche (M), mis en évidence sur la figure 13, on étudiera la possibilité de remplacer
l'algorithme "Matching Pursuit" par un autre, plus performant, comme Basic Pursuit ou l'algorithme
pyramidal de Mallat.
Références
[1] S. Qian, D. Chen – “Joint Time-Frequency Analysis ” , Pretince Hall, New Jersey, 1998
[2] P. Flandrin – "Représentations temps-fréquence” , Ed. Hermes, Paris, 1993
[3] A. Quinquis, C. Ioana - “Suppression of Wigner interference-terms using extended libraries of bases”, Military
Technical Academy Scientific Communications Session, Bucharest, Oct., 1999
[4] L. Atlas, J. Droppo, and J. McLaughlin, "Optimizing Time-Frequency Distributions for Automatic Classification,"
Proceedings of SPIE – The International Society for Optical Engineering, Vol. 3162, CA, pp. 161-171, San Diego, July,
1997.
[5] D.L. Jones and R.G. Baraniuk, “A simple scheme for adapting time-frequency representations”, IEEE Trans. Signal
Processing, Dec. 1994
[6] S. Mallat, Z. Zhang – “Matching pursuit with time-frequency dictionaries”, IEEE Trans. Signal Processing, vol.41,
no.12, PP. 3397-3415, Dec., 1993
[7] I. Cohen, “Shift-Invariant Adaptive Wavelet Decomposition and Applications”, Research Thesis, Israel Institute of
Technology, 1998
[9] Steve Mann, Simon Haykin – “The Chirplet Transform : A Generalisation of Gabor’s logon”, Canadian Image
Processing and Patern Recognition Society, Oct. 1991
[10] Aykut Bultan - “A Four-Parameter Atomic Decomposition of Chirplets”, IEEE Transaction on Signal Processing,,
March 1999
[11] C. Ioana, A. Quinquis - “On The Signal Interference Structure Generated by Modified Wigner-Ville Distribution”,
Paper accepted at ICASSP 2002 Conf, Orlando, Florida, May, 2002

ANNEXE 1. Implémentation des décomposition en paquets d'ondelettes
ANNEXE 1
Implémentation des décomposition en paquets d'ondelettes classique
Dans cette annexe on présente les aspects d’implémentation de la décomposition en paquets

d’ondelettes. Dans tous les organigrammes qui seront présentées, on utilise quelques conventions
pour symboliser les opérations effectuées dans les algorithmes.
CONVENTIONS
→ La séquence pour l’introduction des donnés
→ Une action
→ La vérification d’une condition de test
→ Le tracé logique des donnés

→ Le tracé des vecteurs
→ Le tracé pour reprendre une boucle
Notations
Pour présenter l’algorithme de décomposition en paquets d’ondelettes il faut introduire
quelques notations, qui seront corrélées aux éléments spécifiques des paquets d’ondelettes.
− N - la longueur du signal;
− L - le niveau maximal de décomposition: L≤log2 (N);
− h,g - les coefficients des filtres utilisés
− l - le niveau courant de décomposition;
− n - la localisation dans un certain niveau; n=0,...,2l-1;
− Il,n - l’intervalle de définition pour le sous-espace au niveau l, dans la localisation n;
[ ]
N N
I l, n = n l + 1, (n + 1) l
2 2
− PO - la matrice de dimension LxN qui contient la décomposition en paquets d’ondelettes;
− k - l’index donné par: k=2l + n, c’est-à-dire que cet indice permet de parcourir l’arbre en ordre.
− Coût - le vecteur qui contient les valeurs d’entropie au sens de Shannon à chaque localisation. La
dimension du vecteur est 2l+1 -1.
− MB - le vecteur qui contient les valeurs booléens ‘’mark’’. Cette valeur montrera si le sous-espace
correspondant est retenu (mark=0) ou non (mark=1).
A.1.1. L’implémentation de la décomposition
Comme on l'a vu au sous-chapitre 5.4.2 la décomposition en paquets d’ondelettes consiste à

effectuer, à chaque niveau, un filtrage passe-bas et passe-haut, suivi d’un sous-échantillonnage
(décimation). Comme on a pu le voir quand on a décrit l’algorithme pyramidal de décomposition,
l’opérateur d’analyse reste le même pour tout l’arbre de décomposition, donc on peut construire un
algorithme qui implémente l’opérateur d’analyse et qui est présenté dans l’organigramme suivant et
ensuite, on utilisera cet algorithme comme un objet. Dans cet organigramme, les variables d’entrée
sont :
- f, qui représente le sous-espace du signal au niveau l et au nœud n;
- h, g, les coefficients des filtres passe-bas et passe-haut;

Organigramme d’opérateur
d’analyse DEBUT
Sous-espace f défini
hi gi
sur Il,n
Filtrage Filtrage
Convolution passe-bas Convolution
passe-haut
Décimation Décimation
Approximation de f Détail de f
2 sous-espaces définis sur:

-Il+1,2n -l’approximation de f
-Il+1,2n+1 -le détail de f
FIN
Figure 5.11. L’organigramme pour les opérations de filtrage et décimation
Les opérations sont celles décrites dans le sous-chapitre V.2.3: convolution entre les
coefficients h (g) et les coefficients situés à la position (l,n) dans l’arbre de décomposition et la
décimation, qui de point de vue informatique, peut être réalisée de la manière suivante:
Opérateur de décimation de point de vue informatique
Soit (x)i=0,...,N-1 un vecteur et soit y le vecteur obtenu par

décimation.
Alors,
y(i)=x(2i), où i=0,...,[(N-1)/2]
si on sélectionne les termes pairs, et
y(i)=x(2i+1), où i=0,...,[(N-1)/2]
si on sélectionne les termes impairs.
Remarque
En pratique, on utilise les termes impairs
Après avoir ces deux opérations, on obtient deux vecteurs de longueur N/2 qui sont mémorisé
dans la matrice PO aux positions Il+1,2n et Il+1,2n+1 . Maintenant, on élabore l’organigramme pour la
décomposition, à partir de l’algorithme pyramidal. Celui-ci est un algorithme récursif, donc on aura
besoin d’une fonction récursive (la plus utilisée est ‘’for’’).
Organigramme d’algorithme
pyramidal de décomposition
DEBUT
N-niveau de
Signal f avec une hhii gi
décomposition
longueur L
Initialisation de la matrice
PO: chaque POl,n =0
N Dim(PO)=LxN
PO0,: =f;
Ecriture dans la matrice PO(Il+1,2n ) Opérateur d’analyse

PO(Il+1,2n+1)
n=n+1
PO(Il,n )
OUI
NON l
if n!=2 -1
l=l+1
OUI
N if l !=N
NON
Sortie: la matrice contenant
les coefficients de la
Résultat décomposition
FIN
Commentaires
Dans cet organigramme les variables d’entrée sont:

- f - le signal de taille L qui sera analysé;
- h, g - les filtres nécessaires pour l’opérateur d’analyse;
- N - le niveau maximal de décomposition souhaité.
On a utilisé quelques notations: ‘’PO0,:=f’’; qui signifie que dans la première ligne de la
matrice on introduit le signal f, ‘’l!=N’’ est équivalent à ‘’l différente de N’’, ‘’dim(PO)’’ représente
la dimension de la matrice. De plus, avec des lignes en trait épais on a symbolisé le tracé des sous-
espaces.
A.1.2. L’implémentation de la procédure pour sélection de la meilleure base
Ce sous-chapitre on présente l’organigramme de l'algorithme du choix la meilleure base qui a

été présenté au sous-chapitre 5.4.3. D’un point de vue informatique, on divise l’algorithme en deux
parties :
I. On calcule l’entropie de chaque localisation et on met cette valeur dans le vecteur Coût à la position
correspondante (l,n).

II. On compare la valeur de l’entropie du nœud père (Coût père) à la somme (Coût enfants) des entropies
des nœuds enfants. Si Coût père<Coûtenfants, mark=0 et les coefficients de la décomposition qui
correspondent au nœud père seront retenus dans la meilleure base. Sinon, mark=0.
Pour évaluer l’entropie au sens Shannon de (voir le sous-chapitre 5.4.3) de chaque
sous-espace on peut suivre l’algorithme décrit par l’organigramme présentée sur la figure suivante
Organigramme pour le Evaluation de l’entropie de PO(Il,n) k=2l+n
calcul de l’entropie DEBUT N
( n +1 )
2l
$ (k ) = − ∑
2 2
Cout POl , n ( j ) log POl , n ( j )
N
Initialisation j =n +1
Matrice PO qui contient la 2l
l=0;n=0 décomposition
PO(Il,n ) n=n+1
OUI
NON l
if n!=2 -1
l=l+1
(l,n) OUI
if l !=N
NON
On envoie le vecteur Coût Coût(k)
Coût Ecrit dans le
vers l’algorithme de choix
de la meilleure base vecteur Coût
FIN
Comme on peut voir sur cet organigramme, de point de vue informatique, pour choisir la
meilleure base on suite l’algorithme suivant:
* On introduit comme variable d’entrée le vecteur Coût qui contient les valeurs de l’entropie
de chaque localisation issue par la décomposition (toutes les approximations et les détails du signal).
* On définit le vecteur MB qui contiendra les valeurs booléennes mark(k); une telle valeur
montre si les coefficients correspondants à la localisation (l,n) appartiennent ou pas à la meilleure
base. MB est initialisé à zéro.
* On introduit et initialise un vecteur local ‘’Val’’ qui contient les valeurs de coût qui résulte
par l’application de la méthode pour sélectionner la meilleure base.
* On développe l’algorithme récursif:
- on aura une boucle ‘’FOR’’ en fonction de l - le niveau de décomposition; et une
autre en fonction de n - l’atome (le nœud) numéro ‘’n’’ sur le niveau l.
- à chaque itération on compare le Coût père et le Coût enfants; en fonction du résultat de
cette comparaison, on évalue:
Val(2l+n)=Coût père; mark(2l+n)=0, si Coûtpère<Coûtenfants.
En fait, par cette opération, on a retenu les coefficients correspondant au nœud père, qui sont
caractérisés par une entropie plus petite que l’entropie des coefficients qui correspondent aux nœuds
enfants.
Sinon, on met Val(2l+n)=Coût enfants; mark(2l+n)=1.
La valeur ‘’Val(2l+n)’’ sera nécessaire pour l'itération suivante (plus précisément, pour
calculer le Coût enfant).
* A la sortie, on obtient les valeurs de ‘’mark’’ qui se trouvent dans le vecteur MB; les valeurs
0 correspondent aux nœuds qui pointent vers les coefficients de la meilleure base. La sortie est
validée quand la boucle principale (en fonction de l) est finie (la branche NON).
Organigramme
La sélection de la
meilleure base DEBUT
Initialisation Initialisation Initialisation Initialisation

Le vecteur Coût qui
MB l=0 n=0 Val=Coût
contient l’entropie
NON if l !=N
OUI
l=l+1
if n!=2 l-1 NON
OUI
n=n+1
Calcul de:
-Coût père=Cout(2l+n) Coût(2l+n)
-Coût enfants=Val(2l+1+2n)+
+Val(2l+1+2n+1)
NON OUI
if Coût père <Coûtenfants
Val(2 l+n)=coût père MB(2l+n)=1 MB(2l+n)=0 Val(2 l+n)=coût enfants
Ecrit dans le vecteur MB les valeurs

successifs de la variable mark
Sortie
La meilleure
base
FIN
A.1.3.L’implémentation de la procédure de reconstruction
Après le choix de la meilleure base on peut faire le traitement souhaité (compression,

débruitage) dans la meilleure base et ensuite il est nécessaire de faire la reconstruction à partir des
coefficients de la meilleure base modifiés en fonction du traitement appliqué. Comme on a vu dans le
sous-chapitre 5.4.4, l’algorithme de reconstruction est aussi pyramidal mais il faut partir du dernier
niveau de décomposition en ne tenant compte que des coefficients de la meilleure base. Dans ce sens
on a introduit l’opérateur de synthèse qui répète les opérations de la fonction d’analyse. Dans
l’organigramme suivant on montre quelle est la forme de l’opérateur de synthèse, du point de vue
informatique. On définit l’opérateur d’interpolation:
Opérateur d’interpolation de point de vue informatique
Soit (x)i=0,...,N/2 un vecteur et soit y le vecteur obtenu par

interpolation.
Alors,
y(i)=x(i), si i=2k+1, k=0,...,N/2
y(i)=0, si i=2k, k=0,...,N/2
Donc, la taille de y sera N.
Organigramme de l’opérateur
de synthèse DEBUT
Coefficients du Coefficients du
hi nœud (l+1,2n) nœud (l+1,2n+1)
gi
Interpolation Interpolation
Convolution Convolution
Coefficients Somme Coefficients

filtré passe-bas vectorielle filtré passe-
Coefficients du
nœud (l,n)
FIN
Pour la reconstruction, on applique cet opérateur pour tous les coefficients de la meilleure
base, à partir du dernier niveau de décomposition. Donc, l’algorithme sera récursif, mais la boucle en
fonction de l commencera de l=N-1.
Commentaires
Les données d’entrée sont: la matrice de décomposition PO et le vecteur MB qui est issu de
l’algorithme de sélection de la meilleure base. Ensuite, on introduit une fonction de type
INPUT/OUTPUT qui permet de modifier les valeurs de la PO en concordance avec les modifications
qui apparaîtront dues à l’opérateur de synthèse. A chaque itération on teste si la valeur MB du nœud
(l,n) est 1. C’est-à-dire on teste si le nœud est terminal ou pas. Si MB(2l+n)=1 le nœud est non
terminal, donc on applique l’opérateur de synthèse pour ses nœuds enfants. Sinon, on passe au nœud
immédiatement suivant, dans le même niveau de décomposition.
Comme on a déjà remarqué, l’algorithme commence au niveau N-1 et la procédure présentée
nous assure que les nœuds traités sont ceux de la meilleure base. Quand l=0, n sera aussi 0, et ceci
correspond à la première ligne de la matrice qui ne sera que le signal reconstruit.
Organigramme
d’algorithme pyramidal de
synthèse DEBUT
Initialisation
l=N-1; Matrice POl,n Vecteur MB
n=0
Ecrit/Lire dans/de la
matrice PO
l n
NON if l !=0
OUII
l=l-1
NON
if n!=2 l-1
OUII
n=n+1
NON OUII
if MB(2l+n)=1
PO(Il+1,2n ) PO(I l+1,2n+1 )
Opérateur de synthèse
PO(I0,0)
PO(Il,n )
Signal reconstruit
FIN

Implémentation des décomposition un paquets d'ondelettes

invariante par translation (DPOIT)
Dans les sous-chapitres antérieurs, on a démontré les propriétés d’invariance du point de vue
mathématique et une méthode d’obtenir l’invariance en temps a été déployée.
Après la décomposition et le choix de la meilleure base, on peut faire la reconstruction. On
utilise les sous-espaces du signal, dans la meilleure base déterminée par algorithme présenté dans le
sous-chapitre antérieur. Du au fait qu’on ne peut pas savoir, avant de faire la décomposition, quels
sont les sous-espaces retenus dans la meilleure base, il faut mémoriser tous les bases orthonormales
qui se trouvent dans la libraire étendue d’ondelettes. Néanmoins, on va voir que cette solution
(proposée pas Israel Cohen) n’est pas applicable car l’espace mémoire nécessaire est très grand, et, la
gestion de cette mémoire augmentera le temps de calcul. On propose, donc, une autre méthode (qui
respecte la théorie présentée) mais qui est plus adaptée pour l’application pratique.
La décimation
Dans le cas de la décomposition en paquets d’ondelettes classique la décimation ne prend en

compte que les termes impairs. Dans le cas de la DPOIU, on introduit la notion de Sous-
Echantillonnage adaptatif.
Soit {Ck }k=1,...,N une séquence numérique qui sera décimée adaptativement et soit {Dk}k=1,...N/2
la séquence qui résultera après cette opération (on a supposé que N est paire; sinon, on introduit un
zéro pour avoir une longueur paire). On a deux cas:
I. Dk=C2k, k=1,.....,N/2 si on a sélectionné les termes paires.
II.Dk=C2k-1, k=1,.....,N/2 si on a sélectionné les termes impaires.
Pour la sélection de la meilleure base, on peut utiliser plusieurs critères: l’entropie au sens de
Shannon, le MDL(Minimum Description Length), le Kurtosis etc. On utilisera, pour décrire la
procédure, l’entropie au sens de Shannon.
Pour choisir parmi les termes paires ou impaires, on évalue l’entropie de la séquence C2k
(EN2k) et l’entropie de la séquence C2k-1 (EN2k-1 ). Si EN2k<EN2k-1 , Dk=C2k; sinon,Dk=C2k-1.
Pour pouvoir utiliser les fonctions qui ont été définies pour les paquets d’ondelettes, (donc
pour être compatible avec l’environnement Wavelab) et pour faire un sous-échantillonage adaptatif,
on utilise la séquence initiale et la séquence décalée d’une position et on applique la même procédure
que pour la décimation classique pour les deux séquences. En fait, on fait ce que nous avons présenté,
parce que par décalage circulaire d’une position, les termes qui étaient impairs deviennent les termes
paires. On montre ceci sur l’exemple suivant:
Soit x=[2 3 1 4 3 4 2 1] . Les termes pairs sont {3,4,4,1} et les termes impairs sont {2,1,3,2}.
Par la décimation classique utilisée pour les paquets d’ondelettes classique on obtient:
Dimpaires=[2 1 3 2].
Si on fait un décalage circulaire d’une position vers la droite; on obtiendra
xdécalé=[1 2 3 1 4 3 4 2] ; ici, les termes pairs sont {2,1,3,2} et les termes impairs sont {1,3,4,4}. On a
obtenu les termes impairs (pairs) qui, pour la séquence initiale étaient les termes paires(impaires),
mais l’ordre n’est pas le même.
Finalement, si on applique la même fonction de décimation, on choisit les termes paires du
signal initial. On obtiendra:
Dpaires=[1,3,4,4].
Remarque
Soit x un certain signal. On appellera le décalage circulaire de x d’une position la version
décalée de x.

Sous-échantillonage adaptatif
Soit (C k) k=0,..,N le signal issu par filtrage passe-bas(passe-haut). Soit
(Dk) le signal résulté de la décimation adaptative.
On note Ck’ la version décalée de Ck.
Si Entropie(C’2k-1 )<Entropie(C2k-1 ), k=1,...,N/2
Dk=C’2k-1 → on a choisi les termes pairs
Sinon
Dk=C2k-1 → on a choisi les termes impairs
Dans le sous-chapitre 5.5., pour obtenir l’invariance en temps, on a introduit un nouveau degré
de liberté qui modifie la localisation en temps des fonctions de base. La décomposition en paquets
d’ondelettes classique décompose, à chaque niveau, chacune des nœud en deux nœuds enfants: le
nœud enfant gauche représente la version filtrée passe-bas et décimée, par la délection des termes
impaires du nœud père, et le nœud enfant droit représente la version filtrée passe-haut et décimée de
la même façon. Dans le cas de la décomposition invariante en temps on fait la même décomposition,
mais on décompose également la version décalée du signal qui correspond au nœud père. Ensuite, on
applique la procédure de sous-échantillonage adaptatif.
L’algorithme d’analyse sera toujours pyramidal, mais l’opérateur d’analyse ‘’A’’ sera
diffèrent : cette fois-ci il s'agit d'un sous-échantillonage adaptatif.
A x
H(z) H(z) xd G(z) G(z)
↓2
↓2 ↓2
↓2 ↓2
↓2 ↓2
↓2
x dh x dg xg
xh
Entropie(xh ) Entropie(xdh ) Entropie(xdg ) Entropie(xg )
+
+ EN d
Comparaison
Si ENd >EN → r=0
Validation ENd Validation
Si ENd <EN → r=1
si r=1 r si r=0
OU
xdh xdg xh xg
Opérateur d’analyse (A)
signal original
A A
A A A A
Figure 6.3. L’algorithme pyramidal de décomposition en paquets d’ondelettes
invariante en temps
L’opérateur d’analyse implémente la procédure suivante:
1. On décale le signal x d’une position et on obtient x d .
2. On filtre et on décime x et x d , et on obtient x h ,xg (correspondant au signal initial x) et x dh , xdg

(correspondant à la version décalée du signal x d ).
3. On calcule EN=Entropie(x h )+Entropie(x g ) et ENd=Entropie(xdh )+Entropie(xdg ).
4. On compare EN et End :
- si EN<EN d, r=0 et l’approximation de x sera x h et le détail sera x g ;
- si EN>EN d, r=1 et l’approximation de x sera x dh et le détail sera x dg .
On peut observer que l’opérateur d’analyse est plus compliqué que l’opérateur d’analyse
classique. L’implémentation de cet opérateur permet l’optimisation du logiciel qui sera développé.
Dans l’algorithme précèdent on a introduit l’indice ‘’r’’ qu’on va l'appeller ‘’l’indice
d’invariance relatif’’ et qui est défini de la manière suivante :
- si on a choisi les termes pairs: r=1
- sinon, r=0.
A la reconstruction, on utilise les coefficients dans la meilleure base et les indices r
correspondant.
Les notations nécessaires pour élaborer les organigramme spécifiques à la décomposition
invariante en temps sont les mêmes que celles utilisées pour décrire la décomposition en paquets
d’ondelettes classique. On a en plus besoin des notations suivantes:
- af - l’approximation du signal f;
- df - le détail du signal f;
- fd - la version décalée circulairement de f;
- fh - la version du signal f filtrée passe-bas et puis décimée par la sélection des termes impaires;
- fg - la version du signal f filtrée passe-haut et puis décimée par la sélection des termes impaires;
- fhd - la version du signal fd filtrée passe-bas et décimée de la même manière;
- fgd - la version du signal fd filtrée passe-haut et décimée de la même manière;
- ent(x) - l’entropie du signal x, où x peut être: fh, fg, fhd, fgd.
- r - l’indice d’invariance relatif correspondant à chaque sous-espace du signal;
En conséquent, l’opérateur d’analyse, du point de vue informatique, présenté ci-dessus,
réalise, par rapport à l’opérateur classique, plusieurs fonctions:
→ le calcul de l’entropie pour chaque sous-espace du signal (ent(af) et ent(df)), les
valeurs qui seront utilisées pour sélectionner la meilleure base.
→ on génère les valeurs des indices d’invariance relatifs, qui seront utilisés pour la
reconstruction;
→ on ne retient que les coefficients filtrés passe-bas et passe-haut qui ont, ensemble,
une entropie minimale. On applique cet opérateur récursivement, et on voit que l’entropie des
coefficients dans la meilleure base est minimale et constante sans tenir compte de la position
temporelle du signal. Il n’est pas nécessaire de retenir toute la librairie étendue d’ondelettes; donc, on
peut utiliser la même matrice que pour la décomposition classique.
L'inconvénient de la décomposition en paquets d’ondelettes invariante en temps est que le
temps de calcul est plus important que celui de la décomposition classique, à cause du test du
décalage. Mais le fait qu’il n’est pas nécessaire de retenir toute la libraire étendue et le fait qu'on peut
calculer encore dans cette phase les valeurs de l’entropie nous permettent d’optimiser le code.

Organigramme de l’opérateur
d’analyse
pour la décomposition
DEBUT
invariante en temps
Sous-espace f défini
hi gi
sur Il,n
Décalage circulaire
fd[n]=f[n-1]
fd
Convolution Convolution Convolution Convolution
Décimation Décimation Décimation Décimation

y(i)=x(2i-1) y(i)=x(2i-1) y(i)=x(2i-1) y(i)=x(2i-1)
fh fhd fgd fg
Calcul Calcul Calcul Calcul
Ent(fh) Ent(fhd) Ent(fgd) Ent(fg)
ENd=Ent(fhd)+Ent(fgd)
Ent - entropie évaluée par
la relation ci-dessus
EN=Ent(fh)+Ent(fg)
Ent - entropie évaluée par
la relation ci-dessus
∆E=EN-EN d
OUI NON
Si ∆E<0
af=fh EN(af)=Ent(fh) r(af)=0 r(af)=1 EN(af)=Ent(fhd) af=fhd

df=fg EN(df)=Ent(fg) r(df)=0 r(df)=1 EN(df)=Ent(fgd) df=fgd
Sortie Sortie Sortie

EN(af) et EN(df) r(af) et r(df) af et df
Figure 6.4. L’organigramme pour l’opérateur d’analyse
de la décomposition invariante
Formule pour évaluer l’entropie Significations des variables:

FIN - fd - la version décalée du signal f
∑x
2 2
Ent(x)= − i log xi - af - l’approximation du signal f
- df - le détail du signal f
af et df sont définis sur les intervalles Il+1,2n
et Il+1,2n+1

pyramidal de décomposition
invariante en temps
DEBUT
N-niveau de
décomposition Signal f de longeur L hhi i gi
Initialisation de la matrice
N PO: chaque POl,n =0
Dim(PO)=LxN
PO0,: =f;
PO(Il+1,2n) Opérateur d’analyse

Ecriture/Lecture dans/de la
matrice pour la décompositione
PO(Il+1,2n+1) invariante en temps
n=n+1
PO(Il,n )
OUI
NON
if n!=2 l-1
(l,n)
l=l+1
OUI
N if l !=N
l+1 l+1
Coût(2 +2n)=EN(POl+1,2n ) r(2 +2n)=r(POl+1,2n)
NON l+1
Coût(2 +2n+1)=EN(POl+1,2n+1 )
l+1
r(2 +2n+1)=r(POl+1,2n+1 )
La matrice
PO
Sortie Sortie Sortie

La matrice de décomposition Le vecteur Coût pour la Le vecteur r pour la
PO sélection de la MB reconstruction
FIN

L’algorithme pour la sélection de la meilleure base sera le même comme celui dans le cas de
décomposition en paquets d’ondelettes classique, puisqu’on a retenu, dans la phase de décomposition,
les sous-espaces du signal qui présentent les plus petites valeurs de l’entropie. On nous garantit que la
meilleure base trouvée sera invariante en temps.
Après le traitement souhaité, on peut faire la reconstruction. L’algorithme de synthèse
ressemble à l’algorithme de synthèse classique, mais, l’opérateur de synthèse sera différent parce
qu’il doit tenir compte des indices d’invariance relatifs. Donc, l’algorithme de synthèse sera:
S x
K1 K3
+
K2 K4
-D -D
H’(z) G’(z)
↓2 ↓2
↑2 Si r(ax)=r(dx)=0 →K1, K3 -fermés ↑2
K2, K4 -ouverts
Si r(ax)=r(dx)=1 →K1, K3 -ouverts
K2, K4-fermés
ax dx
r(ax)=r(dx)
Opérateur de synthèse (S)
Signal original
reconstruit
S
S S
(da0 ,da1 ) (ad0 ,ad1 )
S S
add ddd
aaa daa
Pour illustrer l’algorithme de synthèse, on prend le même exemple que celui utilisé pour
montrer l’algorithme de synthèse classique.. On peut voir que l’opérateur de synthèse utilise quatre
commutateurs qui sont commandés par la valeur du r:
− si r=0, les commutateurs K1 et K3 sont fermés (K 2 et K4 sont ouverts). r=0, c’est-à-dire
que ax (l’approximation du x) et dx (le détail du x) sont obtenus en appliquant l’opérateur
d’analyse invariante en temps sur le signal x.
− si r=1, la situation est inversée est c’est-à-dire que ax et dx sont obtenus en appliquant le
même opérateur sur la version décalée vers la droite de x. C’est pour cela qu’il faut faire
un décalage inverse (vers la gauche), par l’opérateur ‘’-D’’.
L’organigramme pour l’opérateur de synthèse est donné sur la figure antérieure.
Organigramme d’opérateur de
synthèse pour la
décomposition invariante en
temps DEBUT
Coefficients du r(2 l+1 +2n)= Coefficients du

hi gi
noeud (l+1,2n) r(2 l+1 +2n +1) noeud (l+1,2n+1)
Interpolation Interpolation
OUI NON
if r=0
Convolution Convolution
a
a(i)=a(i) d(i)=d(i) d
Coefficients Coefficients
filtré passe-bas filtré passe-haute
a(i)=a(i+1) d(i)=d(i+1)
Somme
vectorielle
Coefficients du
noeud (l,n)
FIN
Après la définition de l’opérateur de synthèse, on peut construire l’algorithme de

reconstruction, qui ressemble beaucoup à celui de la reconstruction classique; on introduit, en plus, le
vecteur r qui est nécessaire pour l’opérateur associé à l’algorithme invariant en temps.

pyramidal de synthèse pour la
décomposition invariante en
temps DEBUT
Initialisation
l=N-1; Matrice POl,n Vecteur r Vecteur MB
n=0
Ecrit/Lecture dans/de la
matrice PO
l n
NON if l !=0
OUII
l=l-1
NON
if n!=2 l-1
OUII
n=n+1
NON OUII
if MB(2l+n)=1
PO(Il+1,2n ) PO(I l+1,2n+1 )
Opérateur de synthèse l+1

r(2 +2n)
PO(I0,0) l+1
r(2 +2n+1)
PO(Il,n )
Signal reconstruit
FIN
Observations
1. On appelle les opérations associées à la décomposition en paquets d’ondelettes invariante en temps

par les noms donnés aux opérations associés à la décomposition classique accompagnés de
l’expression ‘’invariante en temps’’; par exemple,’’l’opérateur d’analyse invariante en temps’’.
2 Le vecteur r a la même forme que le vecteur MB et chaque valeur de ce vecteur correspond à un
certain nœud.

Carte - Representations Temps - Frequences ENSIETA

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Carte - Representations Temps - Frequences ENSIETA

Uploaded by

Copyright:

Available Formats

ENSIETA, BREST

CENTRE DE RECHERCHE "EXTRACTION ET EXPLOITATION DE

André QUINQUIS. Cornel IOANA

1.1. La notion de signal………………………………………………………………..1

2.1. Les concepts de base……………………………………………………………...5

2.2. La représentation du signal……………………………………………………...9

2.3. Rappel sur la théorie des matrices…..………………………………………….13

2.4. Rappel sur les variables et signaux aléatoires...……………………………….17

Exercices et problèmes ………………………………………………………………………24

3 Généralités sur les signaux non-stationnaires.…………………...…...27

3.1. Méthodes de base pour le traitement des signaux stationnaires..…………….27

3.2. Le concept de signal non-stationnaire…………………………....…………….34

3.4. Limitations de la transformée de Fourier….…………………....………….….42

Exercices et problèmes ………………………………………………………………………44

4 Représentations temps-fréquence linéaires.…. .……………….…..…46

4.1. Transformée de Fourier à court terme. Spectrogramme……....………….….46

4.2. La transformée de Gabor…………………………………...…....………….….52

4.3. La transformée ondelettes continue……………………...…....………….…....57

Exercices et problèmes ………………………………………………………………………68

5 Analyse multirésolution et paquets d'ondelettes.…....……………….70

5.1. Analyse multirésolution……....……………………………………………...….70

5.2. Les ondelettes et les bancs de filtres………………………………………...….82

5.3. Ondelettes biorthogonales…………………………………………………...….90

5.5. Analyse en paquets d'ondelettes invariante en temps……………………...106

Exercices et problèmes ……………………………………………………………………..113

6 Représentations temps-fréquence bilinéaires…..…....……………...116

6.1. La transformée de Wigner-Ville…………………………………………….116

6.2. La transformée de Pseudo Wigner-Ville……………………………………128

6.3. La classe de Cohen………………………………………………...…………133

6.4. Le noyau gaussien adaptatif……………………………………...…………148

Exercices et problèmes ……………………………………………………………………..154

7 Représentations temps-fréquence modernes…..…....……………...157

7.5. Résultats exprerimentaux…………………………….………...……………166

ANNEXE 1. Implémentation des décompositions en paquets d'ondelettes……………………….171

1.1. La notion de signal

1.2. Structure d'une chaîne de traitement

Etats Signaux Observables

Figure 1.1. Le schéma général d'une chaîne de traitement

1.3. Place de la discipline "Analyse temps-fréquence"

ENSIETA, Janvier 2002 2

1.4. Organisation de cet ouvrage

Le troisième chapitre, "Les représentations temps-fréquence linéaires", est structuré en

ENSIETA, Janvier 2002 4

2.1. Les concepts de base

2.1.1. La norme et le produit scalaire [1]

La notion de convergence en H [1]

ENSIETA, Janvier 2002 5

dit que {x n } converge vers x si x − x n H

2.1.2. Les espaces de Hilbert [2]

A. L'espace des fonctions absolument intégrables

B. L'espace des fonctions à énergie finie

C. L'espace des fonctions à énergie finie périodiques

Parfois, il est souhaitable d'utiliser une T-périodisation d'un signal f, ∑ f (t + nT ) . Par

D. L'espace des fonctions concentrées en temps et en fréquence

E. L'espace des séquences d'énergie finie

et le produit scalaire de c, d ∈ l 2 (Z) vaut c, d = ∑ cn d * n .

F. L'espace des fonctions de bande limitée (l'espace de Paley et Wiener)

2.1.3. Rappel sur la théorie des opérateurs linéaires [3]

ENSIETA, Janvier 2002 7

2.1.4. Bases des fonctions dans un espace de Hilbert [1,2]

8. Supposant une autre séquence {ψ n } en H, {ψ n } et {φ n } sont bi-orthogonales si ψ m ,φ n = δ m, n .

2.2. La représentation du signal

La théorie de la problématique des décompositions (2.17), supposent initialement le cas des