Professional Documents
Culture Documents
CodageMPEG AudioMasterIAD
CodageMPEG AudioMasterIAD
1
Plan
• Introduction
• MPEG - 1
• MPEG – 2
• MPEG – 4
• Conclusion
Qualité
Débit Complexité
Canal
Filtre de
Décodeur
reconstruction
1/Fe
NQ N canaux
t
1/Fe
NQ
t
1/Fe
Y.Grenier, G. Richard, Master IAD, mars 2005
7
Quelques exemples de débits
– Production (Studio):
Fech = 48 kHz ; NQ = 16 à 24 bits ; Mono/Stéréo/…
Débit = 768 kbit/s à 2,3 Mbit/s
– Diffusion:
Fech = 32 kHz ; NQ = 14 à 16 bits ; Mono/Stéréo
Débit = 448 kbit/s à 1 Mbit/s
– Téléphone (Studio):
Fech = 8 kHz ; NQ = 12 bits ; Mono
Débit = 96 kbit/s
– Compact Disc:
Fech = 44.1 kHz ; NQ = 16 bits ; Stéréo
Débit = 1.4 Mbit/s
Distribution des
fréquences dans la
cochlée
• Seuil d ’audibilité
Diagramme de Fletcher
|A| |A|
Fréquences Fréquences
fc fc
Bark
Y.Grenier, G. Richard, Master IAD, mars 2005
15
Bandes critiques juxtaposées
Barks Fréq. centr. [Hz] Larg. bande [Hz] Fréq. super. [Hz]
1 50 - 100 100
2 150 100 200
3 250 100 300
4 350 100 400
5 450 110 510
6 570 120 630
7 700 140 770
8 840 150 920
9 1000 160 1080
10 1170 190 1270
11 1370 210 1480
12 1600 240 1720
13 1850 280 2000
14 2150 320 2320
15 2500 380 2700
16 2900 450 3150
17 3400 550 3700
18 4000 700 4400
19 4800 900 5300
20 5800 1100 6400
21 7000 1300 7700
22 8500 1800 9500
23 10500 2500 12000
24 14000 4000 16000
0H
H1 H2 H3 H4 H5 H6 H7 H8 H9
kHz
Freq. (kHz)
Y.Grenier, G. Richard, Master IAD, mars 2005
18
Masquage temporel
Pré- Simultané
masquage Post- masquage
Son
masquant
ms
Masqueur tonal
Masqueur de bruit
dB
Hz
5 000 10 000
Débit:
32 kbit/s ➡ 448 kbit/s
Trame MPEG
Normalisé
Canal Audio
Codeur Décodeur
Audio PCM
Fech = 32, 44.1, 48 kHz
Mono, Double Mono, Stéréo, joint stéréo
Codec
Y.Grenier, G. Richard, Master IAD, mars 2005
23
MPEG I: Les couches (« layers »)
• Définissent un degré de complexité du codeur et du décodeur
• visent des applications spécifiques
M
U
Trame
X MPEG
FFT Modèle
audio
Allocation dynamique
Couche 1: 512 points psychoacoustique des bits
Couche 2: 1024 points
E
Trame
MPEG M
audio
U
X
Allocation binaire
Layer 1:
info principale = 32 x 12 échantillons = 384 PCM échantillons = 8 ms à 48 kHz
Layer 2:
info principale = 32 x 36 échantillons = 1152 PCM échantillons = 24 ms à 48 kHz
Y.Grenier, G. Richard, Master IAD, mars 2005
27
Codeur MPEG1- couche 3: « MP3 »
Quantification /
facteurs d ’échelles
S(n) Banc de filtres Allocation dynamique
32 MDCT
32 sous-bandes Code de Huffman
32
M
U
Trame
Modèle X MPEG
audio
FFT psychoacoustique
1024 points Fenêtrage dynamique
E
Trame
MPEG M
audio
U
X
Allocation binaire
Gestion des fenêtres
Débit:
32 kbit/s ➡ 448 kbit/s
(multicanaux) ➡ 1130 kbit/s
Trame MPEG
Normalisé
Canal Audio
Codeur Décodeur
Audio PCM
Fech = 32, 44.1, 48 kHz
Fech (LSF) = 16, 22.05, 24 kHz
Mono, Double Mono, Stéréo
Multicanaux (5+1)
Codec
Y.Grenier, G. Richard, Master IAD, mars 2005
31
MPEG 2 - LSF : intérêt
16 22,05 24
1 24 ms 17,4 ms 16 ms
2 72 ms 52,24ms 48ms
3 36 ms 26,12 ms 24ms
Center
Left Right
Surround Surround
Left Right
L M E
T0=L0
A N Trame MPEG II
R compatible MPEG 1
T T1=L1 C
C R O
I T2
D
Ls C A
A T3
G
Rs G E
E T4
Débit:
8 kbit/s ➡ 576 kbit/s par canal
Trame MPEG
Normalisé
Canal
Codeur Décodeur
Audio PCM
Fech = 9 – 96 kHz Qualité transparente à 320 kbit/s
Mono, Double Mono, Stéréo
Multicanaux : 1 à 48 canaux Pour 5 canaux !!
Codec
Y.Grenier, G. Richard, Master IAD, mars 2005
38
MPEG 2 -AAC
• Objectif:
– Atteindre des débits plus faibles (< 384 kbit/s) pour
le codage de 5 canaux audio
– La compatibilité avec MPEG-1 pas nécessaire
– Offrir un ensemble de profils pour répondre à des
applications multiples
– Main profile
– Procure la meilleure qualité audio à un débit donné
– Utilise tous les modules de AAC (sauf le contrôle de gain)
– Complexité et mémoire importantes
Temporal
S(n) Banc de Noise Couplage/ Prédiction
Prétraitement
Filtres Shaping Intensité adaptative
MDCT (TNS)
M/S
Stéréo
Modèle
psychoacoustique
Quantification /
Facteur d ’échelle
Control
itératif
Codage
Huffman
MUX
Y.Grenier, G. Richard, Master IAD, mars 2005
41
MPEG 2 - AAC performances
• SASL (partition)
– Tempo, battements
– Instruments, exemple:
• 0.25 tone 4.0
• 4.50 end
• SAOL (langage)
– Permet de définir (programmer) les instruments
• ivar: échelle de tempo des notes (def: 1s)
• ksig: échelle de temps des attaques… (def: 100 Hz)
• asig: échelle de temps des échantillons (def: 32 kHz)
• Codage audio
– de 6 kbit/s (HILN) à 64 kbit/s (AAC) par canal
– inclut AAC
– échelonnabilité des codeurs (débit et fréquences)
– Faible retard (MPEG-4, version 2)
– Speech
• codeur parole bas débits et TTS
– Synthesis
• synthèse par tables d ’ondes
• synthèse à partir de scores
• TTS
– Scalable
• codeurs de parole
• codeurs audio
• tous les codeurs en configuration échelonnable
– Main
• tous les outils