04 声音编码压缩技术

声音编码压缩技术
学习目标
 了解声音信号的特点、存储格式及质量的度量方法
 理解音频压缩方法及音频编码标准
Page: 1
1 音频信息处理基础
声音是通过空气传播的一种连续的波，叫声波。声音用
电表示时，信号在时间和幅度上都是连续的模拟信号。
1.1 音频信号的特点
(1) 音频信号的分类
音频信号可分为两类：语音信号和非语音信号。
语音信号是语言的载体，是人类进行信息交流所特有的形式。
非语音信号主要包括音乐和自然界存在的其他声音形式。非语
音信号的特点是不具有复杂的语义和语法信息，信息量低。
Page: 2
(2) 声音的频谱
声音的频谱有线性频谱和连续频谱之分。线性频谱是具有周
期性的单一频率声波；纯粹的单一频率的声波只能在专门的
设备中创造出来，声音效果单调而乏味。连续频谱是具有非
周期性的带有一定频带所有频率分量的声波。自然界中的声
音全部属于具有广泛的频率分量，听起来声音饱满、音色多
样且具有生气。
(3) 声音的 A/D 与 D/A 转换

A/D 转换就是把模拟信号转换成数字信号的过程。数字化的
声音使计算机能够进行识别、处理和压缩。声音存储质量
得到了加强。
Page: 3
1.2 模拟音频的数字化过程 ( 略 )
模拟音频数字化过程涉及到音频的采样、量化和编码。
采样和量化的过程可由 A/D 转换器实现。 A/D 转换器以固
定的频率去采样，即每个周期测量和量化信号一次。经采样和
量化后声音信号经编码后就成为数字音频信号，可以将其以文
件形式保存在计算机的存储介质中，这样的文件一般称为数字
声波文件。
100101100011101
模拟信号的数字化过程
Page: 4
1. 采样
(略 )
信息论的奠基者香农（ Shannon ）指出：在一定条件下，用
离散的序列可以完全代表一个连续函数，这是采样定理的基本
内容。
为实现 A/D 转换，需要把模拟音频信号波形进行分割，这
种方法称为采样 (Sampling) 。采样的过程是每隔一个时间间隔
在模拟声音的波形上取一个幅度值，把时间上的连续信号变成
时间上的离散信号。该时间间隔称为采样周期，其倒数为采样
频率。采样频率是指计算机每秒钟采集多少个声音样本。
采样频率与声音频率之间有一定的关系，根据奈奎斯
特（ Nyquist ）理论，只有采样频率高于声音信号最高频率
的两倍时，才能把数字信号表示的声音还原成为原来的声音。
fs  2f
Page: 5
2. 量化 ( 略 )
采样只解决了音频波形信号在时间坐标 ( 即横轴 ) 上把一
个波形切成若干个等分的数字化问题，但是还需要用某种数字
化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小
影响音量的高低。我们把对声波波形幅度的数字化表示称之为
“量化”。
量化的过程是先将采样后的信号按整个声波的幅度划分成有
限个区段的集合，把落入某个区段内的样值归为一类，并赋于
相同的量化值。如何分割采样信号的幅度呢 ? 我们还是采取二
进制的方式，以８位 (bit) 或 16 位 (bit) 的方式来划分纵轴。也
就是说在一个以 8 位为记录模式的音效中，其纵轴将会被划分
为个量化等级，用以记录其幅度大小。
Page: 6
以下图所示的原始模拟波形为例进行采样和量化。假设采样
频率为 1000 次 / 秒，即每 1/1000 秒 A/D 转换器采样一次，其幅
度被划分成 0 到9 共 10 个量化等级，并将其采样的幅度值取最
接近 0~ 9 之间的一个数来表示，如下图所示。图中每个正方形
表示一次采样。
Page: 7
D/A 转换器从上图得到的数值中重构原来信号时，得到下
图中蓝色 ( 直线段 ) 线段所示的波形。从图中可以看出，蓝色
线与原波形 ( 红色线 ) 相比，其波形的细节部分丢失了很多。
这意味着重构后的信号波形有较大的失真。
Page: 8
失真在采样过程中是不可避免的，如何减少失真呢？可
以直观地看出，我们可以把上图中的波形划分成更为细小的区间，
即采用更高的采样频率。同时，增加量化精度，以得到更高的量
化等级，即可减少失真的程度。在下图（左）中，采样率和量化
等级均提高了一倍，分别为 2000 次 / 秒和 20 个量化等级。在下
图（右）中，采样率和量化等级再提高了一倍，分别达到 4000
次 / 秒和 40 个量化等级。从图中可以看出，当用 D/A 转换器重构
原来信号时（图中的轮廓线），信号的失真明显减少，信号质量
得到了提高。
Page: 9
3. 编码 ( 略 )
模拟信号量经过采样和量化以后，形成一系列的离散信
号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行
编码，形成计算机内部运行的数据。所谓编码，就是按照一定
的格式把经过采样和量化得到的离散数据记录下来，并在有用
的数据中加入一些用于纠错、同步和控制的数据。在数据回放
时，可以根据所记录的纠错数据判别读出的声音数据是否有错，
如在一定范围内有错，可加以纠正。
编码的形式比较多，常用的编码方式是 PCM—— 脉冲调制。
脉冲编码调制（ PCM ）是把模拟信号变换为数字信号的一种
调制方式，即把连续输入的模拟信号变换为在时域和振幅上都
离散的量，然后将其转化为代码形式传输或存储。
Page: 10
1.3 数字音频的文件格式
存储音频信息的文件格式主要有： WAV 、 MP3 文件等。
(1) WAV 文件
WAV 文件又称波形文件，是对声音模拟波形的采样。 WAV 文件由文件头
和文件数据块组成。文件头包括标志符、语音特征值、声道特征以及
PCM 格式类型标志等。 WAV 格式支持多种压缩算法，多种音频位数、
采样频率和声道，但其文件尺寸较大，多用于存储简短的声音片断。
未压缩声音的数据量可用下式计算：
数据量（ KB ） = （采样频率 KHz× 采样位数 bit× 声道数 × 时间
秒） /8
(2) MPEG 音频文件—— .MP1/.MP2/.MP3
MP3 是 MPEG 标准中的音频部分，是一种有损压缩，根据压缩质量和编码复杂
程度的不同可分为三层 (MPEG Audio Layer 1/2/3) ，即 MP1 、 MP2 和 MP3 。
MPEG 音频压缩率很高， MP1 和 MP2 的分别为 4∶1 和 6∶1 ～ 8∶1 ，而 MP3 的

压缩率高达 10∶1 ～ 12∶1 。一分钟 CD 音质的音乐未经压缩 10MB ，压缩后
只有 1MB ，同时其音质基本不失真。
Page: 11
(3)VOC 文件
VOC 文件是 Creative 公司所使用的标准音频文件格式，多用于保存
Creative Sound Blaster( 创新声霸 ) 系列声卡所采集的声音数据， Windows 等
平台支持。
(4)AIFF 文件 (Audio Interchange File Format)
苹果公司开发的一种声音文件格式；被 Macintosh 平台及其应用程序所支持
。
(5)RealAudio 文件— .RA/.RM/.RAM
RealAudio 文件是 RealNetworks 公司开发的一种流式音频 (Streaming Audio)
文件格式，主要用于在低速网上实时传输音频信息；电话线路可以达到广播
级的声音质量；如果拥有更快的线路连接，则可获得 CD 音质的声音。
Page: 12
1.4 声音质量的评价
三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质
量，等级由高到低依次是数字录音带 DAT (48KHz) ， CD
(44.1KHz) ， FM (22.05KHz) ， AM (11.025KHz) 和数字电话 (8KHz) 。
第二种是信噪比，第三种是主观质量度量。
(1) 以带宽衡量声音的质量
Page: 13
（ 2 ）信噪比 (signal to niose ratio ， SNR) 指声音信号与噪音强度之间的比，
信噪比越高表示音频质量越好。
SNR ＝ 20 lg (Vsignal / Vnoise)
Vsignal 表示信号强度， Vnoise 表示噪声强度；单位为分贝 (dB) 。
分贝：以 20μPa 为基准，这是人耳能听到的最小的声音，大致相当于 3

米外的一只蚊子在飞。
(3) 声音主观质量的度量
与客观度量相比，人的感觉 ( 如听觉、视觉等 ) 更具有决定意义，通常

用 5 分制：优 (Excellent) 、良 (Good) 、中 (Fair) 、差 (Poor) 、劣
(Bad) ；但可靠的主观度量值是比较难获得的。
Page: 14
2.1 脉冲编码调制 (PCM)
(1)PCM 编码的原理
•波形编码：使重构语音信号的波形与原始信号波形尽量接近。
•概念上最简单、理论上最完善的编码系统，质量最好。
Page: 15
(2) 步骤：
第一步是采样，每隔一段时间间隔读一次声音的幅度；
第二步是量化，把采样得到的声音信号幅度归属到量化电平。量化
可归纳为两类：一类称为均匀量化，另一类称为非均匀量化。量化
方法不同量化后的数据量也不同。因此，可以说量化也是一种压缩
数据的方法；
第三步是编码，按一定格式记录采样和量化后的数据。
均匀量化 :
采用均匀的间
隔度量采样得
到的电平。
Page: 16
(3) 非均匀量化
大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。
这样就可以在满足精度要求的同时用较少的位数来表示。数据还原时
采用相同的规则。
Page: 17
• G.711 对输入信号幅度和输出数据之间定义：律压扩算法 (
美、日，  =255) ； A 律压扩算法 ( 中、欧， A=87.56) 。
ln(1   | x |)
 律压扩： F ( x)  sgn( x) 1  x  1
ln(1   )
A| x |
A 律压扩： FA ( x)  sgn( x) 0  |x|  1/A
1  ln A
1  ln( A | x |)
FA ( x)  sgn( x) 1/A  |x| 1
1  ln A
Page: 18
2.2 增量调制 (DM)
PCM 编码的变形，是一种预测编码技术。如果实际的采样信号与预测
信号之差极性为“正”，则用“ 1” 表示；相反则用“ 0” 表示。
• 增量调制器的输出不能跟踪输入信号的快速变化称为斜率过载。
• 在输入信号缓慢变化部分，输出交变的“ 0” 和“ 1” 。称为粒状噪
声 (granular noise) ，这种噪声是不可能消除的。
Page: 19
2.3 自适应脉冲编码调制（ APCM ）
• 根据输入信号幅度大小来动态改变量化阶大小的一种波形编
码技术。这种自适应可以是瞬时自适应，即量化阶的大小每
隔几个样本就改变，也可以是非瞬时自适应，即量化阶的大
小在较长时间才发生变化。
• 改变量化阶大小的方法有两种：前向自适应和后向自适应。
前者是根据未量化的样本值的均方根值来估算输入信号的电
平，以此来确定量化阶的大小，并对其电平进行编码作为边
信息 (side information) 传送到接收端。后者是从量化器刚
输出的过去样本中来提取量化阶信息。
Page: 20
前向自适应：
边信息
后向自适应：
Page: 21
2.4 差分脉冲编码调制 (DPCM)
 利用样本与样本之间存在的时间冗余度来进行编码的一
种数据压缩技术。
 DPCM 调制的思想：根据过去的样本去估算 (estimate)
下一个样本信号的幅度大小，这个值称为预测值，然后
对实际信号值与预测值之差进行量化编码，从而就减少
了表示每个样本信号的位数。
 DPCM 与 PCM 的不同： PCM 是直接对采样信号进行
量化编码，而 DPCM 是对实际信号值与预测值之差进
行量化编码，存储或者传送的是差值而不是幅度绝对值
。
Page: 22
差分信号 d(k) 是离散输入信号 S(k) 和预测器输出
的估算值 Se(k-1) 之差。 Se(k-1) 是对 S(k) 的预测
值。
Page: 23
2.5 自适应差分脉冲编码调制 (ADPCM)
综合了 APCM 的自适应特性和 DPCM 系统的差分特性，是一种性能优越的

波形编码。核心思想：①利用自适应的思想改变量化阶的大小，即使用
小的量化阶去编码小的差值，使用大的量化阶去编码大的差值；②使用
过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之
间的差值总是最小。
Page: 24
2.6 子带编码 (SBC G.722)
• 基本思想：把输入信号的频带分成若干个连续的子带，对每个子带采
用单独的编码方案。在接收端将每个子带的编码单独译码，然后把它
们组合起来，还原成原来的音频信号。
• 优点：各子带根据能量和感觉分别处理
BPF 1 编码器译码器 BPF 1
复分
x(n) x'(n)
BPF 2 编码器译码器 BPF 2
合解
器器
BPF N 编码器译码器 BPF N
编码信道译码
G.722 将子带编码与相 ADPCM 结合，先分成两个子带再 ADPCM 。

Page: 25
2.6 线性预测编码 (LPC)
• 基本思想：声道是惰性腔体，不可能发生突变，因而话音信号具有短时间内
的相关性。通过分析话音波形来产生声道参数，对声音波形的编码就转化
为对这些参数的编码，这就使声音的数据量大大减少。属于参数编码。
• 过程：线性预测器是使用过去的 p 个样本值来预测现时刻的采样值，预测值
可以用过去 p 个样本值的线性组合来表示：
预测值 : …  a p x(n  p )]
x pre (n)  [a1 x(n  1)  a2 x(n  2)  
p
  ai x(n  i )
i 1
p
残差 : e(n)  x(n)  x pre (n)   ai x(n  i )
i 0
n1
能量最小 :    [e(n)]2
n  n0
Page: 26
线性预测编码示例分析
• 根据话音信号的特性，可以取帧长为 25 毫秒，则每秒有
40 帧。如果采用 8 阶预测 (p=8), 预测系数 ɑi 用 4 位编码 ,
则预测系数共需 40×8×4=1280 比特／秒。若信号采样率为
8000 样值／秒 , 各样值的预测误差 e(n) 用 1 位编码，则需
要 8000 比特／秒。总数码率为 9280 比特／秒。
仅当信号具有相关性并且预测做得相当精确
时，才能使预测误差 e(n) 的统计值很小，从而可以用很少
码位来对它编码。预测系数的分帧表征和预测误差的码位
节省，是减少线性预测编码数码率的主要手段。
Page: 27
3 音频编码标准
3.1 CCITT G 系列声音压缩标准
Page: 28
语音压缩编码标准
Page: 29
(1) 电话质量的音频压缩编码标准
信号频率规定在 300Hz ～ 3.4kHz ，采用标准的脉冲编码调制
(PCM) ，当采样频率为 8kHz ，进行 8bit 量化时，所得数据
速率为 64kb/s 。 CCITT PCM 标准 G.711 ，速率为 64Kb/s
，使用非线性量化技术，主要用于公共电话网中。
(2) 调幅广播质量的音频压缩编码标准
频率在 50Hz ～ 7kHz 范围。 G.722 标准是采用 16kHz 采
样， 14bit 量化，信号数据速率为 224kbit ／ s ，采用子带编
码方法，将输入音频信号经滤波器分成高子带和低子带两个
部分，分别进行 ADPCM 编码，再混合形成输出码
流， 224kb/s 可以被压缩成 64kb/s 。
Page: 30
3.2 高保真度立体声音频压缩编码技术标准
•高保真立体声音频信号频率范围是 50Hz ～ 20kHz ，采用
44.1kHz 采样频率， 16bit 量化进行数字化转换，其数据速率
每声道达 705kb/s 。
•MP3 的全名是 MPEG Audio Layer-3 。 ISO/MPEG 音频压缩
标准里包括了 Layer1 、 Layer2 、 Layer3 三个编码方案 , 所
有这三层的编码采用的基本结构是相同的。它们在采用传统
的频谱分析和编码技术的基础上还应用了子带分析和心理声
学模型理论。也就是通过研究人耳和大脑听觉神经对音频失
真的敏感度，在编码时先分析声音文件的波形，利用滤波器
找出噪音电平 (Noise Level) ，然后滤去人耳不敏感的信号，
通过矩阵量化的方式将余下的数据每一位打散排列，最后编
码形成 MPEG 的文件。
Page: 31
• MPEG 的层次与压缩比率
Layer1( 相当于 384kbps 立体声信号 ) 4:1
Layer2( 相当于 192~256kbps 立体声信 6:1~8:1

号)
Layer3 ( 相当于 112~154kbps 立体声信 10:1~12:1

号)
Page: 32
3.3 MP4 压缩技术 ( 简要 )
•MP4 使用的是 MPEG-2 AAC 技术，音质更加完美而压缩比更
加大 (1:15) 。 AAC 与 MP3 相比，增加了诸如对立体声的完美
再现、比特流效果音扫描、多媒体控制、降噪优异等 MP3 没
有的特性，使得在音频压缩后仍能完美的再现 CD 音质。
•MP4 是一种商品，它利用改良后的 MPEG-2 AAC 技术并强加
上由出版公司直接授权的知识产权协议作为新的标准；而 MP3
是一种自由音乐格式，任何人都可以自由使用。此外， MP4
实际上是由音乐出版界联合授意的官方标准； MP3 则是广为
流传的民间标准 , 自由度要远远大于 MP4 ，这使得人们更倾
向于使用 MP3 。
•更重要的一点是， MP3 是目前最为流行的一种音乐格式，它
占据着大量的网络资源。
Page: 33
附录：语音识别技术及应用 ( 简要 )
• 语音识别以语音为研究对象，是语音信号处理的一
个重要研究方向，是模式识别的一个分支，其目的
就是要让机器具有人的听觉功能，在人机语音通讯
中“听懂”人类口述的语言。根据不同的需求，语
音识别的识别内容可分为狭义的语音识别和说话人
语音识别。
Page: 34
1 ．语音识别技术的基础
一个完整的语音识别系统可大致分为三部分：
（ 1 ）语音特征提取：其目的是从语音波形中提取出随时间
变化的语音特征序列。
（ 2 ）声学模型与模式匹配（识别算法）：声学模型通常将
获取的语音特征通过学习算法产生。在识别时将输入的语音
特征同声学模型（模式）进行匹配与比较，得到最佳的识别
结果。
（ 3 ）语言模型与语言处理：语言模型包括由识别语音命令
构成的语法网络或由统计方法构成的语言模型，语言处理可
以进行语法、语义分析。对小词表语音识别系统，往往不需
要语言处理部分。
Page: 35
声学模型是识别系统的底层模型，并且是语音识别系统
中最关键的一部分。声学模型的目的是提供一种有效的方法计
算语音的特征矢量序列和每个发音模板之间的距离。声学模型
的设计和语言发音特点密切相关。声学模型单元大小（字发音
模型、半音节模型或音素模型）对语音训练数据量大小、系统
识别率，以及灵活性有较大的影响。必须根据不同语言的特点、
识别系统词汇量的大小决定识别单元的大小。
Page: 36
语言模型对中、大词汇量的语音识别系统特别重要。
当分类发生错误时可以根据语言学模型、语法结构、语义学
进行判断纠正，特别是一些同音字则必须通过上下文结构才
能确定词义。语言学理论包括语义结构、语法规则、语言的
数学描述模型等有关方面。目前比较成功的语言模型通常是
采用统计语法的语言模型与基于规则语法结构命令语言模型。
语法结构可以限定不同词之间的相互连接关系，减少了识别
系统的搜索空间，这有利于提高系统的识别。
Page: 37
2 ．语音识别的基本原理
Page: 38
预处理包括语音信号采样、反混叠带通滤波、去除个体发音
差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的
选取和端点检测问题：
特征提取部分用于提取语音中反映本质特征的声学参数，如
平均能量、平均跨零率、共振峰等；
训练在识别之前进行，通过让讲话者多次重复语音，从原始
语音样本中去除冗余信息，保留关键数据，再按照一定规则对数
据加以聚类，形成模式库；
模式匹配部分是整个语音识别系统的核心，它是根据一定的
准则（如某种距离测度）以及专家知识（如构词规则、语法规则、
语义规则等），计算输入特征与库存模式之间的相似度，判断出
输入语音的语意信息。
Page: 39
3 ．处理的方法：
(1) 连续语音流的预处理
· 波形硬件采样率的确定、分帧大小与帧移策略的确定；
· 剔除噪声的带通滤波、高频预加重处理、各种变换策略；
· 波形的自动切分 ( 依赖于识别基元的选择方案 ) 。
(2) 特征参数提取
识别语音的过程，实际上是对语音特征参数模式的比较和匹配
的过程。语音特征参数的选取对系统识别结果起着重要的作用。
因此，必须寻找一个既能充分表达语音特征又能彼此区别的特征
参数，这是语音识别中的一个最重要基本问题。语音识别系统常
用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、
短时频谱、共振峰频率及带宽等。
Page: 40
• （ 3 ）参数模板存储。在建立识别系统时，首先
进行特征参数提取，然后对系统进行训练和聚类
。通过训练，系统建立并存储一个该系统需识别
字（或音节）的参数模板库。
• （ 4 ）识别判决。识别时，待识语音信号经过与
训练时相同的特征参数提取后，与模式模板存储
器中的模式进行匹配计算和比较，并根据一定的
规则进行识别判决，最后输出识别结果。
Page: 41

04 声音编码压缩技术

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

04 声音编码压缩技术

Uploaded by

Copyright:

Available Formats

声音编码压缩技术

(3) 声音的 A/D 与 D/A 转换

MPEG 音频压缩率很高， MP1 和 MP2 的分别为 4∶1 和 6∶1 ～ 8∶1 ，而 MP3 的

Vsignal 表示信号强度， Vnoise 表示噪声强度；单位为分贝 (dB) 。

分贝：以 20μPa 为基准，这是人耳能听到的最小的声音，大致相当于 3

与客观度量相比，人的感觉 ( 如听觉、视觉等 ) 更具有决定意义，通常

综合了 APCM 的自适应特性和 DPCM 系统的差分特性，是一种性能优越的

BPF 1 编码器译码器 BPF 1

BPF N 编码器译码器 BPF N

G.722 将子带编码与相 ADPCM 结合，先分成两个子带再 ADPCM 。

Layer1( 相当于 384kbps 立体声信号 ) 4:1

Layer2( 相当于 192~256kbps 立体声信 6:1~8:1

Layer3 ( 相当于 112~154kbps 立体声信 10:1~12:1

You might also like

04 声音编码压缩技术

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

04 声音编码压缩技术

Uploaded by

Copyright:

Available Formats

声音编码压缩技术

(3) 声音的 A/D 与 D/A 转换

MPEG 音频压缩率很高， MP1 和 MP2 的分别为 4∶1 和 6∶1 ～ 8∶1 ，而 MP3 的

Vsignal 表示信号强度， Vnoise 表示噪声强度；单位为分贝 (dB) 。

分贝：以 20μPa 为基准，这是人耳能听到的最小的声音，大致相当于 3

与客观度量相比，人的感觉 ( 如听觉、视觉等 ) 更具有决定意义，通常

综合了 APCM 的自适应特性和 DPCM 系统的差分特性，是一种性能优越的

BPF 1 编码器 译码器 BPF 1

BPF N 编码器 译码器 BPF N

G.722 将子带编码与相 ADPCM 结合，先分成两个子带再 ADPCM 。

Layer1( 相当于 384kbps 立体声信号 ) 4:1

Layer2( 相当于 192~256kbps 立体声信 6:1~8:1

Layer3 ( 相当于 112~154kbps 立体声信 10:1~12:1

You might also like

BPF 1 编码器译码器 BPF 1

BPF N 编码器译码器 BPF N