You are on page 1of 41

声音编码压缩技术

学习目标
 了解声音信号的特点、存储格式及质量的度量方法
 理解音频压缩方法及音频编码标准

Page: 1
1 音频信息处理基础
声音是通过空气传播的一种连续的波,叫声波。声音用
电表示时,信号在时间和幅度上都是连续的模拟信号。

1.1 音频信号的特点
(1) 音频信号的分类
音频信号可分为两类:语音信号和非语音信号。

语音信号是语言的载体,是人类进行信息交流所特有的形式。

非语音信号主要包括音乐和自然界存在的其他声音形式。非语
音信号的特点是不具有复杂的语义和语法信息,信息量低。

Page: 2
(2) 声音的频谱
声音的频谱有线性频谱和连续频谱之分。线性频谱是具有周
期性的单一频率声波;纯粹的单一频率的声波只能在专门的
设备中创造出来,声音效果单调而乏味。连续频谱是具有非
周期性的带有一定频带所有频率分量的声波。自然界中的声
音全部属于具有广泛的频率分量,听起来声音饱满、音色多
样且具有生气。

(3) 声音的 A/D 与 D/A 转换


A/D 转换就是把模拟信号转换成数字信号的过程。数字化的
声音使计算机能够进行识别、处理和压缩 。声音存储质量
得到了加强。

Page: 3
1.2 模拟音频的数字化过程 ( 略 )
模拟音频数字化过程涉及到音频的采样、量化和编码。
采样和量化的过程可由 A/D 转换器实现。 A/D 转换器以固
定的频率去采样,即每个周期测量和量化信号一次。经采样和
量化后声音信号经编码后就成为数字音频信号,可以将其以文
件形式保存在计算机的存储介质中,这样的文件一般称为数字
声波文件。

100101100011101

模拟信号的数字化过程

Page: 4
1. 采样
(略 )
信息论的奠基者香农( Shannon )指出:在一定条件下,用
离散的序列可以完全代表一个连续函数,这是采样定理的基本
内容。
为实现 A/D 转换,需要把模拟音频信号波形进行分割,这
种方法称为采样 (Sampling) 。采样的过程是每隔一个时间间隔
在模拟声音的波形上取一个幅度值,把时间上的连续信号变成
时间上的离散信号。该时间间隔称为采样周期,其倒数为采样
频率。采样频率是指计算机每秒钟采集多少个声音样本。
采样频率与声音频率之间有一定的关系,根据奈奎斯
特( Nyquist )理论,只有采样频率高于声音信号最高频率
的两倍时,才能把数字信号表示的声音还原成为原来的声音。

fs  2f
Page: 5
2. 量化 ( 略 )
采样只解决了音频波形信号在时间坐标 ( 即横轴 ) 上把一
个波形切成若干个等分的数字化问题,但是还需要用某种数字
化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小
影响音量的高低。我们把对声波波形幅度的数字化表示称之为
“量化”。
量化的过程是先将采样后的信号按整个声波的幅度划分成有
限个区段的集合,把落入某个区段内的样值归为一类,并赋于
相同的量化值。如何分割采样信号的幅度呢 ? 我们还是采取二
进制的方式,以8位 (bit) 或 16 位 (bit) 的方式来划分纵轴。也
就是说在一个以 8 位为记录模式的音效中,其纵轴将会被划分
为个量化等级,用以记录其幅度大小。

Page: 6
以下图所示的原始模拟波形为例进行采样和量化。假设采样
频率为 1000 次 / 秒,即每 1/1000 秒 A/D 转换器采样一次,其幅
度被划分成 0 到9 共 10 个量化等级,并将其采样的幅度值取最
接近 0~ 9 之间的一个数来表示,如下图所示。图中每个正方形
表示一次采样。

Page: 7
D/A 转换器从上图得到的数值中重构原来信号时,得到下
图中蓝色 ( 直线段 ) 线段所示的波形。从图中可以看出,蓝色
线与原波形 ( 红色线 ) 相比,其波形的细节部分丢失了很多。
这意味着重构后的信号波形有较大的失真。

Page: 8
失真在采样过程中是不可避免的,如何减少失真呢?可
以直观地看出,我们可以把上图中的波形划分成更为细小的区间,
即采用更高的采样频率。同时,增加量化精度,以得到更高的量
化等级,即可减少失真的程度。在下图(左)中,采样率和量化
等级均提高了一倍,分别为 2000 次 / 秒和 20 个量化等级。在下
图(右)中,采样率和量化等级再提高了一倍,分别达到 4000
次 / 秒和 40 个量化等级。从图中可以看出,当用 D/A 转换器重构
原来信号时(图中的轮廓线),信号的失真明显减少,信号质量
得到了提高。

Page: 9
3. 编码 ( 略 )
模拟信号量经过采样和量化以后,形成一系列的离散信
号——脉冲数字信号。这种脉冲数字信号可以一定的方式进行
编码,形成计算机内部运行的数据。所谓编码,就是按照一定
的格式把经过采样和量化得到的离散数据记录下来,并在有用
的数据中加入一些用于纠错、同步和控制的数据。在数据回放
时,可以根据所记录的纠错数据判别读出的声音数据是否有错,
如在一定范围内有错,可加以纠正。
编码的形式比较多,常用的编码方式是 PCM—— 脉冲调制。
脉冲编码调制( PCM )是把模拟信号变换为数字信号的一种
调制方式,即把连续输入的模拟信号变换为在时域和振幅上都
离散的量,然后将其转化为代码形式传输或存储。

Page: 10
1.3 数字音频的文件格式
存储音频信息的文件格式主要有: WAV 、 MP3 文件等。
(1) WAV 文件
WAV 文件又称波形文件,是对声音模拟波形的采样。 WAV 文件由文件头
和文件数据块组成。文件头包括标志符、语音特征值、声道特征以及
PCM 格式类型标志等。 WAV 格式支持多种压缩算法,多种音频位数、
采样频率和声道,但其文件尺寸较大,多用于存储简短的声音片断。
未压缩声音的数据量可用下式计算:
数据量( KB ) = (采样频率 KHz× 采样位数 bit× 声道数 × 时间
秒) /8
(2) MPEG 音频文件—— .MP1/.MP2/.MP3
MP3 是 MPEG 标准中的音频部分,是一种有损压缩,根据压缩质量和编码复杂
程度的不同可分为三层 (MPEG Audio Layer 1/2/3) ,即 MP1 、 MP2 和 MP3 。

MPEG 音频压缩率很高, MP1 和 MP2 的分别为 4∶1 和 6∶1 ~ 8∶1 ,而 MP3 的


压缩率高达 10∶1 ~ 12∶1 。一分钟 CD 音质的音乐未经压缩 10MB ,压缩后
只有 1MB ,同时其音质基本不失真。

Page: 11
(3)VOC 文件
VOC 文件是 Creative 公司所使用的标准音频文件格式,多用于保存
Creative Sound Blaster( 创新声霸 ) 系列声卡所采集的声音数据, Windows 等
平台支持。
(4)AIFF 文件 (Audio Interchange File Format)
苹果公司开发的一种声音文件格式;被 Macintosh 平台及其应用程序所支持

(5)RealAudio 文件— .RA/.RM/.RAM
RealAudio 文件是 RealNetworks 公司开发的一种流式音频 (Streaming Audio)
文件格式,主要用于在低速网上实时传输音频信息;电话线路可以达到广播
级的声音质量;如果拥有更快的线路连接,则可获得 CD 音质的声音。

Page: 12
1.4 声音质量的评价
三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质
量 , 等 级 由 高 到 低 依 次 是 数 字 录 音 带 DAT (48KHz) , CD
(44.1KHz) , FM (22.05KHz) , AM (11.025KHz) 和数字电话 (8KHz) 。
第二种是信噪比,第三种是主观质量度量。
(1) 以带宽衡量声音的质量

Page: 13
( 2 )信噪比 (signal to niose ratio , SNR) 指声音信号与噪音强度之间的比,
信噪比越高表示音频质量越好。
SNR = 20 lg (Vsignal / Vnoise)

Vsignal 表示信号强度, Vnoise 表示噪声强度;单位为分贝 (dB) 。

分贝:以 20μPa 为基准,这是人耳能听到的最小的声音,大致相当于 3


米外的一只蚊子在飞。

(3) 声音主观质量的度量

与客观度量相比,人的感觉 ( 如听觉、视觉等 ) 更具有决定意义,通常


用 5 分制 :优 (Excellent) 、良 (Good) 、中 (Fair) 、差 (Poor) 、劣
(Bad) ;但可靠的主观度量值是比较难获得的。

Page: 14
2.1 脉冲编码调制 (PCM)
(1)PCM 编码的原理
•波形编码:使重构语音信号的波形与原始信号波形尽量接近。
•概念上最简单、理论上最完善的编码系统,质量最好。

Page: 15
(2) 步骤:
第一步是采样,每隔一段时间间隔读一次声音的幅度;
第二步是量化,把采样得到的声音信号幅度归属到量化电平。量化
可归纳为两类:一类称为均匀量化,另一类称为非均匀量化。量化
方法不同量化后的数据量也不同。因此,可以说量化也是一种压缩
数据的方法;
第三步是编码,按一定格式记录采样和量化后的数据。

均匀量化 :
采用均匀的间
隔度量采样得
到的电平。

Page: 16
(3) 非均匀量化
大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。
这样就可以在满足精度要求的同时用较少的位数来表示。数据还原时
采用相同的规则。

Page: 17
• G.711 对输入信号幅度和输出数据之间定义:律压扩算法 (
美、日,  =255) ; A 律压扩算法 ( 中、欧, A=87.56) 。

ln(1   | x |)
 律压扩: F ( x)  sgn( x) 1  x  1
ln(1   )

A| x |
A 律压扩: FA ( x)  sgn( x) 0  |x|  1/A
1  ln A

1  ln( A | x |)
FA ( x)  sgn( x) 1/A  |x| 1
1  ln A

Page: 18
2.2 增量调制 (DM)
PCM 编码的变形,是一种预测编码技术。如果实际的采样信号与预测
信号之差极性为“正”,则用“ 1” 表示;相反则用“ 0” 表示。

• 增量调制器的输出不能跟踪输入信号的快速变化称为斜率过载。
• 在输入信号缓慢变化部分,输出交变的“ 0” 和“ 1” 。称为粒状噪
声 (granular noise) ,这种噪声是不可能消除的。

Page: 19
2.3 自适应脉冲编码调制( APCM )

• 根据输入信号幅度大小来动态改变量化阶大小的一种波形编
码技术。这种自适应可以是瞬时自适应,即量化阶的大小每
隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大
小在较长时间才发生变化。
• 改变量化阶大小的方法有两种:前向自适应和后向自适应 。
前者是根据未量化的样本值的均方根值来估算输入信号的电
平,以此来确定量化阶的大小,并对其电平进行编码作为边
信息 (side information) 传送到接收端。后者是从量化器刚
输出的过去样本中来提取量化阶信息。

Page: 20
前向自适应:

边信息

后向自适应:

Page: 21
2.4 差分脉冲编码调制 (DPCM)

 利用样本与样本之间存在的时间冗余度来进行编码的一
种数据压缩技术。
 DPCM 调制的思想:根据过去的样本去估算 (estimate)
下一个样本信号的幅度大小,这个值称为预测值,然后
对实际信号值与预测值之差进行量化编码,从而就减少
了表示每个样本信号的位数。
 DPCM 与 PCM 的不同: PCM 是直接对采样信号进行
量化编码,而 DPCM 是对实际信号值与预测值之差进
行量化编码,存储或者传送的是差值而不是幅度绝对值

Page: 22
差分信号 d(k) 是离散输入信号 S(k) 和预测器输出
的估算值 Se(k-1) 之差。 Se(k-1) 是对 S(k) 的预测
值。

Page: 23
2.5 自适应差分脉冲编码调制 (ADPCM)

综合了 APCM 的自适应特性和 DPCM 系统的差分特性,是一种性能优越的


波形编码。核心思想:①利用自适应的思想改变量化阶的大小,即使用
小的量化阶去编码小的差值,使用大的量化阶去编码大的差值;②使用
过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之
间的差值总是最小。

Page: 24
2.6 子带编码 (SBC G.722)
• 基本思想:把输入信号的频带分成若干个连续的子带,对每个子带采
用单独的编码方案。在接收端将每个子带的编码单独译码,然后把它
们组合起来,还原成原来的音频信号。
• 优点:各子带根据能量和感觉分别处理

BPF 1 编码器 译码器 BPF 1

复 分
x(n) x'(n)
BPF 2 编码器 译码器 BPF 2
合 解

器 器

BPF N 编码器 译码器 BPF N

编码 信道 译码

G.722 将子带编码与相 ADPCM 结合,先分成两个子带再 ADPCM 。


Page: 25
2.6 线性预测编码 (LPC)
• 基本思想:声道是惰性腔体,不可能发生突变,因而话音信号具有短时间内
的相关性。 通过分析话音波形来产生声道参数,对声音波形的编码就转化
为对这些参数的编码,这就使声音的数据量大大减少。属于参数编码。
• 过程:线性预测器是使用过去的 p 个样本值来预测现时刻的采样值,预测值
可以用过去 p 个样本值的线性组合来表示:

预测值 : …  a p x(n  p )]
x pre (n)  [a1 x(n  1)  a2 x(n  2)  
p
  ai x(n  i )
i 1
p
残差 : e(n)  x(n)  x pre (n)   ai x(n  i )
i 0

n1

能量最小 :    [e(n)]2
n  n0

Page: 26
线性预测编码示例分析
• 根据话音信号的特性,可以取帧长为 25 毫秒,则每秒有
40 帧。如果采用 8 阶预测 (p=8), 预测系数 ɑi 用 4 位编码 ,
则预测系数共需 40×8×4=1280 比特/秒。若信号采样率为
8000 样值/秒 , 各样值的预测误差 e(n) 用 1 位编码,则需
要 8000 比特/秒。总数码率为 9280 比特/秒。
仅当信号具有相关性并且预测做得相当精确
时,才能使预测误差 e(n) 的统计值很小,从而可以用很少
码位来对它编码。预测系数的分帧表征和预测误差的码位
节省,是减少线性预测编码数码率的主要手段。

Page: 27
3 音频编码标准
3.1 CCITT G 系列声音压缩标准

Page: 28
语音压缩编码标准

Page: 29
(1) 电话质量的音频压缩编码标准
信号频率规定在 300Hz ~ 3.4kHz ,采用标准的脉冲编码调制
(PCM) ,当采样频率为 8kHz ,进行 8bit 量化时,所得数据
速率为 64kb/s 。 CCITT PCM 标准 G.711 ,速率为 64Kb/s
,使用非线性量化技术,主要用于公共电话网中。

(2) 调幅广播质量的音频压缩编码标准
频 率 在 50Hz ~ 7kHz 范 围 。 G.722 标 准 是 采 用 16kHz 采
样, 14bit 量化,信号数据速率为 224kbit / s ,采用子带编
码方法,将输入音频信号经滤波器分成高子带和低子带两个
部 分 , 分 别 进 行 ADPCM 编 码 , 再 混 合 形 成 输 出 码
流, 224kb/s 可以被压缩成 64kb/s 。

Page: 30
3.2 高保真度立体声音频压缩编码技术标准
•高保真立体声音频信号频率范围是 50Hz ~ 20kHz ,采用
44.1kHz 采样频率, 16bit 量化进行数字化转换,其数据速率
每声道达 705kb/s 。
•MP3 的全名是 MPEG Audio Layer-3 。 ISO/MPEG 音频压缩
标准里包括了 Layer1 、 Layer2 、 Layer3 三个编码方案 , 所
有这三层的编码采用的基本结构是相同的。它们在采用传统
的频谱分析和编码技术的基础上还应用了子带分析和心理声
学模型理论。也就是通过研究人耳和大脑听觉神经对音频失
真的敏感度,在编码时先分析声音文件的波形,利用滤波器
找出噪音电平 (Noise Level) ,然后滤去人耳不敏感的信号,
通过矩阵量化的方式将余下的数据每一位打散排列,最后编
码形成 MPEG 的文件。

Page: 31
• MPEG 的层次与压缩比率

Layer1( 相当于 384kbps 立体声信号 ) 4:1

Layer2( 相当于 192~256kbps 立体声信 6:1~8:1


号)

Layer3 ( 相当于 112~154kbps 立体声信 10:1~12:1


号)

Page: 32
3.3 MP4 压缩技术 ( 简要 )
•MP4 使用的是 MPEG-2 AAC 技术,音质更加完美而压缩比更
加大 (1:15) 。 AAC 与 MP3 相比,增加了诸如对立体声的完美
再现、比特流效果音扫描、多媒体控制、降噪优异等 MP3 没
有的特性,使得在音频压缩后仍能完美的再现 CD 音质。
•MP4 是一种商品,它利用改良后的 MPEG-2 AAC 技术并强加
上由出版公司直接授权的知识产权协议作为新的标准;而 MP3
是一种自由音乐格式,任何人都可以自由使用。此外, MP4
实际上是由音乐出版界联合授意的官方标准; MP3 则是广为
流传的民间标准 , 自由度要远远大于 MP4 ,这使得人们更倾
向于使用 MP3 。
•更重要的一点是, MP3 是目前最为流行的一种音乐格式,它
占据着大量的网络资源。

Page: 33
附录:语音识别技术及应用 ( 简要 )

• 语音识别以语音为研究对象,是语音信号处理的一
个重要研究方向,是模式识别的一个分支,其目的
就是要让机器具有人的听觉功能,在人机语音通讯
中“听懂”人类口述的语言。根据不同的需求,语
音识别的识别内容可分为狭义的语音识别和说话人
语音识别 。

Page: 34
1 .语音识别技术的基础
一个完整的语音识别系统可大致分为三部分:
( 1 )语音特征提取:其目的是从语音波形中提取出随时间
变化的语音特征序列。
( 2 )声学模型与模式匹配(识别算法):声学模型通常将
获取的语音特征通过学习算法产生。在识别时将输入的语音
特征同声学模型(模式)进行匹配与比较,得到最佳的识别
结果。
( 3 )语言模型与语言处理:语言模型包括由识别语音命令
构成的语法网络或由统计方法构成的语言模型,语言处理可
以进行语法、语义分析。对小词表语音识别系统,往往不需
要语言处理部分。

Page: 35
声学模型是识别系统的底层模型,并且是语音识别系统
中最关键的一部分。声学模型的目的是提供一种有效的方法计
算语音的特征矢量序列和每个发音模板之间的距离。声学模型
的设计和语言发音特点密切相关。声学模型单元大小(字发音
模型、半音节模型或音素模型)对语音训练数据量大小、系统
识别率,以及灵活性有较大的影响。必须根据不同语言的特点、
识别系统词汇量的大小决定识别单元的大小。

Page: 36
语言模型对中、大词汇量的语音识别系统特别重要。
当分类发生错误时可以根据语言学模型、语法结构、语义学
进行判断纠正,特别是一些同音字则必须通过上下文结构才
能确定词义。语言学理论包括语义结构、语法规则、语言的
数学描述模型等有关方面。目前比较成功的语言模型通常是
采用统计语法的语言模型与基于规则语法结构命令语言模型。
语法结构可以限定不同词之间的相互连接关系,减少了识别
系统的搜索空间,这有利于提高系统的识别。

Page: 37
2 .语音识别的基本原理

Page: 38
预处理包括语音信号采样、反混叠带通滤波、去除个体发音
差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的
选取和端点检测问题:

特征提取部分用于提取语音中反映本质特征的声学参数,如
平均能量、平均跨零率、共振峰等;

训练在识别之前进行,通过让讲话者多次重复语音,从原始
语音样本中去除冗余信息,保留关键数据,再按照一定规则对数
据加以聚类,形成模式库;

模式匹配部分是整个语音识别系统的核心,它是根据一定的
准则(如某种距离测度)以及专家知识(如构词规则、语法规则、
语义规则等),计算输入特征与库存模式之间的相似度,判断出
输入语音的语意信息。
Page: 39
3 .处理的方法:
(1) 连续语音流的预处理
· 波形硬件采样率的确定、分帧大小与帧移策略的确定;
· 剔除噪声的带通滤波、高频预加重处理、各种变换策略;
· 波形的自动切分 ( 依赖于识别基元的选择方案 ) 。

(2) 特征参数提取

识别语音的过程,实际上是对语音特征参数模式的比较和匹配
的过程。语音特征参数的选取对系统识别结果起着重要的作用。
因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征
参数,这是语音识别中的一个最重要基本问题。语音识别系统常
用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、
短时频谱、共振峰频率及带宽等。
Page: 40
• ( 3 )参数模板存储。在建立识别系统时,首先
进行特征参数提取,然后对系统进行训练和聚类
。通过训练,系统建立并存储一个该系统需识别
字(或音节)的参数模板库。
• ( 4 )识别判决。识别时,待识语音信号经过与
训练时相同的特征参数提取后,与模式模板存储
器中的模式进行匹配计算和比较,并根据一定的
规则进行识别判决,最后输出识别结果。

Page: 41

You might also like