语音识别的研究与发展

计算机与现代化
!""! 年第 % 期 YXSG/FYX ZG 2X/FJ/X0G/ 总第 ’& 期
文章编号：（!""!）
#"")$!*’+ "%$"""%$"*
语音识别的研究与发展
何湘智
（国防科技大学机电工程与自动化学院，湖南长沙 *#""’%）
摘要：综合阐述了语音识别技术的提出与发展历史，语音识别系统的分类，目前所面临的困难和采用的主要技术，以及
发展方向和应用前景。
关键词：语音识别；隐马尔可夫；矢量量化；动态时间规整
中图分类号：,-%&#.* 文献标识码：/
!"# $#%#&’(" &)* +#,#-./0#)1 .2 3/##(" $#(.4)515.)

01 23456$783
（ 9:;;<6< := ><?84@A:53?B 15635<<A356 45C /D@:E4@3:5，F4@3:54; G53HI := J<=<5B< ,<?85:;:6K，98456B84 *#""’%，98354）
67%1’&(1：1LM:D5CB @8< A<4B:5B 45C C<H<;:ME<5@ 83B@:AK ，@8< MA:N;<EB =4?<C ，@8< O<K @<?85:;:63<B := BM<<?8 A<?:653@3:5，45C ?;4BB=3<B
@8< BKB@<EB := BM<<?8 A<?:653@3:5，;::OB 48<4C @8< C<H<;:ME<5@ := @8< =3<;CI
8#9:.’*：BM<<?8 A<?:653@3:5；0>>；PQ；J,R
文数字的语音识别系统———/DCAK 系统。
; 语音识别技术的提出及发展历史 )" 年代，计算机的应用推动了语音识别的发展。
随着现代科学和计算机技术的发展，人们在与机这一时期的重要成果是提出了用动态规划（ J-）方法
器的信息交流中，需要一种更加方便、自然的方式。来解决语音识别中不等长的对正问题。
而人的直观感觉可以给人最直接的印象，获取信息速 ’" 年代，语音识别领域取得了突破。线性预测
度也就最快。虽然，嗅觉、触觉也是人类固有的感觉，编码技术（ W-9）的引入，使语音识别的特征提取产生
人们可以从中得到某些外界信息，但最重要、最精细了一次飞跃。动态时间规整技术（J,R）基本成熟，提
的信息源只有图像和语言两种。而且，语言是人类最出了矢量量化（ PQ）和隐马尔可夫模型（ 0>>）理论。
重要的、最有效的、最常用的和最方便的通信形式。实现了基于线性预测倒谱和 J,R 技术的特定人孤立
这就很容易让人想到能否用自然语言代替传统的人语音识别系统。
机交流方式如键盘、鼠标等。一般来讲，人与机器的 (" 年代，语音识别研究进一步走向深入，其显著
语言通信大致分为两种情况：第一种情况就是机器讲特征是 0>> 模型和人工神经元网络（/FF）在语音识
话，
人听话。这就是“人工嘴巴”即语音的人工合成；别中的成功应用。 0>> 模型的广泛应用应归功于
第二种情况就是人讲话，机器听话。这即是“人工耳 /,U , V<;; 实验室 T4N35<A 等科学家的努力，他们把
朵”，即语音的人工识别和理解。语音识别较语音合原本艰涩的 0>> 纯数学模型工程化，从而为更多研
成而言，技术上要复杂，但应用却更加广泛。语音识究者了解和认识。
别 /ST
（/D@:E4@3? SM<<?8 T<?:653@3:5）的最大优势在于进入 &" 年代，随着多媒体时代的来临，迫切要求
使得人机用户界面更加自然和容易使用。语音识别系统从实验室走向实用。许多发达国家如
语音识别的研究工作大约开始于 +" 年代，标志美国、日本、韩国以及 XV>、/MM;<、/,U,、F,, 等著名
就是 /,U , V<;; 实验室实现了第一个可识别十个英公司都为语音识别系统的实用化开发研究投以巨资。
收稿日期：!""#$##$#%
作者简介：何湘智（#&’($），男，湖南衡山人，国防科技大学机电工程与自动化学院硕士研究生，研究方向：信号处理与模式
识别。
万方数据
J 计算机与现代化 /00/ 年第 . 期
!"# 公司于 $%%& 年开发出汉语 ’()’*(+, 语音识别系理、所采用的基本技术相似。语音识别的原理图如图

统，次年又开发出可以识别上海话、广东话和四川话 $ 所示。
等地方口音的语音识别系统 ’()’*(+,’%-。它带有一
个 ./，
000 词的基本词汇表，可以扩展到 12，000 词，
还包括办公常用词条，具有”纠错机制”，其平均识别
率可以达到 %23 。该系统对新闻语音识别具有较高
的精度，是目前具有代表性的汉语连续语音识别系
统。 45,,+67*89: 公司是世界领先的电话自动语音识
图$ 语音识别原理图
别系统（ ;4< ）解决方案的提供者，代表产品为
45,,+67*89: 1。利用该产品，用户可以通过电话用自预处理。包括反混叠滤波、模数变换、自动增益
然语言与系统进行交互，进行旅游预约、股票交易、银控制、去除声门激励以及在声学参数分析之前正确选
行服务、订票服务、宾馆服务和寻呼服务等，由于系统择识别基元等问题。
是自动的，无需服务人员的介入。目前市场上出现了参数分析。经过预处理后的语音信号，就要对其
语音识别电话、语音识别记事本等产品，如美国 ’=>? 进行特征参数分析。识别参数的选择有很多种，要视
公司的 ’*(+, @8A)B(C,8 和法国的 =)88*D 等。系统的具体要求而定。一般来说，如果参数中包含的
我国语音识别研究工作一直紧跟国际水平，国家信息越多，则分析或提取的复杂度也越大。可供选择
也很重视，并把大词汇量语音识别的研究列入“-1.” 的识别参数包括：平均能量、过零率、频谱、共振峰（包
计划，由中科院声学所、自动化所及北京大学等单位括频率、带宽、幅度）、倒谱、线性预测系数（ F=?）、偏
研究开发，取得了高水平的科研成果，如中科院自动自相关系数（ =;<?@< 系数）、随机模型（即隐马尔可
化所研制的非特定人、连续语音听写系统和汉语语音夫模型）的概率函数、矢量量化的矢量，以及音长、音
人机对话系统，其字准确率或系统响应率可达 %03 调、声调等超音段信息函数。
以上。鉴于中国未来庞大的市场，国外也非常重视汉失真测度。用于语音识别的失真测度有多种，如
语语音识别的研究。美国、新加坡等地聚集了一批来欧氏距离及其变形的距离、似然比测度、加权的超音
自大陆、台湾、香港等地的学者，研究成果已达到相当段信息的识别测度等。
高水平。语音库，即声学参数模板。是用训练和聚类的方
法，
从一人或多人的多次重复的语音参数，经过长时
! 语音识别系统
间的训练而聚类得到的。
语音识别系统的研究涉及微机技术、人工智能、测度估计是语音识别的核心。用来表征参数与
数字信号处理、模式识别、声学、语言学和认知科学等模板之间的测度。常用的方法有：动态时间规整法
许多学科领域，是一个多学科综合性研究领域。语音（G>7）、有限状态矢量量化法（ ’H）、隐马尔可夫模型
识别系统的基本过程包括：采样、确定输入信号的起法（ I##）等。
始点，由数字滤波器直接地或模拟滤波器间接地计算专家知识库，用来存贮各种语言学知识。如汉语
语音谱、音调轮廓图估价、分解输入信号、单词识别和声调变调规则、音长分布规则、同音字判别规则、构词
对输入信号做出响应。规则、语法规则、语义规则等。对于不同的语言有不
语音识别系统在实际应用过程中根据不同的分同的语言学专家知识库，对于汉语也有其特有的专家
类准则可以有多种分类方式：知识库。
$E 根据对说话人说话方式的要求，可以分为孤判决是语音识别的最后一步，也是系统识别效果
立字（词）语音识别系统、连接字语音识别系统以及连的最终表现。对于属于信号计算而得的测度，根据若
续语音识别系统。干准则及专家知识，判决选出可能的结果中最好的结
/E 根据对说话人的依赖程度可以分为特定人和果，由识别系统输出。
非特定人语音识别系统。
" 语音识别的主要方法
.E 根据词汇量大小，可以分为小词汇量、中等词
汇量、大词汇量以及无限词汇量语音识别系统。一般来说，语音识别的方法有三种：基于声道模
万方数据
虽然语音识别系统有多种分类方法，但基本原型和语音知识的方法、模板匹配的方法以及利用人工
H""H 年第 O 期何湘智：语音识别的研究与发展 X
神经网络的方法。 *+A ;*B｛8

（G 9 5，
!）｝。
B
基于声道模型和语音知识的方法起步较早，在语 H& 矢量量化（CI）。
音识别技术提出的开始，就有了这方面的研究，但由矢量量化（C=4E-+ I:*JEDK*ED-J）是一种重要的信号
于其模型及语音知识过于复杂，现阶段没有达到实用压缩方法。与 ’(( 相比，矢量量化主要适用于小词
的阶段。利用人工神经网络的方法是 !" 年代末期提汇量、孤立词的语音识别中。其过程是：将语音信号
出的一种新的语音识别方法。人工神经网络（ #$$）波形的 , 个样点的每一帧，或有 , 个参数的每一参数
本质上是一个自适应非线性动力学系统，模拟了人类构成 , 维空间中的一个矢量，然后对矢量进行量
帧，
神经活动的原理，具有自适应性、并行性、鲁棒性、容化。量化时，将 , 维无限空间划分为 ( 个区域边界，
错性和学习特性，在结构和算法上都显示出实力。但然后将输入矢量与这些边界进行比较，并被量化为
由于存在训练、识别时间太长的缺点，目前仍处于实 “距离”最小的区域边界的中心矢量值。矢量量化器
验探索阶段。模板匹配的方法发展比较成熟，目前已的设计就是从大量信号样本中训练出好的码书，从实
达到了实用阶段。在模板匹配方法中，要经过四个步际效果出发寻找到好的失真测度定义公式，设计出最
骤：特征提取、模板训练、模板分类、判决。本文主要佳的矢量量化系统，用最少的搜索和计算失真的运算
讨论在模板匹配中所普遍采用的一些技术。量，实现最大可能的平均信噪比。失真测度主要有均
%& 隐马尔可夫法（’((）。方误差（即欧氏距离）、加权的均方误差、LE*,:+*3M*DE-
隐马尔可夫法（’((）是 )" 年代引入语音识别理
距离，似然比失真测度等。初始码书的生成可以是随
论的，它的出现，使得自然语音识别系统取得了实质
机选取、分裂生成法、乘积码书法。在选定了失真测
性的突破。 ’(( 方法现已成为语音识别的主流技
度和初始码书后，就用 @/N 算法，对初始码书进行迭
术，
目前大多数大词汇量、连续语音的非特定人语音
代优化，一直到系统性能满足要求或不再有明显的改
识别系统都是基于 ’(( 模型的。
进为止。
’(( 是对语音信号的时间序列结构建立统计模
在实际的应用过程中，人们还研究了多种降低复
型，
将之看作一个数学上的双重随机过程：一个是用
杂度的方法，这些方法大致可以分为两类：无记忆的
具有有限状态数的 (*+,-. 链来模拟语音信号统计特
矢量量化和有记忆的矢量量化。无记忆的矢量量化
性变化的隐含的随机过程，另一个是与 (*+,-. 链的
包括树形搜索的矢量量化和多级矢量量化。
每一个状态相关联的观测序列的随机过程。前者通
O& 动态时间规整（PQ<）。
过后者表现出来，但前者的具体参数是不可测的。人
语音信号的端点监测是进行语音识别中的一个
的言语过程实际上就是一个双重随机过程，语音信号
基本步骤，它是特征训练和识别的基础。所谓端点监
本身是一个可观测的时变序列，是由大脑根据语法知
测就是在语音信号中的各种段落（如音素、音节、词
识和言语需要（不可观测的状态）发出的音素的参数
素）的始点和终点的位置，从语音信号中排除无声段。
流。可见，’(( 合理地模仿了这一过程，很好地描述
在早期，进行端点监测的主要依据是能量、振幅和过
了语音信号的整体非平稳性和局部平稳性，是较为理
零率。但效果往往不明显。R" 年代日本学者 LE*,:+*
想的一种语音模型。
提出了动态时间规整算法（ PQ<：PSJ*;D4 QD;= <*+T3
’(( 语音模型!（"，#，/）由起始状态概率（"）、
DJA）。算法的思想就是把未知量均匀的升长或缩短，
状态转移概率（ #）和观测序列概率（ /）三个参数决
直到与参考模式的长度一致。在这一过程中，未知单
定。"揭示了 ’(( 的拓扑结构，# 描述了语音信号
词的时间轴要不均匀地扭曲或弯折，以使其特征与模
随时间的变化情况，/ 给出了观测序列的统计特性。
型特征对正。
’(( 语音识别的一般过程是：用前向后向算法
动态时间规整是将时间规整和距离测度结合起
（0-+1*+23/*4,1*+2）通过递推方法计算已知模型输出
来的一种非线性规整技术。设测试语音参数共有 $
5 及模型!6（ 7 "，#，/）时的产生输出序列的概率 8
（5
帧矢量，而参考模板共有 ( 帧矢量，且 $" (U 要找时
9!），然后用 /*:;3<=>4? 算法，基于最大似然准则
间规整函数 V 6 1（ D），使测试矢量的时间轴 L 非线性
（ (@）对模型参数! （"，#，/）进行修正，最优参数!! 的
地映射到模板的时间轴 V 上，并满足：
求解可表示为!! 6 *+A ;*B｛8
（ 5 9!）｝。最后用 CDE=+FD
! (
算法解出产生输出序列的最佳状态转移序列 G。所 P 6 ;DJ#［（ D），W
2 Q （#（ D））］
（D）D 6 %
#
万方数据
谓最佳是以 G 的最大条件后验概率为准则，即 G 6 式中［（ D），W
2 Q （#（ D））］是第 D 帧测试矢量 Q
（ D）和
> 计算机与现代化 ’==’ 年第 0 期
第 ! 帧模板矢量 "（ !）之间的距离测度。 # 则是在最比西方语言更为困难和复杂。主要表现在：汉语的大

优情况下的两矢量之间的匹配路径。一般情况下，字符集影响了汉字的快速输入；汉语的字词不分使得
#$% 采用逆向思路，从过程的最后阶段开始，逆推到词的切分成为汉语语言理解与处理独有和首要的问
起始点，寻找其中的最优路径。题；大量的同音字、词给语音识别带来困难；灵活自由
的语言表述难以用汉语语言知识表示方法来表达。
! 语音识别的难点
" 语音识别的发展方向与应用前景
尽管语音识别的研究已有半个世纪了，但现有的
语音识别系统仍存在许多困难，还远远达不到实用化语音作为当前通讯系统中最自然的通信媒介，随
的要求，主要表现在：着计算机和语音处理技术的发展，语音识别系统的实
（&）鲁棒性：目前的语音识别系统对环境条件的用性将进一步提高。不同语种之间的语音———语音
依赖性强，要求保持测试条件和训练条件一致，否则的翻译，以及人体语言与口语相结合的多媒体人机交
系统性能会严重下降。互技术将是今后一段时期语音识别技术的发展方向。
（’）噪声问题：现有的语音识别系统大多只能工语音识别技术的应用前景是无限的。应用语音
作在安静的环境下，一旦在噪声环境下工作，讲话人的自动理解和翻译，可消除人类相互交往的语言障
产生情绪或心理上的变化，导致发音失真、发音速度碍。随着 3456-465 网的爆炸性扩张，电子商务（ 67+/897
和音调改变，即产生 ()*+,-. 效应或 ()/. 效应。常用 4688）迅速发展，语音识别技术将为网上会议、商业管
的抑制噪声的方法，可以概括为四个方面：谱减法、环理、医药卫生、教育培训等各领域带来极大的便利。
境规整技术、不修正语音信号而是修正识别器模型使参考文献：
之适合噪声、建立噪声模型。［&］李晓霞，王东木，李学耀 : 语音识别技术评述［ ;］: 计算机
（0）语音识别基元的选择：如何根据存贮空间和 &<<<，
应用研究， &= :
［’］聂敏 : 语音识别及其关键技术［ ;］: 微波与卫星通信，
搜索速度的要求，选择合适的识别单元，如词、音节、
&<<<，
1:
音素。一般来讲，要识别的词汇量越多，所用的基元
［0］江铭炎，李浩 : 语音识别的研究与进展［ ;］: 山东电子，
应越小越好。
&<<<，
’:
（1）端点监测：研究表明，即使在安静的环境下，［1］陈方，等 : 语音识别技术发展［ ;］: 电信科学，
&<<>，
&= :
语音识别系统一半以上的识别错误来自端点监测器。［2］胡航 : 语音信号处理［ ?］: 哈尔滨：哈尔滨工业大学出版
提高端点检测技术的关键在于寻找稳定的语音参数。社，
’=== :
（2）韵律信息的利用：韵律信息指的是说话之中［>］苏剑波，徐波 : 应用模式识别技术导论［?］: 上海：上海交
的重音、语调等超音段信息。实验表明，人可以从说通大学出版社，
’==& :
话的韵律中获取很多重要信息。但目前的语音识别［@］江铭虎，朱小燕，袁保宗 : 语音识别与理解的研究进展
系统却忽略了韵律信息。因此，如何在语音识别中结［ ;］: 电路与系统学报，

&<<<，
>:
［A］ (,B-64C6 ",+946-，D994E7F,B,4E ;/,4E: G)/4.,*645,H8 )I
合韵律信息还有待进一步的研究。
［?］: 北京：清华大学出版社，
JK66CL "6C)E4959)4 &<<< :
因为汉语自身的特点，使得汉语的语言信息处理
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
（上接第 ’ 页）法，
提出了新的编码规则，并且在选择算子、适值函
中，修改初始种群。在本文中遗传运算的终止进化代数、交叉算子以及变异算子等方面都提出了自己的见
数一般取 &== M &’=。解，
保证了系统的搜索速度以及精度，在实际中收到
@ : 结束。了较好的效果。
选取最优解为适值最小的位串，由适值函数 N 参考文献：
取其适值。［ &］ F)HH,4. ;: F: N.,K5,59)4 94 Q,5/-6 ,4. N-59I9C9,H JR856*8
［?］:
?3$ P-688，
&<<’ :
# 结束语［’］周明，孙树栋 : 遗传算法原理及应用［?］: 北京：国防工业
本文结合某公司车牌管理 O"P 系统，详细介绍出版社，

&<<< :
了用于求解复杂优化问题全局最优解的编码遗传算［0］纪树新，钱积新，孙优贤 : 车间作业调度遗传算法中的编

万方数据码研究［ ;］: 信息与控制，
&<<@，
&= :

语音识别的研究与发展

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

语音识别的研究与发展

Uploaded by

Copyright:

Available Formats

计算机与现代化

!""! 年第 % 期 YXSG/FYX ZG 2X/FJ/X0G/ 总第 ’& 期

!"# $#%#&’(" &)* +#,#-./0#)1 .2 3/##(" $#(.4)515.)

!"# 公司于 $%%& 年开发出汉语 ’()’*(+, 语音识别系理、所采用的基本技术相似。语音识别的原理图如图

神经网络的方法。 +A ;B｛8

第 ! 帧模板矢量 "（ !）之间的距离测度。 # 则是在最比西方语言更为困难和复杂。主要表现在：汉语的大

系统却忽略了韵律信息。因此，如何在语音识别中结［ ;］: 电路与系统学报，

本文结合某公司车牌管理 O"P 系统，详细介绍出版社，

了用于求解复杂优化问题全局最优解的编码遗传算［0］纪树新，钱积新，孙优贤 : 车间作业调度遗传算法中的编

You might also like

语音识别的研究与发展

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

语音识别的研究与发展

Uploaded by

Copyright:

Available Formats

计 算 机 与 现 代 化

!""! 年第 % 期 YXSG/FYX ZG 2X/FJ/X0G/ 总第 ’& 期

!"# $#%#&’(" &)* +#,#-./0#)1 .2 3/##(" $#(.4)515.)

!"# 公司于 $%%& 年开发出汉语 ’()’*(+, 语音识别系 理、所采用的基本技术相似。语音识别的原理图如图

神经网络的方法。 *+A ;*B｛8

第 ! 帧模板矢量 "（ !）之间的距离测度。 # 则是在最 比西方语言更为困难和复杂。主要表现在：汉语的大

系统却忽略了韵律信息。因此，如何在语音识别中结 ［ ;］: 电路与系统学报，

本文结合某公司车牌管理 O"P 系统，详细介绍 出版社，

了用于求解复杂优化问题全局最优解的编码遗传算 ［0］ 纪树新，钱积新，孙优贤 : 车间作业调度遗传算法中的编

You might also like

计算机与现代化

!"# 公司于 $%%& 年开发出汉语 ’()’*(+, 语音识别系理、所采用的基本技术相似。语音识别的原理图如图

神经网络的方法。 +A ;B｛8

第 ! 帧模板矢量 "（ !）之间的距离测度。 # 则是在最比西方语言更为困难和复杂。主要表现在：汉语的大

系统却忽略了韵律信息。因此，如何在语音识别中结［ ;］: 电路与系统学报，

本文结合某公司车牌管理 O"P 系统，详细介绍出版社，

了用于求解复杂优化问题全局最优解的编码遗传算［0］纪树新，钱积新，孙优贤 : 车间作业调度遗传算法中的编