You are on page 1of 4

计 算 机 与 现 代 化

!""! 年第 % 期 YXSG/FYX ZG 2X/FJ/X0G/ 总第 ’& 期

文章编号: (!""!)
#"")$!*’+ "%$"""%$"*

语音识别的研究与发展
何湘智
(国防科技大学机电工程与自动化学院,湖南 长沙 *#""’%)

摘要:综合阐述了语音识别技术的提出与发展历史,语音识别系统的分类,目前所面临的困难和采用的主要技术,以及
发展方向和应用前景。
关键词:语音识别;隐马尔可夫;矢量量化;动态时间规整
中图分类号:,-%&#.* 文献标识码:/

!"# $#%#&’(" &)* +#,#-./0#)1 .2 3/##(" $#(.4)515.)


01 23456$783
( 9:;;<6< := ><?84@A:53?B 15635<<A356 45C /D@:E4@3:5,F4@3:54; G53HI := J<=<5B< ,<?85:;:6K,98456B84 *#""’%,98354)

67%1’&(1:1LM:D5CB @8< A<4B:5B 45C C<H<;:ME<5@ 83B@:AK ,@8< MA:N;<EB =4?<C ,@8< O<K @<?85:;:63<B := BM<<?8 A<?:653@3:5,45C ?;4BB=3<B
@8< BKB@<EB := BM<<?8 A<?:653@3:5,;::OB 48<4C @8< C<H<;:ME<5@ := @8< =3<;CI
8#9:.’*:BM<<?8 A<?:653@3:5;0>>;PQ;J,R

文数字的语音识别系统———/DCAK 系统。
; 语音识别技术的提出及发展历史 )" 年代,计算机的应用推动了语音识别的发展。
随着现代科学和计算机技术的发展,人们在与机 这一时期的重要成果是提出了用动态规划( J-)方法
器的信息交流中,需要一种更加方便、自然的方式。 来解决语音识别中不等长的对正问题。
而人的直观感觉可以给人最直接的印象,获取信息速 ’" 年代,语音识别领域取得了突破。线性预测
度也就最快。虽然,嗅觉、触觉也是人类固有的感觉, 编码技术( W-9)的引入,使语音识别的特征提取产生
人们可以从中得到某些外界信息,但最重要、最精细 了一次飞跃。动态时间规整技术(J,R)基本成熟,提
的信息源只有图像和语言两种。而且,语言是人类最 出了矢量量化( PQ)和隐马尔可夫模型( 0>>)理论。
重要的、最有效的、最常用的和最方便的通信形式。 实现了基于线性预测倒谱和 J,R 技术的特定人孤立
这就很容易让人想到能否用自然语言代替传统的人 语音识别系统。
机交流方式如键盘、鼠标等。一般来讲,人与机器的 (" 年代,语音识别研究进一步走向深入,其显著
语言通信大致分为两种情况:第一种情况就是机器讲 特征是 0>> 模型和人工神经元网络(/FF)在语音识
话,
人听话。这就是“人工嘴巴”即语音的人工合成; 别中的成功应用。 0>> 模型的广泛应用应归功于
第二种情况就是人讲话,机器听话。这即是“人工耳 /,U , V<;; 实验室 T4N35<A 等科学家的努力,他们把
朵”,即语音的人工识别和理解。语音识别较语音合 原本艰涩的 0>> 纯数学模型工程化,从而为更多研
成而言,技术上要复杂,但应用却更加广泛。语音识 究者了解和认识。
别 /ST
(/D@:E4@3? SM<<?8 T<?:653@3:5)的最大优势在于 进入 &" 年代,随着多媒体时代的来临,迫切要求
使得人机用户界面更加自然和容易使用。 语音识别系统从实验室走向实用。许多发达国家如
语音识别的研究工作大约开始于 +" 年代,标志 美国、日本、韩国以及 XV>、/MM;<、/,U,、F,, 等著名
就是 /,U , V<;; 实验室实现了第一个可识别十个英 公司都为语音识别系统的实用化开发研究投以巨资。

收稿日期:!""#$##$#%
作者简介:何湘智(#&’($),男,湖南衡山人,国防科技大学机电工程与自动化学院硕士研究生,研究方向:信号处理与模式
识别。
万方数据
J 计 算 机 与 现 代 化 /00/ 年第 . 期

!"# 公司于 $%%& 年开发出汉语 ’()’*(+, 语音识别系 理、所采用的基本技术相似。语音识别的原理图如图


统, 次年又开发出可以识别上海话、广东话和四川话 $ 所示。
等地方口音的语音识别系统 ’()’*(+,’%-。它带有一
个 ./,
000 词的基本词汇表,可以扩展到 12,000 词,
还包括办公常用词条,具有”纠错机制”,其平均识别
率可以达到 %23 。该系统对新闻语音识别具有较高
的精度,是目前具有代表性的汉语连续语音识别系
统。 45,,+67*89: 公司是世界领先的电话自动语音识
图$ 语音识别原理图
别系 统( ;4< )解 决 方 案 的 提 供 者,代 表 产 品 为
45,,+67*89: 1。利用该产品,用户可以通过电话用自 预处理。包括反混叠滤波、模数变换、自动增益
然语言与系统进行交互,进行旅游预约、股票交易、银 控制、去除声门激励以及在声学参数分析之前正确选
行服务、订票服务、宾馆服务和寻呼服务等,由于系统 择识别基元等问题。
是自动的,无需服务人员的介入。目前市场上出现了 参数分析。经过预处理后的语音信号,就要对其
语音识别电话、语音识别记事本等产品,如美国 ’=>? 进行特征参数分析。识别参数的选择有很多种,要视
公司的 ’*(+, @8A)B(C,8 和法国的 =)88*D 等。 系统的具体要求而定。一般来说,如果参数中包含的
我国语音识别研究工作一直紧跟国际水平,国家 信息越多,则分析或提取的复杂度也越大。可供选择
也很重视,并把大词汇量语音识别的研究列入“-1.” 的识别参数包括:平均能量、过零率、频谱、共振峰(包
计划,由中科院声学所、自动化所及北京大学等单位 括频率、带宽、幅度)、倒谱、线性预测系数( F=?)、偏
研究开发,取得了高水平的科研成果,如中科院自动 自相关系数( =;<?@< 系数)、随机模型(即隐马尔可
化所研制的非特定人、连续语音听写系统和汉语语音 夫模型)的概率函数、矢量量化的矢量,以及音长、音
人机对话系统,其字准确率或系统响应率可达 %03 调、声调等超音段信息函数。
以上。鉴于中国未来庞大的市场,国外也非常重视汉 失真测度。用于语音识别的失真测度有多种,如
语语音识别的研究。美国、新加坡等地聚集了一批来 欧氏距离及其变形的距离、似然比测度、加权的超音
自大陆、台湾、香港等地的学者,研究成果已达到相当 段信息的识别测度等。
高水平。 语音库,即声学参数模板。是用训练和聚类的方
法,
从一人或多人的多次重复的语音参数,经过长时
! 语音识别系统
间的训练而聚类得到的。
语音识别系统的研究涉及微机技术、人工智能、 测度估计是语音识别的核心。用来表征参数与
数字信号处理、模式识别、声学、语言学和认知科学等 模板之间的测度。常用的方法有:动态时间规整法
许多学科领域,是一个多学科综合性研究领域。语音 (G>7)、有限状态矢量量化法( ’H)、隐马尔可夫模型
识别系统的基本过程包括:采样、确定输入信号的起 法( I##)等。
始点,由数字滤波器直接地或模拟滤波器间接地计算 专家知识库,用来存贮各种语言学知识。如汉语
语音谱、音调轮廓图估价、分解输入信号、单词识别和 声调变调规则、音长分布规则、同音字判别规则、构词
对输入信号做出响应。 规则、语法规则、语义规则等。对于不同的语言有不
语音识别系统在实际应用过程中根据不同的分 同的语言学专家知识库,对于汉语也有其特有的专家
类准则可以有多种分类方式: 知识库。
$E 根据对说话人说话方式的要求,可以分为孤 判决是语音识别的最后一步,也是系统识别效果
立字(词)语音识别系统、连接字语音识别系统以及连 的最终表现。对于属于信号计算而得的测度,根据若
续语音识别系统。 干准则及专家知识,判决选出可能的结果中最好的结
/E 根据对说话人的依赖程度可以分为特定人和 果,由识别系统输出。
非特定人语音识别系统。
" 语音识别的主要方法
.E 根据词汇量大小,可以分为小词汇量、中等词
汇量、大词汇量以及无限词汇量语音识别系统。 一般来说,语音识别的方法有三种:基于声道模
万方数据
虽然语音识别系统有多种分类方法, 但基本原 型和语音知识的方法、模板匹配的方法以及利用人工
H""H 年第 O 期 何湘智:语音识别的研究与发展 X

神经网络的方法。 *+A ;*B{8


(G 9 5,
!)}。
B
基于声道模型和语音知识的方法起步较早,在语 H& 矢量量化(CI)。
音识别技术提出的开始,就有了这方面的研究,但由 矢量量化(C=4E-+ I:*JEDK*ED-J)是一种重要的信号
于其模型及语音知识过于复杂,现阶段没有达到实用 压缩方法。与 ’(( 相比,矢量量化主要适用于小词
的阶段。利用人工神经网络的方法是 !" 年代末期提 汇量、孤立词的语音识别中。其过程是:将语音信号
出的一种新的语音识别方法。人工神经网络( #$$) 波形的 , 个样点的每一帧,或有 , 个参数的每一参数
本质上是一个自适应非线性动力学系统,模拟了人类 构成 , 维空间中的一个矢量,然后对矢量进行量
帧,
神经活动的原理,具有自适应性、并行性、鲁棒性、容 化。量化时,将 , 维无限空间划分为 ( 个区域边界,
错性和学习特性,在结构和算法上都显示出实力。但 然后将输入矢量与这些边界进行比较,并被量化为
由于存在训练、识别时间太长的缺点,目前仍处于实 “距离”最小的区域边界的中心矢量值。矢量量化器
验探索阶段。模板匹配的方法发展比较成熟,目前已 的设计就是从大量信号样本中训练出好的码书,从实
达到了实用阶段。在模板匹配方法中,要经过四个步 际效果出发寻找到好的失真测度定义公式,设计出最
骤:特征提取、模板训练、模板分类、判决。本文主要 佳的矢量量化系统,用最少的搜索和计算失真的运算
讨论在模板匹配中所普遍采用的一些技术。 量,实现最大可能的平均信噪比。失真测度主要有均
%& 隐马尔可夫法(’(()。 方误差(即欧氏距离)、加权的均方误差、LE*,:+*3M*DE-
隐马尔可夫法(’(()是 )" 年代引入语音识别理
距离,似然比失真测度等。初始码书的生成可以是随
论的,它的出现,使得自然语音识别系统取得了实质
机选取、分裂生成法、乘积码书法。在选定了失真测
性的突破。 ’(( 方法现已成为语音识别的主流技
度和初始码书后,就用 @/N 算法,对初始码书进行迭
术,
目前大多数大词汇量、连续语音的非特定人语音
代优化,一直到系统性能满足要求或不再有明显的改
识别系统都是基于 ’(( 模型的。
进为止。
’(( 是对语音信号的时间序列结构建立统计模
在实际的应用过程中,人们还研究了多种降低复
型,
将之看作一个数学上的双重随机过程:一个是用
杂度的方法,这些方法大致可以分为两类:无记忆的
具有有限状态数的 (*+,-. 链来模拟语音信号统计特
矢量量化和有记忆的矢量量化。无记忆的矢量量化
性变化的隐含的随机过程,另一个是与 (*+,-. 链的
包括树形搜索的矢量量化和多级矢量量化。
每一个状态相关联的观测序列的随机过程。前者通
O& 动态时间规整(PQ<)。
过后者表现出来,但前者的具体参数是不可测的。人
语音信号的端点监测是进行语音识别中的一个
的言语过程实际上就是一个双重随机过程,语音信号
基本步骤,它是特征训练和识别的基础。所谓端点监
本身是一个可观测的时变序列,是由大脑根据语法知
测就是在语音信号中的各种段落(如音素、音节、词
识和言语需要(不可观测的状态)发出的音素的参数
素)的始点和终点的位置,从语音信号中排除无声段。
流。可见,’(( 合理地模仿了这一过程,很好地描述
在早期,进行端点监测的主要依据是能量、振幅和过
了语音信号的整体非平稳性和局部平稳性,是较为理
零率。但效果往往不明显。R" 年代日本学者 LE*,:+*
想的一种语音模型。
提出了动态时间规整算法( PQ<:PSJ*;D4 QD;= <*+T3
’(( 语音模型!(",#,/)由起始状态概率(")、
DJA)。算法的思想就是把未知量均匀的升长或缩短,
状态转移概率( #)和观测序列概率( /)三个参数决
直到与参考模式的长度一致。在这一过程中,未知单
定。"揭示了 ’(( 的拓扑结构,# 描述了语音信号
词的时间轴要不均匀地扭曲或弯折,以使其特征与模
随时间的变化情况,/ 给出了观测序列的统计特性。
型特征对正。
’(( 语音识别的一般过程是:用前向后向算法
动态时间规整是将时间规整和距离测度结合起
(0-+1*+23/*4,1*+2)通过递推方法计算已知模型输出
来的一种非线性规整技术。设测试语音参数共有 $
5 及模型!6( 7 ",#,/)时的产生输出序列的概率 8
(5
帧矢量,而参考模板共有 ( 帧矢量,且 $" (U 要找时
9!),然 后 用 /*:;3<=>4? 算 法,基 于 最 大 似 然 准 则
间规整函数 V 6 1( D),使测试矢量的时间轴 L 非线性
( (@)对模型参数! (",#,/)进行修正,最优参数!! 的
地映射到模板的时间轴 V 上,并满足:
求解可表示为!! 6 *+A ;*B{8
( 5 9!)}。最后用 CDE=+FD
! (
算法解出产生输出序列的最佳状态转移序列 G。所 P 6 ;DJ#[ ( D),W
2 Q (#( D))]
(D)D 6 %
#
万方数据
谓最佳是以 G 的最大条件后验概率为准则,即 G 6 式中 [ ( D),W
2 Q (#( D))]是第 D 帧测试矢量 Q
( D)和
> 计 算 机 与 现 代 化 ’==’ 年第 0 期

第 ! 帧模板矢量 "( !)之间的距离测度。 # 则是在最 比西方语言更为困难和复杂。主要表现在:汉语的大


优情况下的两矢量之间的匹配路径。一般情况下, 字符集影响了汉字的快速输入;汉语的字词不分使得
#$% 采用逆向思路,从过程的最后阶段开始,逆推到 词的切分成为汉语语言理解与处理独有和首要的问
起始点,寻找其中的最优路径。 题;大量的同音字、词给语音识别带来困难;灵活自由
的语言表述难以用汉语语言知识表示方法来表达。
! 语音识别的难点
" 语音识别的发展方向与应用前景
尽管语音识别的研究已有半个世纪了,但现有的
语音识别系统仍存在许多困难,还远远达不到实用化 语音作为当前通讯系统中最自然的通信媒介,随
的要求,主要表现在: 着计算机和语音处理技术的发展,语音识别系统的实
(&)鲁棒性:目前的语音识别系统对环境条件的 用性将进一步提高。不同语种之间的语音———语音
依赖性强,要求保持测试条件和训练条件一致,否则 的翻译,以及人体语言与口语相结合的多媒体人机交
系统性能会严重下降。 互技术将是今后一段时期语音识别技术的发展方向。
(’)噪声问题:现有的语音识别系统大多只能工 语音识别技术的应用前景是无限的。应用语音
作在安静的环境下,一旦在噪声环境下工作,讲话人 的自动理解和翻译,可消除人类相互交往的语言障
产生情绪或心理上的变化,导致发音失真、发音速度 碍。随着 3456-465 网的爆炸性扩张,电子商务( 67+/897
和音调改变,即产生 ()*+,-. 效应或 ()/. 效应。常用 4688)迅速发展,语音识别技术将为网上会议、商业管
的抑制噪声的方法,可以概括为四个方面:谱减法、环 理、医药卫生、教育培训等各领域带来极大的便利。
境规整技术、不修正语音信号而是修正识别器模型使 参考文献:
之适合噪声、建立噪声模型。 [&] 李晓霞,王东木,李学耀 : 语音识别技术评述[ ;]: 计算机

(0)语音识别基元的选择:如何根据存贮空间和 &<<<,
应用研究, &= :
[’] 聂敏 : 语 音 识 别 及 其 关 键 技 术[ ;]: 微 波 与 卫 星 通 信,
搜索速度的要求,选择合适的识别单元,如词、音节、
&<<<,
1:
音素。一般来讲,要识别的词汇量越多,所用的基元
[0] 江铭炎,李浩 : 语音识别的研究与进展[ ;]: 山东电子,
应越小越好。
&<<<,
’:
(1)端点监测:研究表明,即使在安静的环境下, [1] 陈方,等 : 语音识别技术发展[ ;]: 电信科学,
&<<>,
&= :
语音识别系统一半以上的识别错误来自端点监测器。 [2] 胡航 : 语音信号处理[ ?]: 哈尔滨:哈尔滨工业大学出版
提高端点检测技术的关键在于寻找稳定的语音参数。 社,
’=== :
(2)韵律信息的利用:韵律信息指的是说话之中 [>] 苏剑波,徐波 : 应用模式识别技术导论[?]: 上海:上海交
的重音、语调等超音段信息。实验表明,人可以从说 通大学出版社,
’==& :
话的韵律中获取很多重要信息。但目前的语音识别 [@] 江铭虎,朱小燕,袁保宗 : 语音识别与理解的研究进展

系统却忽略了韵律信息。因此,如何在语音识别中结 [ ;]: 电路与系统学报,


&<<<,
>:
[A] (,B-64C6 ",+946-,D994E7F,B,4E ;/,4E: G)/4.,*645,H8 )I
合韵律信息还有待进一步的研究。
[?]: 北京:清华大学出版社,
JK66CL "6C)E4959)4 &<<< :
因为汉语自身的特点,使得汉语的语言信息处理
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第 ’ 页) 法,
提出了新的编码规则,并且在选择算子、适值函
中,修改初始种群。在本文中遗传运算的终止进化代 数、交叉算子以及变异算子等方面都提出了自己的见
数一般取 &== M &’=。 解,
保证了系统的搜索速度以及精度,在实际中收到
@ : 结束。 了较好的效果。
选取最优解为适值最小的位串,由适值函数 N 参考文献:
取其适值。 [ &] F)HH,4. ;: F: N.,K5,59)4 94 Q,5/-6 ,4. N-59I9C9,H JR856*8
[?]:
?3$ P-688,
&<<’ :
# 结束语 [’] 周明,孙树栋 : 遗传算法原理及应用[?]: 北京:国防工业

本文结合某公司车牌管理 O"P 系统,详细介绍 出版社,


&<<< :

了用于求解复杂优化问题全局最优解的编码遗传算 [0] 纪树新,钱积新,孙优贤 : 车间作业调度遗传算法中的编


万方数据 码研究[ ;]: 信息与控制,
&<<@,
&= :

You might also like