基于声学特征的语言情感识别

第４２卷第９期　计算机科学　Ｖｏ１
．４２　Ｎｏ．９　
２０１５年９月　Ｃｏｍｐｕｔｅｒ　Ｓｃｉ
ｅｎｃｅ　Ｓｅｐ　２０１５
　
基于声学特征的语言情感识别　
金琴　。
　陈师哲　李锡荣。杨刚　许洁萍。
　
（中国人民大学数据工程与知识工程教育部重点实验室　北京１
００８７２）
　
（中国人民大学信息学院　北京１
００８７２）
　
摘要语音情感ｉ
Ｙ，￣
ｔ
，１
是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关　
键问题之一：
生成情感识别的有效的特征表示。从４个角度生成了语音信号中的情感特征表示：
（１）
低层次的声学特　
征，包括能量、
基频、
声音质量、
频谱等相关的特征，以及基于这些低层次特征的统计特征；
（２）
倒谱声学特征根据情感　
相关的高斯混合模型进行距离转化而得出的特征；
（３）声学特征依据声学词典进行转化而得出的特征；
（４）
声学特征转　
化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能，
并且尝试了将不同的特征进行融合，
最　
后比较了不同的声学特征在几个不同语言的情感数据集上的效果（包括Ｉ
ＥＭＯＣＡＰ英语情感语料库、
ＣＡＳＩ
Ａ汉语情　
感语料库和Ｂｅ
ｒｌｉ
ｎ德语情感语料库）。在Ｉ
ＥＭＯＣＡＰ数据集上，系统的正确识别率达到了７１
．９　，
超越了之前在此数　
据集上报告的最好结果。
　
关键词语音情感识别，
声学特征，
特征融合　
中图法分类号ＴＰ３
９１　文献标识码Ａ　ＤＯＩ
　１０
．１１
８９６
／ｊ．ｉ
ｓｓｎ
．１０
０２—
１３７
Ｘ．２
０１５
．９．
００５
　
Ｓｐｅｅｃｈ　Ｅｍｏｔｉ
ｏｎ　
Ｒｅｃｏｇｎｉ
ｔｉｏｎ　Ｂａｓｅｄ　ｏｎ　Ａｃｏｕｓｔｉ
ｃ　Ｆｅａｔ
ｕｒｅｓ　
ＪＩ
Ｎ　Ｑｉ
ｎ　ＣＨＥＮ　
Ｓｈｉ
－ｚｈｅ２
　ＬＩ
　Ｘｉ
—ｒｏｎｇｅ
　ＹＡＮＧ　Ｇａｎｇ２
　ＸＵ　
Ｊｉｅ
－ｐｉ
ｎｇ２
　
（
Ｋｅｙ
　Ｌａｂｏｒ
ａｔｏｒｙ
　ｏｆ
　Ｄａ
ｔａ　
Ｅｎｇｉ
ｎｅｅｒ
ｉｎｇ　
ａｎｄ　
Ｋｎｏｗｌ
ｅｄｇｅ
　Ｅｎｇｉ
ｎｅｅ
ｒｉｎｇ　
ｏｆ　
Ｍｉｎｉ
ｓｔｒ
ｙ　ｏｆ
　Ｅｄｕｃ
ａｔｉ
ｏｎ，
Ｒｅｎｍｉ
ｎ　Ｕｎｉ
ｖｅｒ
ｓｉｔ
ｙ　ｏｆ
　Ｃｈｉ
ｎａ，
Ｂｅｉ
ｊｉ
ｎｇ　
１００８７２，
Ｃｈｉ
ｎａ）
　
（Ｓｃ
ｈｏｏ
ｌ　ｏｆ
　Ｉｎｆ
ｏｒｍａｔ
ｉｏｎ，
Ｒｅｎｍｉ
ｎ　Ｕｎｉ
ｖｅｒ
ｓｉｔ
ｙ　ｏｆ
　Ｃｈｉ
ｎａ，
Ｂｅｉ
ｊｉ
ｎｇ　
１００８７２，
Ｃｈｉ
ｎａ）
　
Ａｂｓ
ｔｒａｃｔ
　Ｅｍｏｔ
ｉｏｎ　ｒ
ｅｃｏｇｎｉ
ｔｉｏｎ　
ｆｒｏｍ　
ｓｐｅｅ
ｃｈ　
ｉｓ　ａ　
ｃｈａｌ
ｌｅｎｇｉ
ｎｇ　ｒ
ｅｓｅａｒ
ｃｈ　
ａｒｅａ
　ｗｉ
ｔｈ　
ｗｉｄｅ　
ａｐｐｌ
ｉｃａｔ
ｉｏｎｓ
．Ｔｈｉ
ｓ　ｐａｐｅｒ
　ｅｘｐｌ
ｏｒｅ
ｄ　
ｏｎｅ
　ｏｆ
　ｔｈｅ　
ｋｅｙ　ａｓｐｅｃ
ｔｓ　ｏｆ
　ｂｕｉ
ｌｄｉ
ｎｇ　ａｎ　ｅｍｏｔｉ
ｏｎ　ｒ
ｅｃｏｇｎｉ
ｔｉｏｎ　ｓｙｓ
ｔｅｍ：ｇｅ
ｎｅｒ
ａｔｉ
ｎｇ　ｓｕｉ
ｔａｂｌ
ｅ　ｆ
ａｔ
ｅｕｒ
ｅ　ｒ
ｅｐｒ
ｅｓｅｎｔ
ａｔｉ
ｏｎ．Ｗｅ
　ｅｘｔ
ｒａｃ
ｔｅｄ　
ｆ
ｅａｔ
ｕｒｅｓ
　ｆｒ
ｏｍ　
ｆｏｕｒ
　ａｎｇｌ
ｅｓ：
（１）ｌ
ｏｗ－ｌ
ｅｖｅ
ｌ　ａｃ
ｏｕｓ
ｔｉｃ
　ｆｅａｔ
ｕｒｅｓ　
ｓｕｃｈ　
ａｓ　
ｉｎｔｅ
ｎｓｉ
ｔｙ，
Ｆ０，
ｊｉｔ
ｔｅｒ，
ｓｈｉ
ｍｍｅｒ，ｓｐｅｃｔ
ｒａｌ
　ｃｏｎｔ
ｏｕｒ
ｓ　ｅｔ
ｃ．ａｎｄ　
ｓｔ
ａｔｉ
ｓｔｉ
ｃａｌ
　ｆｕｎｃｔ
ｉｏｎｓ
　ｏｖｅｒ
　ｔｈｅｓ
ｅ　ｆ
ｅａｔｕｒｅｓ，（２）ａ　ｓｅｔ
　ｏｆ
　ｆｅａｔ
ｕｒｅｓ
　ｄｅｒ
ｉｖｅ
ｄ　ｆ
ｒｏｍ　ｓ
ｅｇｍｅ
ｎｔａｌ
　ｃｅｐｓｔ
ｒａｌ
—ｂａｓｅ
ｄ　ｆ
ｅａｔ
ｕｒｅ
ｓ　ｓｃｏｒｅｄ　
ａｇａｉ
ｎｓｔ
　ｅｍｏｔ
ｉｏｎ－ｄｅｐｅｎｄｅｎｔ
　Ｇａｕｓｓｉ
ａｎ　
ｍｉｘｔ
ｕｒｅ
　ｍｏｄｅ
ｌｓ，（３）ａ　ｓ
ｅｔ　
ｏｆ　ｆ
ｅａｔ
ｕｒｅｓ
　ｄｅｒｉ
ｖｅｄ　ｆ
ｒｏｍ　
ａ　ｓ
ｅｔ　
ｏｆ　ｌ
ｏｗ－
ｌｅｖｅ１
　ａｃｏｕｓｔ
ｉｃ　ｃｏｄｅ—
　
ｗｏｒ
ｄｓ，（４）ＧＭＭ　ｓ
ｕｐｅｒ
ｖｅｃｔ
ｏｒｓ
　ｃｏｎｓ
ｔｒｕｃ
ｔｅｄ　
ｂｙ　
ｓｔａｃｋｉ
ｎｇ　
ｔｈｅ
　ｍｅａｎｓ
　ｏｒ
　ｃｏｖａｒｉ
ａｎｃ
ｅ　ｏｒ　
ｗｅｉ
ｇｈｔ
ｓ　ｏｆ
　ｔｈｅ
　ａｄａｐｔ
ｅｄ　
ｍｉｘｔ
ｕｒｅ
　ｃｏｍ—
　
ｐｏｎｅｎｔｓ
　ｏｎ　
ｅａｃｈ　ｕｔ
ｔｅｒ
ａｎｃｅ．Ｗｅ　
ａｐｐｌ
ｉｅｄ　ｔ
ｈｅｓｅ　ｆ
ｅａｔ
ｕｒｅｓ
　ｆｏｒ
　ｅｍｏｔ
ｉｏｎ　ｒ
ｅｃｏｇｎｉ
ｔｉ
ｏｎ　ｉ
ｎｄｅｐｅｎｄｅｎｔ
ｌｙ　
ａｎｄ　ｊ
ｏｉｎｔ
ｌｙ　ａｎｄ　ｃ
ｏｍｐａｒｅｄ　
ｔ
ｈｅｉ
ｒ　ｐｅｒｆ
ｏｒｍａｎｃｅ　
ｗｉｔ
ｈｉｎ　
ｔｈｉ
ｓ　ｔ
ａｓｋ　
Ｗｅ　
ｂｕｉ
ｌｔ　ａ
　ｓｕｐｐｏｒｔ
　ｖｅ
ｃｔｏｒ
　ｍａｃ
ｈｉｎｅ（ＳⅥ Ⅵ）ｃ
ｌａｓｓ
ｉｆｉ
ｅｒ　
ｂａｓｅ
（１　ｏｎ　ｔ
ｈｅｓ
ｅ　ｆ
ｅａｔ
ｕｒｅ
ｓ．Ｗｅ
　ｔｅｓｔ
ｅｄ　
ｔ
ｈｅ　ｐｅ
ｒｆｏｒ
ｍａｎｃｅ　
ｏｆ　ｔ
ｈｅｓｅ　
ｄｉｆ
ｆｅｒ
ｅｎｔ
　ｆｅａｔ
ｕｒｅｓ
　ｏｎ　ｓ
ｏｍｅ
　ｐｕｂｌ
ｉｃ　ｅｍｏｔ
ｉｏｎ　
ｒｅｃ
ｏｇｎｉ
ｔｉｏｎ　ｃｏｒｐｕｓ（ｉ
ｎｃｌ
ｕｄｉ
ｎｇ　
ＩＥＭＯＣＡＰ　ｃｏｒｐｕｓ
　ｉｎ　
Ｅｎｇｌ
ｉｓｈ，
ＣＡＳＩ
Ａ　ｃ
ｏｒｐｕｓ
　ｉｎ　
Ｍａｎｄａｒｉ
ｎ，ａｎｄ　
Ｂｅｒｌ
ｉｎＥＭＯ－
ＤＢ　
ｉｎ　
Ｇｅｒｍａｎｙ）．Ｏｎ　
ｔｈｅ
　ＩＥＭＯＣＡＰ　
ｄａｔ
ａｂａｓｅ，
ｔｈｅ
　ｆｏｕｒ
－ｃｌ
ａｓｓ
　ｅｍｏ—
　
ｔｉ
ｏｎ　
ｒｅｃｏｇｎｉ
ｔｉｏｎ　
ａｃｃｕｒ
ａｃｙ　
ｏｆ　ｏｕｒ
　ｓｙｓ
ｔｅｍ　
ｉｓ　
７１．９
　，ｗｈｉ
ｃｈ　ｏｕｔ
ｐｅｒ
ｆｏｒ
ｍｓ　ｔ
ｈｅ　
ｐｒｅ
ｖｉｏｕｓｌ
ｙ　ｒ
ｅｐｏｒｔ
ｅｄ　
ｂｅｓｔ
　ｒｅｓｕｌ
ｔｓ　
ｏｎ　ｔ
ｈｉｓ
　ｄａｔ
ａ—　
ｓｅｔ．
　
Ｋｅｙｗｏｒｄｓ
　Ｓｐｅｅｃｈ　ｅ
ｍｏｔ
ｉｏｎ　
ｒｅｃ
ｏｇｎｉ
ｔｉｏｎ，
Ａｃｏｕｓｔ
ｉｃ　ｆ
ｅａｔ
ｕｒｅｓ，
Ｆｅａｔ
ｕｒｅ
　ｆｕｓｉ
ｏｎ　
个非常重要的研究方向，
尤其在人机交互的应用中有重要的　
１
　引言　
意义和广泛的应用前景，
例如在计算机交互教学ｌ
＿
１］，
以及人的　
一
般认为人类是通过语言、
表情、
音乐和行为等表达模式　精神健康辅助诊断ｌ
＿
２］等应用中都发挥着重要的作用。
　
来进行情感交流的，
其中包含在语音信号中的情感信息是非　要研究语音信号中所包含的情感，
首先需要根据某些特　
常重要的信息资源，
因此基于语音的情感分析的研究越来越　性标准对语音情感做一个有效合理的分类，
然后在不同类别　
受到人们的重视。而语音情感识别是语音信息处理技术中一　的基础上研究特征参数的性质。本文主要集中研究语音情感　
到稿日期：
２０１
４—０８—
１２返修日期：
２０１４—
０９—１
３　本文受北京市自然科学基金（
４１４２０２９），
中国人民大学科学研究基金（中央高校基本科研业务　
费专项资金）（１
４ＸＮＬＱ０１）资助。
　
金￣－
（１９７
２－），
女，博士，
副教授，
ＣＣＦ会员，
主要研究方向为音频信息处理、多媒体内容分析与理解、自然语言处理、
统计机器学习，Ｅ－
ｍａｉ
ｌ：
　
ｑｊ
ｉｎ＠ｒ
ｕｃ．ｅｄｕ．ｃ
ｎ；陈师哲（１
９９４－），
女，主要研究方向为音频信息处理；
李锡荣（
１９８３－），
男，博士，
讲师，
ＣＣＦ会员，
主要研究方向为图像检索与　
多媒体内容分析；
杨刚（１
９７９－），
男，博士，
讲师，
主要研究方向为神经网络算法；
许洁萍（１９６６－），
女，博士，副教授，
ＣＣＦ会员，
主要研究方向　
为多媒体信息处理。
　
・　
２４・
　
识别的声学特征表示；
在提取低层次的帧级声学特征的基础　度神经元网络的特征的学习需要大量的训练数据，
本文没有　
上，
通过４种不同的转化操作生成不同的衍生特征。这４种　直接与其进行比较。本文工作主要集中在生成语音情感识别　
转化包括：
１）传统的统计函数变换，
包括极值、
均值、
方差等；
　的有效声学特征表示。
　
２
）将帧级声学特征与情感相关的高斯混合模型进行距离计算　
３声学特征　
而转化的特征；
３）通过数据驱动方法得到的声学码字，
并以这　
些码字进行转化的特征；
４）通过高斯混合模型转化生成的超　本文首先对每个语音句子提取了帧级的低层次声学特　
向量特征表示。本文也探索了将不同特征进行融合，
包括前　征，
然后再整体地或局部地对这些低层次基础特征进行转化　
期在特征级别的融合以及后期在分类结果级别的融合。

　操作。
　
本文第２节简要介绍了语音情感识别的相关工作；
第３
　３．１低层次基础声学特征　
节详细介绍了低层声学特征以及通过４种变化衍生的特征；
　首先利用Ｏｐ
ｅｎＳＭＩ
ＬＥ工具ｌ
＿
】。
　进行低层次特征提取，
参　
第４节介绍了实验所用的３个数据集；
第５节阐述了具体的　考了Ｉ
ｎｔｅ
ｒｓｐｅ
ｅｃｈ
　２０１
０年泛语言学挑战赛（
Ｐａｒ
ａｌｉ
ｎｇｕ
ｉｓｔ
ｉｃ　
实验设置以及实验结果；
最后对本文的研究工作进行总结和　Ｃｈａ
ｌｌｅ
ｎｇｅ
）中广泛使用的特征提取配置文件 “ｅ
ｍｏｂ
ａｓｅ
２０１
０．　
展望。
　ｃ
ｏｎｆ
”［“］。表１列出了本文实验中所抽取的低层次基础声学　
特征。其中基频特征和声音质量特征是用４０
ｍｓ的帧窗和　
２相关工作　１
０ｍｓ的帧移抽取，
倒谱类的特征是用２
５ｍｓ的帧窗和１
０ｍｓ
　
语音情感描述方式大致可以分为离散情感类别和连续情　的帧移抽取。
　
感维度两种形式。前者将情感描述成离散的、
情感类别标签　表１低层次基础声学特征　
的形式，
如高兴、
悲伤等，
属于分类问题；
后者则将情感状态描　ＦＥＡＴＵＲＥＳ　ＤＥＳ（；
ＲＩＰＴ１
０Ｎ　
Ｔｈｅｎ　ｌ
ｏｕｄｎｅｓｓ
　ａｓ　
ｔｈｅ　
ｎｏｒ
ｍａｌ
ｉｚｅｄ　
ｉｎｔｅｎｓｉ
ｔｙ　
述为多维情感空间的点，
每个维度对应着情感空间的一个心　Ｌｏｕｄｎｅｓｓ＋Ｄｅｌ
ｔａ　
ｒ
ａｉｓ
ｅｄｔ
Ｏ　ａ　ｐｏｗｅｒ
　ｏｆ
　０．３
　
理学属性，
如表示情感激烈程度的激活度属性。其因用连续　Ｆ０ｆ
ｉｎａｌ
＋Ｄｅｌ
ｔａ　Ｔｈｅ
　ｓｍｏｏｔｈｅｄ　
ｆｕｎｄａｍｅｎｔａｌ
　ｆｒ
ｅｑｕｅｎｃｙ　
ｃｏｎｔ
ｏｕｒ
　
的实数对每一维度进行描述，
也被称为连续情感描述，
一般被　Ｆ０ｆ
ｉｎＥｎｖ＋Ｄ
ｅｌ
ｔａ　
Ｔｈｅ　
ｅｎｖｅｌ
ｏｐｅ　
ｏｆ　
ｔｈｅ　ｓｍｏｏｔ
ｈｅｄ　ｆ
ｕｎｄａｍｅｎｔ
ａ１　
ｆｒ
ｅｑｕｅｎｃｙ　
ｃｏｎｔ
ｏｕｒ
　
建模为标准的预测或拟合问题。这两种形式都具有各自表达　
Ｔｈｅ　１
ｏｅａｌ
（　ｆ
ｒａｍｅ－ｔ
ｏ－ｆ
ｒａｍｅ）Ｊｉ
ｔｔｅｒ　
情感的优缺点，
离散情感描述简洁、
易懂、
容易着手，
但是其单　ｊ
ｉｔｔｅｒ
Ｌｏｃａｌ＋Ｄ
ｅｌｔａ
　
（ｐｉ
ｔｃｈ　
ｐｅｒ
ｉｏｄ　
ｌｅｎｇｔｈ　ｄｅｖｉ
ａｔｉ
ｏｎｓ）
　
一
有限的情感描述能力无法满足对自发情感的描述；

连续情　ｊ
ｉｔｔｅｒ
ＤＤＰ＋Ｄｅｌ
ｔａ　
Ｔｈｅ
　ｄｉ
ｆｆｅｒｅｎｔｉ
ａ１　ｆ
ｒａｍ￣ｔ
－ｆ
ｏｒａｍｅ　
Ｊｉｔｔ
ｅｒ　
（ｔｈｅ‘Ｊｉ
ｔｔｅｒ
　ｏｆ
　ｔｈｅ　
Ｊｉｔ
ｔｅｒ’）
　
感描述拥有无限的情感描述能力，
但将主观情感转化为客观　
Ｔｈｅ　
１ｏｃａｌ
（ｆｒ
ａｍｅ－
ｔｏ－
ｆｒａｍｅ）Ｓｈｉ
ｍｍｅｒ
　
ｓｈｉ
ｍｍｅｒＬｏｃａｌ
＋Ｄｅｌ
ｔａ　
数值的过程是繁重且无法保证质量的。当前，
离散情感分类　（ａｍｐｌ
ｉｔｕｄｅ　ｄｅｖｉ
ａｔｉ
ｏｎｓ
　ｂｅｔｗｅｅｎ　ｐｉ
ｔｃｈ　
ｐｅｒｉ
ｏｄｓ）
　
的研究比连续情感维度的研究发展更为繁荣。在目前离散语　Ｖｏｉ

ｃｉｎｇ　
ｆｉｎａｌ
＋Ｄｅｌ
ｔａ　
Ｔｈｅ　
ｖｏｉ
ｃｉｎｇ　ｐｒ
ｏｂａｂｉ
ｌｉ
ｔｙ　
ｏｆ　ｔ
ｅ　ｆ
ｈｉｎａｌ
　ｆｕｎｄａｍｅ
ｎｔａｌ
　
ｆｒ
ｅｑｕｅｎｃｙ　ｃ
ａｎｄｉ
ｄａｔ
ｅ．　
音情感分类研究中，
常用的情感分为８类情感模型（
高兴、
期　ＭＦＣＣ－ｒ
ｅｌａｔｅｄ　ＭＦＣＣｓ（１５）＋ｌ
ｏｇＭｅｌ
ＦｒｅｑＢａｎｄ（８）
　
望、
愤怒、
厌恶、
悲伤、
惊奇、
恐惧、
赞同）
或４类情感模型（
喜、　
３．２统计函数转化的声学特征　
怒、
惊、悲）。
　
对于离散情感识别而言，
其系统的识别准确率是与两个　在基础声学特征上应用了２１个不同的统计函数，
将每个　
要素紧密相关的：
特征表示和分类器。在语音情感识别研究　句子的一组时长不等的基础声学特征转化为定长的静态特　
领域，
研究人员们已经尝试了各种不同的分类技术，
包括高斯　征。这些统计函数包括最大最小值、
均值、
时长、
方差等。关　
混合模型（
Ｇａｕ
ｓｓｉ
ａｎ　
Ｍｉｘ
ｔｕｒ
ｅ　Ｍｏｄｅ
ｌ，ＧＭＭ）、
隐马尔可夫模型　于这些统计函数的具体描述可以参考文献［
１３］。
　
（Ｈｉ
ｄｄｅｎ　Ｍａｒ
ｋｏｖ　Ｍｏｄｅｌ，ＨＭＭ）、Ｋ－
近邻（Ｋ－
ｎｅａｒ
ｅｓｔ
　ｎｅｉ
ｇｈ—
　３
．３模型转化的声学特征　
ｂｏｒ
，ＫＮＮ）、人工神经网络（Ａｒ
ｔｉｆ
ｉｃｉ
ａｌ
　Ｎｅ
ｕｒａ
ｌ　Ｎｅ
ｔｗｏｒ
ｋｓ，
　这一转化的目的也是将基于分段的时长不等的倒谱特征　
ＡＮＮ）、
支持向量机（
Ｓｕｐｐｏ
ｒｔ　Ｖｅ
ｃｔｏｒ
　Ｍａ
ｃｈｉ
ｎｅ，
ＳＶＭ）等［
　］。
　转化成一组新的定长的静态特征。但是新的特征要保持情感　
其中支持向量机被认为是对不同的模式识别问题可以得到比　区分的信息，
而不只是简单地在句子级别上进行统计计算（
如　
其他的传统分类技术更好、
更泛化的性能的方法。
　３．２节中统计函数转化的声学特征）。
　
语音情感的变化通常可以体现为语音特征参数的变化。

　首先，
基于倒谱特征为每类情感分别训练一个有５个高　
例如高兴时，
通常是语速较快，
音量较大；
悲伤时，
通常是语速　斯分量的高斯混合模型。整个高斯混合模型或者其中的高斯　
缓慢，
音量较小。声学特征（
Ａｃｏｕｓ
ｔｉｃ
　Ｆｅ
ａｔｕｒ
ｅ）是语音情感识　分量都可以被看作是情感相关的模型。通过计算倒谱特征与　
别系统使用的最主要特征。研究人员们探索了很多不同的声　情感相关模型之间的匹配度或者距离来进行转化。转化后的　
学特征，
包括与基频（
Ｐｉｔ
ｃｈ）、能量（
Ｅｎｅ
ｒｇｙ）、语速（
Ｓｐｅ
ｅｃｈ
　特征包含３个维度（
　，ｈ，
ａ）Ｅ
１５
］。其中Ｐ是归一化的帧级倒谱　
Ｒａ
ｔｅ）、
共振峰等相关的韵律特征［
１０
，１
１］以及频谱相关的特征，
　特征与情感模型匹配概率得分的平均值，
ｈ是匹配概率得分　
例如Ｍｅｌ
—Ｆｒ
ｅｑｕｅ
ｎｃｙ　
Ｃｅｐ
ｓｔｒ
ａｌ　
Ｃｏｅ
ｆｆｉ
ｃｉ
ｅｎｔ
ｓ（ＭＦＣＣ）和Ｐｅ
ｒｃｅ
ｐ—　高的比率，
ａ是在帧级特征分布为Ｄｉ
ｒｉ
ｃｈｌ
ｅｔ分布的假设前提　
ｔ
ｕａｌ
　Ｌｉ
ｎｅａ
ｒ　Ｐｒ
ｅｄｉ
ｃｔｉ
ｏｎ（
ＰＬＰ）
等ｌ＿
８］。其中ＭＦＣＣ是目前使用　下转化生成的高级特征。将这些新特征称作模型转化的倒谱　
最广泛的语音特征之一，
具有计算简单、
区分能力好等突出的　特征（
Ｍ－Ｃｅ
ｐｓｔ
ｒｕｍ）。
　
优点。这些特征大部分是帧级的特征。基于帧级特征的统计　３．
４码宇转化的声学特征　
特征（
例如均值、
方差、
范围等）
也被广泛应用于语音情感识别　码本技术是在文本分类（
ｂａｇ－
ｏＰｗｏｒ
ｄｓ词袋）
以及图像分　
系统中［
５］。近年来，
根据深度神经元网络学习得到的特征也　类（
ｂａｇ－
ｏｆ－
ｖｉｓ
ｕａｌ
　ｗｏ
ｒｄｓ视觉词袋）等任务中常用的技术。类　
在语音情感识别任务中取得了很好的性能＿
ｌ２
］。但是基于深　似的音频词袋（
ｂａｇ
－ｏｆ
－ａｕ
ｄｉｏ
　ｗｏｒ
ｄｓ）
的方法也被成功地应用到　
・　
２５　・
　
多媒体事件检测等任务中［
　］。其基本思想就是对于一段音　４
．２　ＣＡＳＩ
Ａ汉语情感语料库　
频上的基础倒谱特征，
通过统计其在码本中每个码字上的分　ＣＡＳＩ
Ａ是由中国科学院自动化研究所录制的＿
】
　。语料　
布，
将其转化为维度为码本大小的新特征。本文首先使用Ｋ＿
　设计包含６类不同情感：
高兴、
悲哀、
生气、
惊吓、
难过、
中性。
　
近￣Ｉ
Ｉ（Ｋ—
ｍｅａ
ｎｓ）
聚类算法产生一个声学码本，
然后将每个句　每种情感有５
Ｏ句语料，
由４位录音人（
２男２女）
在纯净录音　
子表示成其基础声学特征在每个码字上的分布：
　环境中（
信噪比约为３
５ｄＢ）
对５Ｏ句语料赋予不同的情感演绎　
ｄ　一（
　“ ，… ，
ｄ　．
Ｋ）　而得到。语音信号采用１６
ｋＨｚ采样以及１
６ｂｉ
ｔ量化。经过听　
其中，
ｄ　代表第ｉ个句子中属于第Ｊ个码字的帧的数目的加　辨筛选，
最终保留１
２００句语音样例。
　
权平均。Ｋ代表码本的大小即码字的个数，
这个参数可以通　４．
３柏林ＥＭＯ－
ＤＢ德语情感语音库　
过在开发集数据上学习调整到最优。
　ＥＭＯ－
ＤＢ是由柏林工业大学录制的德语情感语音库［
２
　，　
３
．５高斯超向量特征　由１
Ｏ名演员（
５男５女）
对１
Ｏ个语句（
５长５短）进行７种感　
近年来，
高斯超向量在话者识别的任务中有很成功的应　情（
高兴、
生气、
焦虑、
害怕、
无聊、
厌恶和中性）的演绎而得到，
　
用＿
１
　。高斯超向量通常是通过拼接高斯混合模型中的均值　共包含５３
５句语料。语音信号同样采用１
６ｋＨｚ采样以及　
或协方差或权值而生成的。首先在随机抽取的包含所有情感　１
６ｂｉ
ｔ量化。语料文本的选取遵从语义中性、
无情感倾向的原　
的数据上训练出一个通用背景高斯混合模型（
称为ＧＭＭ－
　则，
且为日常口语化风格
诣、
超，
无
　
厂　过人
　．多
＿＿的书
－　面语修饰。语音的录制　
、
ＵＢＭ）：
　在专业录音室中完成，
要求演员在演绎某个特定情感前通过　
Ｍ　
回忆自身真实经历或体验进行情绪的酝酿，
来增强情绪的真　
ｇ（Ｘ）一 ∑Ａ
　Ｎ（Ｘ；
　，
　）
　
ｉ— ｌ
　
实感。经过２Ｏ个参与者（
１０男１
Ｏ女）的听辨实验，
得到　
其中，
　是权值，
～（　，
　）是单个高斯，
　和　是高斯的均　
８
４．３
　的听辨正确率。
　
值和协方差。假定协方差　是对角阵，
对于每个句子，
可以　
通过ＭＡＰ（
Ｍａｘ
ｉｍｕ
ｍ　Ａ　
Ｐｏｓ
ｔｅｒ
ｉｏｒ
）适应生成一个对应的高斯　５实验　
混合模型（
Ａｄａｐ
ｔｅｄ
　ＧＭＭ）；
然后拼接这个高斯混合模型的均　本文中所有的实验都是关于语音情感分类的。实验的评　
值　或对角阵　或权值　来产生不同的超向量，
图１示出　测标准是识别准确率，
即：　
了拼接均值产生超向量的过程。可以把高斯超向量看作是由　
准确率一　
低层次声学特征转化的高维特征，
并将其作为ＳＶＭ分类器　
的输入特征。
　５．１实验设置　
本文中所有的实验都是在１
Ｏ组交叉验证（１
０一ｆ
ｏｌｄ
　ｃｒ
ｏｓｓ
　
通用模型　
ｖ
ａｌｉ
ｄａｔ
ｉｏｎ）
的模式下完成。
　
（
ＧＭＭ－ＵＢＭ）　
在后文中出现的不同声学特征及其衍生特征的名称缩写　
及描述如下所示：
　
・
Ｃｅ
ｐｓｔ
ｒｕｍ：
在帧级的倒谱声学特征上应用统计函数得　
输入语句　到语句级别的倒谱特征。
　
图１高斯超向量特征的生成图示　
・
ＡＣＯ：
在帧级的基础声学特征（
除去倒谱Ｃｅ
ｐｓｔ
ｒｕｍ特　
征）上应用统计函数得到语句级别的特征。
　
４数据集描述　・
Ｍ－
Ｃｅｐｓ
ｔｒｕｍ：
倒谱声学特征根据情感相关的高斯混合　
模型进行距离转化而得出的特征。
　
分别在Ｉ
ＣＡＳＩ
Ａ汉语情感语　・
ＢｏＷ：
利用声学码本转化的特征。ＡＣＯ－
ｏＷ是指对　
Ｂ
料库和Ｂｅ
ｒｌｉ
ｎ德语情感语料库中进行了实验。下面将对这３
　
帧级基础声学特征（
除倒谱特征）
进行码本转化而得到的特　
个数据集逐一介绍。
　
征，
Ｃｅｐｓ
ｔｒｕ
ｍ－ＢｏＷ是指对倒谱声学特征进行码本转化而得　
４．１
　ＩＥＭＯＣＡＰ英语情感数据集　
到的特征。
　
Ｉ
ＥＭＯＣＡＰ是由南加利福利亚大学录制的情感数据库，
　・
ＧＳＶ：
通过拼接ＭＡＰ－
自适应得到的高斯混合模型的　
包含约１
２小时的视听数据，
即视频、
音频和语音文本、
面部表　均值或协方差或权重而形成的高斯超级向量。在实验中，
生　
情＿
ｌ８
］。１
０名专业演员（
５男５女）
在有台词或即兴的场景下，
　成的ＧＳＶ特征是基于帧级的倒谱声学特征而得到的。
　
特意引导出情感表达。之后，
人工将每一段对话切分成单句，
　・
十：
特征的拼接操作。如：ＡＣＯ＋Ｃｅｐｓ
ｔｒｕｍ是指拼接　
每一句话至少由３个标注员进行类别标注（
ｉｎ高兴、
生气等），
　ＡＣＯ和Ｃｅ
ｐｓｔ
ｒｕｍ特征。
　
此外也对Ｖａ
ｌｅｎｃ
ｅ、Ａｃ
ｔｉｖａ
ｔｉｏｎ、
Ｄｏｍｉ
ｎａｎ
ｃｅ　
３个维度进行了标　实验中，
首先利用ＳＶＩ
Ｖｌ
ｃ　］
分类器在Ｉ
ＥＭＯＣＡＰ上比较　
注。本文的实验仅考虑无较大争议的分类标注结果。为了平　了上述每组特征的效果，
并尝试了前期特征融合和后期分类　
衡不同情感类别的数据，
将高兴（
ｈａｐ
ｐｙ）和兴奋（
ｅｘｃ
ｉｔｉ
ｎｇ）
合　结果融合，
然后将较好的特征及组合推广到ＣＡＳＩ
Ａ和ＥＭＯ－
　
并成高兴类别。由高兴、
生气、
悲伤和中性最终构成了４类情　ＤＢ不同语言的数据集中来验证其鲁棒性和可迁移性。
　
感识别数据库。表２展示了每一类情感的语句个数。
　分类器是情感识别系统中最重要的部分之一。在众多的　
表２
　ＩＥＭＯＣＡＰ数据集中每个情感类别语句的数量　分类器中，
支持向量机Ｓ
ＶＭ在多种不同应用中都被认为是　
最有效的分类器之一，
而且比神经网络更易于使用。通常，
径　
兰　壹　斐笪　主
　堡　
１１０３　１６３６
　１０８４　１７０８　５５３１
　向基核函数（
ＲＢＦ－
ＳＶＭ）
是最基础的选择。Ｃ和ｙ是在ＲＢＦ－
　
・　
２６　・
　
ＳＶＭ中需要调节的两个参数，
Ｃ控制调整训练的错误和最大　分类准确率。实验结果显示后期融合效果没有前期融合好，
很　
边界，
ｙ调整核的宽度。通常使用网格搜索进行交叉验证，
对　有可能是由于投票结果值的离散性使其并不适用于后期融合。
　
Ｃ和ｙ进行调优。在实验中，
使用数据挖掘工具Ｗｅ
ｋａ［
２２
］中　表６两组特征后期融合的情感分类准确率　
的网格搜索算法来调整Ｃ和ｙ，
其中Ｃ的范围是２
　到２
　，ｙ
　特征集　准确率　
的范围是２
　到２
　呈指数增长。
　Ｃｅｐｓｔ
ｒｕｍ＋ＧＳＶ　
ＣＯＷ　６５．５　
Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ＋ＧＳ、　ｍｅａｎ　６７．０　
５．２　Ｉ
ＥＭＯＣＡＰ实验结果　
Ｃｅｐｓ
ｔｒｕｍ－Ｂ　Ｗ＋ＧＳＶ—
ＣＯＶ　６７．１　
表３列出了每一组特征在Ｉ
ＥＭＯＣＡＰ数据集上的分类效　Ｃｅ
ｐｓｔｒ
ｕｍ＋Ｃｅｐｓｔｒ
ｕｍ－ＢｏＷ　６７．０　
果。基于协方差的高斯超向量取得了在单一特征中的最高准　Ｃｅｐｓｔ

ｒｕｍ＋ＧＳＶ－ｍｅａｎ　６５．４　
ＡＣ０＋Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ　６６．９　
确率６
７．８
　，超过了此前文献［
１５］中报告的声学特征在　
Ｍ－
Ｃｅｐｓ
ｔｒｕｍ＋ＧＳＶ－ｅｏｖ　６８．０％　
Ｉ
ＥＭＯＣＡＰ　
４类情感分类的准确率。码本转化（Ｂｏ
Ｗ）选择的　ＡＣｏ＋ＧＳＶ—Ｃ
ＯＹ　６７．９　
聚类码本大小为４
０９６，
其在倒谱声学特征（
Ｃｅｐｓ
ｔｒｕｍ）中效果　（　一
ｍｅａｎ　Ｇ　Ｎ —ＣＯＶ　６７．５　
ＡＣｏ＋ＧＳＶ—ｍｅａｎ　６７．３　
良好，
但是在基础声学特征（
ＡＣＯ）中的效果却大相径庭。这　
是因为对于尤其是描述语音质量的特征来说，
其包含了长时　５．３
　ＣＡｓＩ
Ａ实验结果　
信息，
仅仅有小部分的帧有非零值；
而对于频谱特征蕴含的短　使用在Ｉ
ＥＭＯＣＡＰ中效果较好的单个特征集合在ＣＡ—
　
时信息，
则可以很好地通过码本转换体现。
　ＳＩ
Ａ数据集上进行测试。结果如表７所列，
其中，
对于Ｃｅ
ｐｓ—
　
表３单组特征在Ｉ
ＥＭＯＣＡＰ数据集上的分类准确率　ｔ
ｒｕｍ－
ＢｏＷ特征，
经过交叉验证当聚类码本大小为２
０４８时效　
果最好，
这是由于ＣＡＳＩ
Ａ数据集的数据量比Ｉ
ＥＭｏＣＡＰ数据　
集小。在中文语音环境下，
Ｃｅｐ
ｓｔｒ
ｕｍ－
ＢｏＷ和ＧＳＶ－
ｍｅａ
ｎ仍　
然保持了很好的迁移性。由于后期融合效果不明显，
只进行　
了前期的两类和三类特征集融合，
实验结果如表８所列。
　
表７单组特征在ＣＡＳＩ
Ａ数据集上的情感分类准确率　
在前期融合中，
对特征集合中所有特征的两两组合进行　
了实验，
即不同特征的简单拼接。表４展示了Ｔｏ
ｐ－ｌ
Ｏ的特征　
组合及其分类准确率。从中发现ＡＣＯ与其他每一个单一特　
表８多组特征前期融合在ＣＡＳＩ
Ａ数据集上的情感分类准确率　
征的融合都对分类性能有所提高，因此考虑到ＡＣ０和其他　
特征集　准确率　
短时信息特征的互补性，
把ＡＣＯ和其他频谱转化得到的特　
ＡＣ０＋Ｃｅｐｓｔｒ
ｕｍ　８４．７　
征进行３种特征的融合。如表５所列，
ＡＣＯ、
ＧＳＶ－
ｍｅａ
ｎ和　ＡｃＯ＋Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ　８５
．３％　
ＧＳＶ－
ｃｏｖ融合取得了最高的分类准确率７
１．９
　，远远超出了　ＡＣ０＋ＧＳＶ—ｍｅａｎ　８５
．１％　
Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ＋ＧＳｖ＿
ｍｅａｎ　８６　
此前在Ｉ
ＥＭＯＣＡＰ　
５类情感识别中的最好结果¨
１
　。　
Ｃｅｐｓｔ
ｒｍｎ＋Ｃｅ
ｐｓｔ
ｒｍ￣ＢｏＷ　８７
．２％　
表４
　Ｔｏｐ１
０两组特征前期融合的分类准确率　ＡＯＯ＋Ｃｅｐｓ
ｔｒｕｍ－ＢｏＷ＋ＧＳＶ－
ｍｅａｎ　８６．７　
ＡＣＯ＋ｅｅｐｓｔ
ｒｕｍ＋Ｃｅｐｓｔ
ｒｍｎ－ＢｏＷ　８７
．８％　
Ｃｅｐｓｔ
ｒｕｍ－ＢＯＷ＋ＧＳＶ－
ｍｅａｎ　７１．００％　
Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ＋ＧＳ、Ｌｅｏｖ　７Ｏ．９０％　
５
．４　ＥＭＯ－
ＤＢ实验结果　
Ｃｅｐｓｔｒ
ｕｍ　Ｃｅｐｓｔ
ｒｕｍ－ＢｏＷ　７Ｏ．６０　同样的配置在ＥＭＯ－
ＤＢ数据集上的实验结果如表９和　
Ｃｅｐｓｔ
ｒｕｍ＋ＧＳＶ—
ｍｅａｎ　７Ｏ．４０　
表ｌ
Ｏ所列，
Ｃｅｐｓ
ｔｒｕ
ｍ－ＢｏＷ的聚类码本大小为１
０２４时效果最　
Ｃｅｐｓｔ
ｒｕｍ＋ＧＳｖ＿
ＣＯＶ　７Ｏ．２Ｏ　
ＡＣＩ
Ｄ　Ｃｅｐｓｔ
ｒｕｍ－
ＢｏＷ　７０．１０　
好，
这也与数据集大小相关，ＥＭＯ－
ＤＢ的数据集大小约为　
Ｉ
Ｖ［Ｃｅｐｓｔ
ｒｕｍ＋ＧＳＶ－
ｃｏｖ　６９．７Ｏ　ＣＡＳＩＡ的一半。
　
ＡＣｏ＋ＧＳＶ—
ＣＯＹ　６９．６０　
表９单组特征在ＥＭＯ－
ＤＢ数据集上的分类准确率　
ＧＳＶ —
ｍｅａｎ＋ＧＳＶ —
ＣＯＷ　６９．４Ｏ　
ＡＣｏ＋ＧＳＶ　
ｍｅａｎ　６９．１０　
表５
　３组特征前期融合的分类准确率　
ＡＣＯ＋Ｃｅｐｓｔｒ
ｕｍ－
ＢｏＷ＋ＧＳＶ－ｍｅ￣　７１．６
　
ＡＣ０＋Ｃｅｐｓｔ
ｒｕｍ－
ＢｏＷ＋ＧＳＶ－ｃ
ｏｖ　７１．８　
Ａｃ０＋Ｃｅｐｓｔ
ｒｕｍ－
ＢｏＷ　７１．４
　
ＡＣ（）＋Ｃｅｐｓｔｒ
ｕｍ＋ＧＳＶ－ｍｅａｎ　７１．２
　
表１Ｏ多组特征前期融合在ＥＭＯ－
ＤＢ数据集上的分类准确率　
ＡＣＯ＋Ｃｅｐｓｔ
ｒｕｍ＋ＣＳＶ－
ｃｏｙ　７０．３
　特征集　准确率　
ＡＣｏ＋Ｍ－Ｃｅｐｓｔ
ｃｏｖ　７Ｏ．３
　ＡＣＯ＋Ｃｅｐｓｔ
ｒｕｍ　８７．８　
Ａｃｏ＋ＧＳＶ—
ｎ－ｅ
ａｎ＋ＧＳＶ－
ｅＯＶ　７１．９％　ＡＣ０＋Ｃｅｐｓｔ
ｒｕｍ－
ＢｏＷ　８８．４　
ＡＣＯ＋ＧＳＶ—ｍｅａｎ　８８．８　
对于后期融合，
采用简单的线性加权融合。利用ＦｏＣａ
ｌ　Ｃｅｐｓｔ
ｍｅａｎ　８９．５　
Ｃｅｐｓｔ
ｒｕｍ－
ＢｏＷ　８
９．７％　
工具　在训练集中进行权重的取优，
最后将得到的权重参数　ＡＣＯ一－Ｃｅｐｓｔｒ
ｕｍＪ＿Ｃｅｐｓ
ｔｒｕｍ－ＢｏＷ　９０．１
　
应用于测试集。表６列出了在决策层面上的后期融合的情感　Ａｃｏ＋Ｃｅｐ￣ｒｕｍ＋ＧＳＶ—
ＩＩｌ
Ｉ皿　
－９０．３　
・　
２７　・
　
从表中可以看出，
Ｃｅｐｓ
ｔｒｕｍ－
ＢｏＷ和ＧＳＶ－
ｍｅａｎ对不同　［
９］Ｚｈａ
ｎｇ　
Ｂ　Ｙ，Ｙｕ
　Ｊ　Ｑ，
Ｔａｎｇ
　Ｊ　Ｆ，
ｅｔ　ａ１
．Ｍｏ
ｖｉｅ　
ｂａｃ
ｋｇｒ
ｏｕｎｄ　
ｍｕｓ
ｉｃ　
语言的鲁棒性较高，
但是受数据集大小影响较大；
数据集减小　ｃ
ｌａｓ
ｓｉｆ
ｉｃａ
ｔｉｏｎ　
ｆｏｒ
ｅｍｏｔ
ｉｏｎ
　ＥＪ］．Ｃｏｍｐｕｔ
ｅｒ　Ｓｃ
ｉｅｎｃ
ｅ，２０１
３，４０（１２）：
　
３７—４Ｏ。７４　
后，
其效果甚至不如直接对每帧特征的统计函数值。但是，
　
［１
Ｏ］Ｓｃｈｕｌ
ｌｅｒ
　Ｂ，Ｒｅ
ｉｔｅｒ
　Ｓ，Ｍｕｅ
ｌｌｅ
ｒ　Ｒ，ｅｔ
　ａ１
．
　ｓｐｅ
ａｋｅｒ
—ｉ
ｎｄｅ
ｐｅｎｄｅ
ｎｔ　
ＡＣＯ特征与经过转化后的倒谱声学特征的互补信息更多，
融　
ｓ
ｐｅｅ
ｃｈ　
ｅｍｏｔ
ｉｏｎ　
ｒｅｃｏ
ｇｎｉ
ｔｉ
ｏｎ　
ｂｙ　
ｅｎｓ
ｅｍｂｌ
ｅ　ｃｌ
ａｓｓ
ｉｆｉ
ｃａｔ
ｉ０ｎ［
Ｃ］∥Ｐｒ
ｏ—　
合效果显著。
　
ｃｅｅｄｉ
ｎｇｓ
　ｏｆ
　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉ
ｏｎａｌ
　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍｕｌｔ
ｉｍｅｄｉ
ａ　ａｎｄ　
结束语本文在Ｉ
ＣＡＳＩ
Ａ汉　
Ｅｘｐｏ（ＩＣＭＥ）．Ａｍｓｔｅｒｄａｍ，Ｎｅｔ
ｈｅｒｌ
ａｎｄｓ，２００５：８６４—８６７　
语情感语料库和Ｂｅ
ｒｌｉ
ｎ德语情感语料库等３种不同语言、
不　
［１
１］Ｐａ
ｏ　Ｔ　
Ｌ，Ｃｈｅ
ｎ　Ｙ　
Ｔ，Ｙｅ
　Ｊ　Ｈ，
ｅｔ　
ａ１．Ｍａ
ｎｄａｒ
ｉｎ　
Ｅｍｏｔ
ｉｏｎａｌ
　Ｓｐｅ
ｅｃｈ　
同大小的数据集上进行了语音情感识别实验，
主要工作是抽　
Ｒｅｃ
ｏｇｎｉ
ｔｉ
ｏｎ　
ｂａｓ
ｅｄ　
ｏｎ　
ＳＶＭ　
ａｎｄ　
ＮＮ［Ｃ］ｆ
　Ｐｒ
ｏｃｅ
ｅｄｉ
ｎｇｓ
　ｏｆ
　Ｉｎｔ
ｅｒ—
　
取不同的声学特征以及对帧级别特征的多种转化，
包括模型　ｎａｔｉ
ｏｎａｌ
　Ｃｏｎｆ
ｅｒｅｎｃｅ　ｏｎ　Ｐａｔｔ
ｅｒ　Ｒｅｃｏｇｎｉｔ
ｉｏｎ（ＩＣＰＲ）．２００６，１：
　
转换、
码本转换、
高斯超级向量。数据集的规模对于数据驱动　１０９６～１
　１００　
的码本特征和高斯超级向量有较大影响，
但整体来说，
转化后　［１
２］Ｌｅｅ
　Ｈ，
Ｌａｒ
ｇｍａ
ｎ　Ｙ，
Ｐｈａ
ｍ　Ｐ，
ｅｔ　
ａ１．Ｕｎｓ
ｕｐｅ
ｒｖｉ
ｓｅｄ
　ｆｅ
ａｔｕｒ
ｅ　ｌ
ｅａｒ
ｎｉｎｇ　
的特征分类效果更优，
且与原始统计函数的特征具有互补性。
　ｆｏｒ
　ａｕｄｉ
ｏ　ｃｌ
ａｓｓｉ
ｆｉｃａｔｉ
ｏｎ　ｕｓｉ
ｎｇ　ｃｏｎｖｏｌ
ｕｔｉ
ｏｎａｌ
　ｄｅｅｐ　ｂｅｌ
ｉｅｆ
　ｎｅｔｗｏｒｋｓ　
在每个数据集中通过特征融合，
都大大提高了识别准确率。
　［ｃ］∥ Ｐｒ
ｏｃｅｅ
ｄｉｎｇｓ
　ｏｆ
　Ａｄｖａ
ｎｃｅ
ｓ　ｉ
ｎ　Ｎｅ
ｕｒａ
ｌ　Ｉ
ｎｆｏｒ
ｍａｔ
ｉｏｎ　Ｐｒ
ｏｃｅｓ
－　
在Ｉ
ＥＭＯＣＡＰ数据集上，
系统的识别准确率达到了７１
．９　，
　ｓｉ
ｎｇ　Ｓｙｓｔ
ｅｍｓ（ＮＩ
ＰＳ）．２００９：１－９　
超越了之前在此数据集上报告的最好结果。

　［１３］Ｅｙｂｅｎ
　Ｆ，Ｗｏｌ
ｌｍｅｒ
　Ｍ，Ｓｃ
ｈｕｌ
ｌｅｒ
　Ｂ　ＯｐｅｎＳＭＩ
Ｉ　Ｅ—
Ｔｈｅ
　Ｍｕｎｉ
ｃｈ　
Ｖｅｒ
ｓａｔ
ｉｌｅ
　ａｎｄ　
Ｆａｓ
ｔ　Ｏｐｅｎ
－Ｓｏｕｒ
ｃｅ　
Ａｕｄ
ｉｏ　
Ｆｅａｔ
ｕｒｅ
　Ｅｘｔ
ｒａｃｔ
ｏｒ［Ｃ］／
／　
未来的工作会致力于探索其他不同类型的特征转化方　
Ｐｒｏｃｅｅｄｉ
ｎｇｓ　ｏｆ
　ＡＣＭ　Ｍｕｌ
ｔｉｍｅｄｉ
ａ（ＭＭ）．Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１０：
　
法，
如利用深度神经网络进行特征学习以及在后期更加有效　
１４５９—１４６２　
的融合模式。
　
［１４］Ｓｃｈｕｌ
ｌｅｒ
　Ｂ，
Ｂａｔ
ｌｉ
ｎｅｒ
　Ａ，Ｓｔ
ｅｉｄｌ
　Ｓ，ｅ
ｔ　ａ１
．Ｒｅｃ
ｏｇｎｉ
ｚｉ
ｎｇ　
Ｒｅａｌ
ｉｓｔ
ｉｃ
　Ｅｍｏ—
　
参考文献　ｔｉ
ｏｎｓ　ａｎｄ　Ａｆｆｅｃｔ　ｉ
ｎ　Ｓｐｅｅｃｈ：Ｓｔａｔｅ　ｏｆ
　ｔｈｅ　Ａｒｔ
　ａｎｄ　Ｌｅｓｓｏｎｓ　Ｌｃａｎｔ
　
ｆ
ｒｏｍ　
ｔｈｅ
　Ｆｉ
ｒｓｔ
　Ｃｈａｌ
ｌｅｎｇｅ［Ｊ］．Ｓｐｅｅ
ｃｈ　Ｃｏｍｍｕｎｉ
ｃａｔ
ｉｏｎ，２
０１１，５３
　
［１
］Ｌｉ
ｔｍａｎ　
Ｄ，Ｆｏｒ
ｂｅｓ
　Ｋ．Ｒｅｃ
ｏｇｎｉ
ｚｉ
ｎｇ　
ｅｍｏｔ
ｉｏｎｓ
　ｆｒ
ｏｍ　ｓ
ｔｕｄｅ
ｎｔ　
ｓｐｅｅ
ｃｈ　
（１０）：１０６２—１０８７　
ｉ
ｎ　ｔ
ｕｔｏｒ
ｉｎｇ　ｄｉ
ａｌｏｇｕｅ
ｓ　Ｅｃ］ｆ
　Ｐｒ
ｏｃｅｅ
ｄｉｎｇ　ｏｆ
　ＩＥＥＥ　Ｗｏｒ
ｋｓｈｏｐ　ｏｎ　
［１５］Ｒｏｚ
ｇｉｃ
　Ｖ，Ａｎａ
ｎｔｈａ
ｋｒｉ
ｓｈｎａｎ　
Ｓ，Ｓａ
ｌｅｅｍ　
Ｓ，ｅｔ
　ａ１
．Ｅｍｏｔ
ｉｏｎ
　Ｒｅ
ｃｏｇｎｉ
—　
Ａｕｔ
ｏｍａｔｉ
ｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉ
ｔｉｏｎ　ａｎｄ　Ｕｎｄｅｒｓｔａｎｄｉ
ｎｇ（ＡＳＲＵ）．
　
ｔ
ｉｏｎ　
ｕｓｉ
ｎｇ　
Ａｃｏｕｓ
ｔｉｃ
　ａｎｄ
　Ｌｅｘｉ
ｃａｌ
　Ｆｅａ
ｔｕｒ
ｅｓ［ｃ］∥ Ｐｒ
ｏｃｅｅ
ｄｉｎｇｓ
　ｏｆ
　
２００３：２５—３Ｏ　
ＩＮＴＥＲＳＰＥＥＣＨ　２０１２．Ｓｅｐｔｅｍｂｅｒ　
Ｐｏｒｔｌ
ａｎｄ，２０１２　
［２］Ｆｒ
ａｎｃ
ｅ　Ｄ　
Ｊ，Ｓｈｉ
ａｖｉ
　Ｒ　
Ｇ，Ｓｉ
ｌｖｅ
ｒｍａ
ｎ　Ｓ，
ｅｔ　
ａＩ．Ａｃｏ
ｕｓｔ
ｉｃａｌ
　ｐｒ
ｏｐｅ
ｒｔｉ
ｅｓ　
［１６］Ｌｅ
ｅ　Ｋ，Ｅｌ
ｌｉ
ｓ　Ｄ　
Ｐ　Ｗ．Ａｕｄｉ
ｏ－Ｂａｓ
ｅｄ　
Ｓｅｍａｎｔ
ｉｃ　
ｏｎｃｅ
Ｃｐｔ　
Ｃｌａ
ｓｓｉ
ｆｉ
ｃａ—
　
ｏ
ｆ　ｓ
ｐｅｅｃ
ｈ　ａｓ
　ｉｎｄｉ
ｃａｔ
ｏｒｓ
　ｏｆ
　ｄｅｐｒ
ｅｓｓ
ｉｏｎ　
ａｎｄ
　ｓｕｉ
ｃｉ
ｄａｌ
　ｒｉ
ｓｋ口］．Ｉ
ＥＥＥ　
ｔ
ｉｏｎ　ｆ
ｏｒ　Ｃｏ
ｎｓｕｍｅｒ
　Ｖｉ
ｄｅｏ［Ｊ］．Ｉ
ＥＥＥ　Ｔｒ
ａｎｓ
．Ａｕｄｉ
ｏ，Ｓｐｅｅ
ｃｈ，ａ
ｎｄ　
Ｔｒａｎｓ．ｏｎ　Ｂｉ
ｏｍｅｄｉ
ｃａｌ
　Ｅｎｇｉ
ｎｅｅｒｉ
ｎｇ，２０００，４７（７）：８２９—８３７　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉ
ｎｇ，２０１０，１８（６）：１４０６—１４１６　
［
３］Ｙａｎｇ　
Ｎ，Ｍｕｒ
ａｌｅｅ
ｄｈａ
ｒａｎ　
Ｒ，Ｋｏｈ１
　Ｊ，
ｅｔ　ａ１
．Ｓｐｅ
ｅｃｈ－
ｂａｓ
ｅｄ　ｅ
ｍｏｔ
ｉｏｎ　
［１７］Ｃａ
ｍｐｂｅｌ
ｌ
　Ｗ　
Ｍ，Ｓｔ
ｕｒｉ
ｍ　Ｄ　
Ｅ，Ｒｅｙ
ｎｏｌ
ｄｓ　Ｄ　
Ａ．Ｓｕｐｐｏｒ
ｔ　ｖｅｃ
ｔｏｒ
　ｍａ—
　
ｃｌ
ａｓｓｉ
ｆｉｃａｔ
ｉｏｎ　ｕｓｉ
ｎｇ　ｍｕｌ
ｔｉｃｌ
ａｓｓ　ＳＶＭ　ｗｉ
ｔｈ　ｈｙｂｒｉ
ｄ　ｋｅｒｎｅｌ
　ａｎｄ　
ｃ
ｈｉｎｅ
ｓ　ｕｓ
ｉｎｇ　ＧＭＭ　ｓ
ｕｐｅｒ
ｖｅｃ
ｔｏｒ
ｓ　ｆ
ｏｒ　ｓ
ｐｅａｋｅｒ
　ｖｅｒ
ｉｆ
ｉｃａ
ｔｉｏｎ［Ｊ］
．　
ｔ
ｈｒｅ
ｓｈｏｌ
ｄｉｎｇ　
ｆｕｓ
ｉｏｎ［Ｃ］∥Ｐｒ
ｏｃｅ
ｅｄｉ
ｎｇｓ
　ｏｆ
　ｔｈｅ
　４　Ｉ
ＥＥＥ　
ｗｏｒ
ｋｓｈｏｐ　ＩＥＥＥ　Ｓｉ
ｇｎａｌ
　Ｐｒｏｃｅｓｓｉ
ｎｇ　Ｌｅｔｔｅｒｓ，２００６：３０８—３　
１１　
ｏｎ　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｔｅｃｈｎ０ｌ
０ｇｙ（ＳＬＴ），２０１２．Ｍｉ
ａｍｉ，Ｆｌ
ｏｒｉ
ｄａ，
　ｒ１
８］Ｂｕｓｓ
ｏ　Ｃ，
Ｂｕｌ
ｕｔ　Ｍ，Ｌｅ
ｅ　Ｃ　Ｃ，ｅ
ｔ　ａ１
．ＩＥＭ０ＣＡＰ：Ｉ
ｎｔｅｒ
ａｃｔ
ｉｖｅ
　ｅｍｏ—
　
２０１２：４５５—４６０　
ｔ
ｉｏｎａｌ
　ｄｙａ
ｄｉｃ
　ｍｏｔ
ｉｏｎ　
ｃａｐｔ
ｕｒｅ
　ｄａｔ
ａｂａｓ
ｅ［Ｊ］．Ｊｏｕｒ
ｎａｌ
　ｏｆ
　Ｌａｎｇｕａ
ｇｅ　
［
４］Ｓｃ
ｈｕｌ
ｌｅｒ
　Ｂ，
Ｒｉｇｏｌ
ｌ　
Ｇ，Ｌａｎｇ＾，
Ｌ　
Ｓｐｅ
ｅｃｈ　ｅ
ｍｏｔ
ｉｏｎ　
ｒｅｃ
ｏｇｎｉ
ｔｉ
ｏｎ　ｃ
ｏｍ—
　Ｒｅｓ
ｏｕｒｃｅｓ
　ａｎｄ　Ｅｖａｌ
ｕａｔｉ
ｏｎ，２ＯＯ８。４２（４）：３３５—３５９　
ｂｉ
ｎｉｎｇ　ａｃｏｕｓｔｉ
ｃ　ｆｅａｔ
ｕｒｅｓ
　ａｎｄ　ｌ
ｉｎｇｕｉ
ｓｔｉ
ｃ　ｉ
ｎｆｏｒｍａｔｉ
ｏｎ　ｉ
ｎ　ａ　ｈｙｂｒｉ
ｄ　［１
９］Ｄａ
ｔａ　
ｃｏｌ
ｌｅｃｔ
ｅｄ　
ｂｙ　ｔ
ｈｅ　
ｓｐｅｅ
ｃｈ　
ｇｒｏｕｐ　
ａｔ　
Ｎａｔ
ｉｏｎａ
ｌ　Ｋｅ
ｙ　Ｌａ
ｂｏｒ
ａｔｏｒ
ｙ　
ｓ
ｕｐｐｏｒ
ｔ　ｖｅ
ｃｔｏｒ
　ｍａｃ
ｈｉｎｅ
－ｂｅｌ
ｉｅ
ｆ　ｎｅ
ｔｗｏｒ
ｋ　ａ
ｒｃｈｉ
ｔｅｃｔ
ｕｒｅ［ｃ］∥Ｐｒ
ｏ　ｏｆ
　Ｐａｔ
ｔｅｒ
ｎ　Ｒｅｃ
ｏｇｎｉ
ｔｉ
ｏｎ［０Ｌ＿．ｈｔ
ｔｐ：
／／、
＾　．ｄａ
ｔａｔ
ａｎｇ．ｃ
ｏｍ／ｄａ
ｔａ／
　
ｃｅｅｄｉ
ｎｇｓ　ｏｆ
　ｔｈｅ　ＩＣＡＳＳＰ．２００４，１：５７７—５８０　３９２７７　
［５］Ａｙａ
ｄｉ　
Ｍ，Ｋａ
ｍｅｌ
　Ｍ，
Ｋａｒ
ｒａｙ
　Ｆ．Ｓｕｒ
ｖｅｙ　
ｏｎ　
ｓｐｅ
ｅｃｈ　
ｅｍｏｔ
ｉｏｎ　
ｒｅｃｏ
ｇ—　ｒ２
Ｏ］Ｂｕｒ
ｋｈａｒ
ｄｔ　
Ｆ，Ｐａｅｓ
ｃｈｋｅ
　Ａ，
Ｒｏｌ
ｆｅｓ
　Ｍ，
ｅｔ　
ａ１．Ａ　
ｄａｔ
ａｂａ
ｓｅ　
ｏｆ　
Ｇｅｒ
ｍａｎ　
ｎｉ
ｔｉ
ｏｎ：Ｆｅ
ａｔｕｒ
ｅｓ，
ｃｌａｓ
ｓｉｆ
ｉｃａｔ
ｉｏｎ
　ｓｃｈｅ
ｍｅｓ，ａｎｄ　
ｄａｔ
ａｂａ
ｓｅｓ［Ｊ］
．Ｐａｔ
—　ｅｍｏｔ
ｉｏｎａｌ
　ｓｐｅ
ｅｃｈ［Ｃ］∥ Ｐｒ
ｏｃｅ
ｅｄｉ
ｎｇｓ
　ｏｆ
　ＩＮＴＥＲＳＰＥＥＣＨ　２００５．
　
ｔｅｒｎ　Ｒｅｃｏｇｎｉ
ｔｉｏｎ，２０１１。４４（３）：５７２—５８７　Ｌｉ
ｓｂｏｎ，２００５：１５１７—１５２０　
［６］Ｚｅｎｇ　
ｚ，Ｐａｎｔ
ｉｃ　
Ｍ，Ｒｏｓ
ｉｍａｎ　
Ｇ　Ｉ，
ｅｔ　
ａ１．Ａ　
ｓｕｒ
ｖｅｙ
　ｏｆ
　ａｆ
ｆｅｃ
ｔ　ｒ
ｅｃｏｇｎｉ
　［２１］Ｈｓｕ
　Ｃ　
Ｗ，Ｃｈａ
ｎｇ　
Ｃ　Ｃ，
Ｌｉｎ　
Ｃ　Ｊ．Ａ　
ｐｒａ
ｃｔｉ
ｃａｌ
　ｇｕｉ
ｄｅ　
ｔｏ　ｓ
ｕｐｐｏｒ
ｔ　ｖｅｃ
　
ｔ
ｉｏｎ　
ｍｅｔ
ｈｏｄｓ：Ａｕｄｉ
ｏ，ｖｉ
ｓｕａ１
，ａｎｄ
　ｓｐｏｎｔ
ａｎｅ
ｏｕｓ
　ｅｘｐｒ
ｅｓｓ
ｉｏｎｓ［Ｊ］
．　ｔ
ｏｒ　
ｃｌａｓ
ｓｉｆ
ｉｃａ
ｔｉｏｎ［ＯＬ］．２０１０．ｈｔ
ｔｐｔ
｜｛　．ｃｓ
ｉｅ．ｎｔ
ｕ．ｅ
ｄｕ．ｔ
ｗ／　
Ｉ
ＥＥＥ　Ｔｒａｎｓ．ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌ
ｙｓｉ
ｓ　ａｎｄ　Ｍａｃｈｉ
ｎｅ　Ｉｎｔ
ｅｌｌ
ｉｇｅｎｃｅ，
　ｃ
ｊｈｎ／ｐａｐｅｒ
ｓ／ｇｕｉ
ｄｅ／ｇｕｉ
ｄｅ．ｐｄｆ
　
２００９，３１（１）：３９—５８　［２２］Ｗｉ
ｔｔｅ
ｎ　Ｉ
　Ｈ，
Ｆｒａｎｋ　
Ｅ，Ｔｒ
ｉｇｇ　
Ｉ　Ｅ，ｅ
ｔ　ａ１
．ｗｅ
ｋａ：
Ｐｒａｃ
ｔｉｃ
ａｌ　
ｍａｃ
ｈｉｎｅ
　
［７］Ｋｏｃ
ｋｍａ
ｎｎ　
Ｍ，Ｂｕｒ
ｇｅｔ
　Ｌ，Ｃｅ
ｍｏｃ
ｋｙ　
Ｊ．Ａｐ
ｐｌｉ
ｃａｔ
ｉｏｎ　
ｏｆ　ｓ
ｐｅａ
ｋｅｒ
　ａｎｄ
　ｌ
ｅａｒ
ｎｉｎｇ　
ｔｏｏｌ
ｓ　ａｎｄ
　ｔｅ
ｃｈｎｉ
ｑｕｅｓ
　ｗｉ
ｔｈ　
Ｊａｖａ
　ｉｍｐｌ
ｅｍｅ
ｎｔａ
ｔｉｏｎｓ［ＯＬ］．
　
ｌ
ａｎｇｕａｇｅ　ｉ
ｎｄｅｐｅｎｄｅｎｔ　ｓｔａｔ
ｅ－ｏｆ
－ｔｈｅ－ａｒ
ｔ　ｔｅｃｈｎｉ
ｑｕｅｓ　ｆ
ｏｒ　ｅｍｏｔｉ
ｏｎ　ｈｔ
ｔｐ１ｆ｛
　ｗ．ｃ
ｓ．ｗａ
ｉｋａ
ｔｏ．ａｃ
．ｎ￣／－ｅｉ
ｂｅ／ｐｕｂｓ
／９９Ｉ
ＨＷ－
ＥＦ－
ＬＴ　
ｒ
ｅｃｏｇｎｉ
ｔｉ
ｏｎ［Ｊ
］．Ｓｐｅ
ｅｃｈ　
Ｃｏｍｍｕｎｉ
ｃａｔ
ｉｏｎ，
２０１１，
５３（
９）：
１１７２
—１１
８５　ＭＨ—
ＧＨ—
ＳＪＣ－
Ｔｏｏｌ
ｓ－Ｊ
ａｖａ
．ｐｄｆ
　
［８］Ｃｈｅｎ　
Ｌ，Ｍａｏ
　Ｘ，Ｘｕｅ
　Ｙ＿
Ｌ，ｅ
ｔ　ａ１
．Ｓｐｅｅ
ｃｈ　
Ｅｍｏｔ
ｉｏｎ　Ｒｅｃ
ｏｇｎｉ
ｔｉ
ｏｎ：
　ｒ２３］Ｂｒ
ｕｍｍｅｒ
　Ｎ．Ｆｏ
Ｃａｌ
—ＩＩ：Ｔｏｏｌ
ｋｉｔ
　ｆｏ
ｒ　ｃ
ａｌｉ
ｂｒａｔ
ｉｏｎ　
ｏｆ　
ｍｕｌ
ｔｉｃ
ｌａｓ
ｓ　ｒ
ｅｃｏ－
　
Ｆｅ
ａｔｕｒ
ｅｓ　
ａｎｄ　Ｃｌ
ａｓｓ
ｉｆｉ
ｃａｔ
ｉｏｎ　Ｍｏｄｅｌ
ｓ［Ｊ］
．Ｄｉ
ｇｉｔ
ａｌ　Ｓｉ
ｇｎａｌ
　Ｐｒ
ｏｃｅｓ
—　ｇｎｉ
ｔｉ
ｏｎ　
ｓｃｏｒ
ｅｓ［ＯＬ］．ｈｔ
ｔｐｓ：
／／ｓ
ｉｔｅｓ
．ｇｏｏ
ｇｌｅ
．ｃｏｍ／ｓ
ｉｔｅ
／ｎｉ
ｋｏｂｒ
ｕｍ—
　
ｓｉ
ｎｇ，２０１２，２２（６）：１１５４—１１６０　ｍｅｒ
／ｆｏｃ
ａｌ　
・　
２８　・
　

基于声学特征的语言情感识别

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于声学特征的语言情感识别

Uploaded by

Copyright:

Available Formats

第４２卷第９期　计算机科学　Ｖｏ１

期在特征级别的融合以及后期在分类结果级别的融合。

有限的情感描述能力无法满足对自发情感的描述；

的研究比连续情感维度的研究发展更为繁荣。在目前离散语　Ｖｏｉ

语音情感的变化通常可以体现为语音特征参数的变化。

果。基于协方差的高斯超向量取得了在单一特征中的最高准　Ｃｅｐｓｔ

超越了之前在此数据集上报告的最好结果。

You might also like

基于声学特征的语言情感识别

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于声学特征的语言情感识别

Uploaded by

Copyright:

Available Formats

第 ４２卷 第 ９期 计 算 机 科 学 Ｖｏ１

期在特征级别 的融合 以及 后期 在分类结果级别的融合 。

有限的情感 描述能力 无法满足 对 自发情感 的描述 ；

的研究 比连续情 感维度的研究发展更为繁荣 。在 目前离散语 Ｖｏｉ

语音情感 的变化通 常可 以体 现为 语音特 征参数 的变 化 。

果 。基于协方差 的高斯超 向量 取得 了在单一特征 中的最高准 Ｃｅｐｓｔ

超越 了之前 在此数 据集 上报 告的最好 结果 。

You might also like

第４２卷第９期　计算机科学　Ｖｏ１

期在特征级别的融合以及后期在分类结果级别的融合。

有限的情感描述能力无法满足对自发情感的描述；

的研究比连续情感维度的研究发展更为繁荣。在目前离散语　Ｖｏｉ

语音情感的变化通常可以体现为语音特征参数的变化。

果。基于协方差的高斯超向量取得了在单一特征中的最高准　Ｃｅｐｓｔ

超越了之前在此数据集上报告的最好结果。