You are on page 1of 5

第 42卷 第 9期  计 算 机 科 学  Vo1

.42 No.9 
2015年 9月  Com puter Sci
ence  Sep 2015
 

基 于 声 学 特 征 的 语 言 情 感 识 别 
金 琴 。
  陈师 哲  李锡 荣。 杨 刚  许洁 萍。
 
(中国人 民大 学数据 工程 与知识 工程 教育 部 重点实 验 室  北 京 1
00872)
 
(中国人 民大 学信 息学院  北 京 1
00872)
 

摘 要 语音情 感i
Y, ̄

,1
是语音 处理领域 中一 个具 有挑 战性 和广泛应 用前 景的研 究课题 。探 索 了语音情感识别 中的关 
键 问题之一 :
生成情感识别的有效的特征表示 。从 4个角度 生成 了语 音信号 中的情感特征表 示 :
(1)
低层 次的声 学特 
征 ,包括能量 、
基频 、
声音质量、
频谱等相 关的特征 ,以及 基于这些低层 次特征 的统计特征 ;
(2)
倒谱 声 学特征根 据情 感 
相 关的高斯 混合模 型进行距 离转化 而得 出的特征 ;
(3)声学特征依据 声学词典进行 转化 而得 出的特征 ;
(4)
声学特征 转 
化 为高斯超 向量 的特征 。通过 实验 比较 了各 类特征在 情感识 别上的独立性能,
并且 尝试 了将不 同的特征进 行融合 ,
最 
后 比较 了不 同的声学特征在 几个不同语 言的情感数据集上 的效果 (包括 I
EMOCAP英语 情感语料 库、
CASI
A汉语 情 
感语料库和 Be
rli
n德语情感语料库)。在 I
EMOCAP数据 集上 ,系统的正确识别率达到 了 71
.9 ,
超越 了之前在 此数 
据 集 上 报 告 的最 好 结 果 。
 
关键词 语音情感识别 ,
声学特征 ,
特征 融合 
中图法分类号 TP3
91  文献标识码 A  DOI
 10
.11
896
/j.i
ssn
.10
02—
137
X.2
015
.9.
005
 

Speech Emoti
on 
Recogni
tion Based on Acousti
c Feat
ures 

JI
N Qi
n  CHEN 
Shi
-zhe2
  LI
 Xi
—ronge
  YANG Gang2
  XU 
Jie
-pi
ng2
 

Key
 Labor
atory
 of
 Da
ta 
Engi
neer
ing 
and 
Knowl
edge
 Engi
nee
ring 
of 
Mini
str
y of
 Educ
ati
on,
Renmi
n Uni
ver
sit
y of
 Chi
na,
Bei
ji
ng 
100872,
Chi
na)
 
(Sc
hoo
l of
 Inf
ormat
ion,
Renmi
n Uni
ver
sit
y of
 Chi
na,
Bei
ji
ng 
100872,
Chi
na)
 

Abs
tract
  Emot
ion r
ecogni
tion 
from 
spee
ch 
is a 
chal
lengi
ng r
esear
ch 
area
 wi
th 
wide 
appl
icat
ions
.Thi
s paper
 expl
ore
d 

one
 of
 the 
key aspec
ts of
 bui
ldi
ng an emoti
on r
ecogni
tion sys
tem :ge
ner
ati
ng sui
tabl
e f
at
e ur
e r
epr
esent
ati
on.W e
 ext
rac
ted 


eat
ures
 fr
om 
four
 angl
es:
(1)l
ow-l
eve
l ac
ous
tic
 feat
ures 
such 
as 
inte
nsi
ty,
F0,
jit
ter,
shi
mmer,spect
ral
 cont
our
s et
c.and 
st
ati
sti
cal
 funct
ions
 over
 thes
e f
eatures,(2)a set
 of
 feat
ures
 der
ive
d f
rom s
egme
ntal
 cepst
ral
—base
d f
eat
ure
s scored 

agai
nst
 emot
ion-dependent
 Gaussi
an 
mixt
ure
 mode
ls,(3)a s
et 
of f
eat
ures
 deri
ved f
rom 
a s
et 
of l
ow-
leve1
 acoust
ic code—
 
wor
ds,(4)GM M  s
uper
vect
ors
 cons
truc
ted 
by 
stacki
ng 
the
 means
 or
 covari
anc
e or 
wei
ght
s of
 the
 adapt
ed 
mixt
ure
 com—
 

ponents
 on 
each ut
ter
ance.W e 
appl
ied t
hese f
eat
ures
 for
 emot
ion r
ecogni
ti
on i
ndependent
ly 
and j
oint
ly and c
ompared 

hei
r perf
orm ance 
wit
hin 
thi
s t
ask 
W e 
bui
lt a
 support
 ve
ctor
 mac
hine(SⅥ Ⅵ) c
lass
ifi
er 
base
(1 on t
hes
e f
eat
ure
s.W e
 test
ed 


he pe
rfor
m ance 
of t
hese 
dif
fer
ent
 feat
ures
 on s
ome
 publ
ic emot
ion 
rec
ogni
tion corpus(i
ncl
udi
ng 
IEM OCAP corpus
 in 

Engl
ish,
CASI
A c
orpus
 in 
M andari
n,and 
Berl
inEM O-
DB 
in 
Germany).On 
the
 IEM OCAP 
dat
abase,
the
 four
-cl
ass
 emo—
 
ti
on 
recogni
tion 
accur
acy 
of our
 sys
tem 
is 
71.9
  ,whi
ch out
per
for
ms t
he 
pre
viousl
y r
eport
ed 
best
 resul
ts 
on t
his
 dat
a— 

set.
 

Keywords
  Speech e
mot
ion 
rec
ogni
tion,
Acoust
ic f
eat
ures,
Feat
ure
 fusi
on 

个非 常重 要的研究 方向 ,
尤 其在人机交 互的应用 中有重要 的 

  引 言 
意义和广泛 的应用前景 ,
例 如在计算 机交 互教学l
_
1],
以及人 的 

般 认 为 人 类 是 通过 语 言 、
表情 、
音 乐 和 行 为 等 表 达模 式  精神健康辅助诊断l
_
2]等应用 中都发挥着重要 的作用 。
 
来进行 情感交 流的 ,
其 中包含在语 音信号 中的情感信 息是非  要研究语音信号 中所 包含 的情感 ,
首先需要 根据 某些特 
常重要 的信息 资源 ,
因此基于语 音 的情感分 析的研究 越来越  性 标 准 对 语 音 情 感 做 一 个 有 效 合 理 的分 类 ,
然 后 在 不 同类 别 
受到人们 的重视 。而语 音情感识别是语音信息处理技术 中一  的基础上研究特征参数 的性质 。本文 主要集 中研究语音情感 

到稿 日期 :
201
4—08—
12 返修 日期 :
2014—
09—1
3  本文受北京市 自然科 学基金 (
4142029),
中国人民大学科学研究基金 (中央高校基本科研业务 
费专项资金 )(1
4XNLQ01)资助 。
 
金  ̄-
(197
2- ),
女,博士 ,
副教授 ,
CCF会员 ,
主要研究方 向为音频 信息处理 、多媒体 内容 分析与理解 、自然语 言处理 、
统 计机 器学 习,E-
mai
l:
 
qj
in@r
uc.edu.c
n;陈师哲 (1
994- ),
女,主要研究方向为音频信 息处理 ;
李锡荣 (
1983-),
男,博士 ,
讲师 ,
CCF会员 ,
主要研究方 向为图像检索 与 
多媒体 内容分析 ;
杨 刚 (1
979-),
男,博士 ,
讲师 ,
主要研究方 向为神经 网络算法 ;
许洁 萍(1966- ),
女,博 士,副教授 ,
CCF会员 ,
主要研究方 向 
为多媒体信息处理 。
 

・ 
24 ・
 
识别 的声 学特征表 示 ;
在提取低层 次的帧级 声学特征 的基础  度神 经元 网络 的特征 的学习需要大 量的训练数 据 ,
本 文没有 
上,
通过 4种不 同的转化操 作生成 不 同的衍生 特征 。这 4种  直接 与其进行 比较 。本 文工作主要集 中在生成语音情感识别 
转 化包 括 :
1)传统 的统计 函数变换 ,
包 括极值 、
均值 、
方差等 ;
  的有 效 声 学 特 征 表 示 。
 

)将 帧级声学特征与情感相关 的高斯混合模 型进 行距 离计算 
3 声 学特 征 
而转化的特征 ;
3)通 过 数 据 驱 动方 法 得 到 的 声 学 码 字 ,
并 以 这 
些码字进行转化 的特征 ;
4)通过高 斯混合模 型转 化生成 的超  本 文 首先 对 每 个 语 音 句 子 提 取 了 帧 级 的 低 层 次 声 学 特 
向量特征表示 。本文也探 索 了将 不 同特征进 行融合 ,
包 括前  征,
然后 再整体地或 局部地对 这些低层 次基础特征进 行转化 

期在特征级别 的融合 以及 后期 在分类结果级别的融合 。


  操作 。
 
本文第 2节简要 介绍 了语 音情感 识别 的相 关 工作 ;
第 3
  3.1 低 层 次 基 础 声 学 特 征  
节 详 细 介 绍 了低 层 声 学 特 征 以及 通 过 4种 变 化 衍 生 的特 征 ;
  首先 利用 Op
enSMI
LE工具l
_
】。
 进 行低层 次特 征提取 ,
参 
第 4节介绍 了实验所用 的 3个 数据集 ;
第 5节阐述 了具体 的  考了 I
nte
rspe
ech
 201
0年 泛 语 言 学 挑 战 赛 (
Par
ali
ngu
ist
ic 
实验设 置以及实验 结果 ;
最后对本 文的研究 工作进行 总结和  Cha
lle
nge
)中 广泛 使 用 的 特 征 提 取 配 置 文 件 “e
mob
ase
201
0. 
展望 。
  c
onf
”[“]。表 1列 出了本 文实验 中所抽 取的低层 次基础 声学 
特征 。其 中基 频特 征 和声 音 质量 特 征 是用 40
ms的帧 窗和 
2 相 关工作  1
0ms的帧移抽取 ,
倒 谱类 的特征 是 用 2
5ms的帧窗 和 1
0ms
 
语音情感描述方 式大致可以分为离散情感类别和连续情  的帧移抽取 。
 
感 维 度 两种 形式 。前 者 将 情 感 描 述 成 离 散 的 、
情 感类 别标签  表 1 低 层 次 基 础 声 学 特 征 
的形式 ,
如高兴 、
悲伤等 ,
属于分类 问题 ;
后者则将情感状态描  FEA TURES  DES(;
RIPT1
0 N 

Then l
oudness
 as 
the 
nor
m al
ized 
intensi
ty 
述 为多维情感 空间 的点 ,
每个 维度对应 着情感空 间的一个 心  Loudness+ Del
ta 

ais
ed t
O a power
 of
 0.3
 
理学属 性 ,
如表示情感 激烈程度 的激 活度属 性。其 因用连续  F0f
inal
+De l
ta  The
 smoothed 
fundam ental
 fr
equency 
cont
our
 

的实数对每 一维度进行描述 ,
也被称 为连续情感描 述 ,
一般被  F0f
inEnv+ D
e l
ta 
The 
envel
ope 
of 
the smoot
hed f
undament
a1 
fr
equency 
cont
our
 
建模为标 准的预测或拟合问题 。这两种形式都具有各 自表达 
The 1
oeal
( f
rame-t
o-f
rame)Ji
tter 
情感 的优缺点 ,
离散情感描述简洁 、
易懂 、
容易着手 ,
但是其单  j
itter
Local+D
elta
 
(pi
tch 
per
iod 
length devi
ati
ons)
 

有限的情感 描述能力 无法满足 对 自发情感 的描述 ;


连续情  j
itter
DDP+Del
ta 
The
 di
fferenti
a1 f
ram ̄t
-f
o rame 
Jitt
er 
(the‘Ji
tter
 of
 the 
Jit
ter’)
 
感 描述拥有无 限的情感 描述能力 ,
但将 主观情感 转化为客观 
The 
1ocal
(fr
am e-
to-
fram e)Shi
mm er
 
shi
mm erLocal
+Del
ta 
数值 的过程是繁重且无 法保证质 量 的。当前 ,
离 散情 感分类  (ampl
itude devi
ati
ons
 between pi
tch 
peri
ods)
 

的研究 比连续情 感维度的研究发展更为繁荣 。在 目前离散语  Voi


cing 
final
+De l
ta 
The 
voi
cing pr
obabi
li
ty 
of t
e  f
h inal
 fundame
ntal
 
fr
equency c
andi
dat
e. 
音情感 分类 研究中 ,
常 用的情感 分为 8类情感 模 型(
高兴、
期  M FCC-r
elated  M FCCs(15)+ l
ogM el
FreqBand(8)
 

望、
愤怒 、
厌恶 、
悲伤 、
惊奇、
恐惧 、
赞 同)
或 4类情 感模 型 (
喜、 
3.2 统 计 函数 转 化 的声 学 特 征  
怒、
惊、悲 )。
 
对 于离散情感识 别而言 ,
其 系统的识别 准确 率是 与两个  在基 础声 学 特 征 上 应 用 了 21个 不 同 的统 计 函数 ,
将每个 

要素 紧密相关 的 :
特征 表示 和分 类器 。在语 音情 感识别 研究  句子 的一 组时长 不等 的基 础声 学特 征转 化 为定长 的静 态特 
领域 ,
研究人员们 已经尝试 了各种不 同的分类技术 ,
包括高斯  征。这些 统计 函数包括 最大最小 值 、
均值 、
时 长、
方 差等 。关 

混合模 型(
Gau
ssi
an 
Mix
tur
e Mode
l,GMM)、
隐马尔可夫模型  于这 些统计函数的具体描述可 以参考文献 [
13]。
 
(Hi
dden M ar
kov Model,HMM )、K-
近 邻 (K-
near
est
 nei
gh—
  3
.3 模 型 转 化 的声 学特 征  

bor
,KNN)、人 工 神 经 网 络 (Ar
tif
ici
al
 Ne
ura
l Ne
twor
ks,
  这一转化的 目的也是将基于分段 的时长不等 的倒谱特征 
ANN)、
支持 向量 机 (
Suppo
rt Ve
ctor
 Ma
chi
ne,
SVM )等 [
 ]。
  转化 成 一 组 新 的 定 长 的 静 态 特 征 。但 是 新 的特 征 要 保 持 情 感  
其 中支持 向量机被认 为是对不 同的模 式识别问题可 以得到 比  区分 的信 息 ,
而不 只是 简单地在句子级别 上进行统计计算 (
如 
其他 的传统分类技术更好 、
更泛化 的性能 的方法 。
  3.2节 中统 计 函数 转 化 的声 学 特征 )。
 

语音情感 的变化通 常可 以体 现为 语音特 征参数 的变 化 。


  首先 ,
基于倒谱特征 为每类情 感分别训 练一 个有 5个高 
例如高兴时 ,
通常是语 速较快 ,
音量较 大 ;
悲伤时 ,
通常是语速  斯分量 的高斯 混合模型 。整个高斯混合模型或者其 中的高斯 
缓慢 ,
音 量 较 小 。声 学 特 征 (
Acous
tic
 Fe
atur
e)是语 音情 感识  分量都 可以被看作是情感相关的模型 。通过计算倒谱特征与 
别系统使用 的最 主要特征 。研究人 员们 探索了很多不同 的声  情感 相关模 型之间的匹配度或者距离来进行转化 。转化后 的 
学特征,
包 括与基频 (
Pit
ch)、能 量 (
Ene
rgy)、语 速 (
Spe
ech
  特征包含 3个 维度 (
 ,h,
a)E
15
]。其 中 P是归一化 的帧级倒谱 
Ra
te)、
共振峰等相关 的韵律 特征[
10
,1
1]以及 频 谱 相 关 的 特 征 ,
  特 征 与情 感 模 型 匹 配 概 率 得 分 的 平 均 值 ,
h是 匹 配 概 率 得 分  
例 如 Mel
—Fr
eque
ncy 
Cep
str
al 
Coe
ffi
ci
ent
s(MFCC)和 Pe
rce
p—  高的比率 ,
a是 在帧级 特征 分布 为 Di
ri
chl
et分 布 的假设 前提 

ual
 Li
nea
r Pr
edi
cti
on(
PLP)
等l_
8]。其 中 MFCC是 目前 使 用  下转化生成 的高级 特征 。将 这些新特征称作模 型转化的倒谱 
最广泛 的语音特征之一 ,
具有计算简单 、
区分 能力好等突出的  特征 (
M-Ce
pst
rum)。
 
优点 。这些特征大部分是帧级 的特征 。基 于帧级 特征 的统计  3.
4 码 宇 转 化 的 声 学 特 征 
特征(
例如均值 、
方差 、
范围等)
也被广泛应用 于语音情感 识别  码本技术是在 文本 分类 (
bag-
oPwor
ds词 袋 )
以及 图像分 
系统 中[
5]。近年来 ,
根 据深度 神经元 网络学 习得 到的特 征也  类(
bag-
of-
vis
ual
 wo
rds视 觉词袋 )等任 务 中常用 的技 术 。类 
在语音情感识别 任务 中取 得 了很 好 的性能_
l2
]。但是 基 于深  似 的音 频 词 袋 (
bag
-of
-au
dio
 wor
ds)
的 方 法 也 被 成 功 地 应 用 到 
・ 
25 ・
 
多媒体事件检 测等 任务 中[
 ]。其基 本思 想就是 对于 一段音  4
.2  CASI
A 汉语 情 感 语料 库 
频上 的基础倒谱 特征 ,
通 过统计其 在码本 中每个 码字上 的分  CASI
A 是 由 中 国科 学 院 自动 化 研 究 所 录 制 的 _

 。语 料  
布,
将 其转化为维度为码本大小的新特征 。本 文首先使用 K_
  设 计 包 含 6类 不 同 情 感 :
高兴 、
悲 哀、
生气 、
惊吓、
难过 、
中性 。
 
近 ̄I
I(K—
mea
ns)
聚类 算法 产生 一个声 学码 本 ,
然 后将 每个 句  每种 情感 有 5
O句 语 料 ,
由 4位 录 音 人 (
2男 2女 )
在 纯 净 录 音 
子表示成其基础声学特征在每个码字上 的分布 :
  环境 中(
信噪 比约为 3
5dB)
对5O句语料赋予不 同的情感演绎 
d 一 (
 “ ,… ,
d .
K)  而得 到。语音信号 采用 16
kHz采样以及 1
6bi
t量化 。经过 听 
其 中,
d 代表第 i个句子 中属于第 J个码字 的帧 的数 目的加  辨筛选 ,
最终保 留 1
200句语音样例 。
 
权 平 均 。K 代 表码 本 的 大 小 即码 字 的个 数 ,
这 个 参 数 可 以通  4.
3 柏 林 EMO-
DB德 语 情 感 语 音 库 
过在开发集数据上学习调整到最优 。
  EMO-
DB是 由柏 林 工业 大学 录制 的德 语 情 感 语 音 库 [

 , 

.5 高 斯 超 向量 特 征   由1
O名 演 员 (
5男 5女 )
对 1
O个 语 句 (
5长 5短 )进 行 7种 感  
近年来 ,
高斯超 向量在 话者识 别的任 务 中有很 成 功的应  情(
高兴 、
生气 、
焦 虑、
害怕 、
无聊 、
厌恶和中性)的演绎而 得到 ,
 
用_

 。高斯超 向量 通常是 通过 拼接 高斯混 合模 型 中的均值  共 包 含 53
5句 语 料 。语 音 信 号 同 样 采 用 1
6kHz采 样 以 及  
或协方差或权值而生成 的。首先在随机抽取的包含所有情感  1
6bi
t量化 。语料 文本 的选取遵从语 义中性 、
无情 感倾 向的原 
的数 据上 训 练 出一个 通用 背 景高 斯混 合模 型 (
称 为 GMM-
  则,
且 为 日常 口语 化 风 格
诣、
超 ,

 
厂 过人
 .多
__的书
- 面语 修 饰 。语 音 的 录 制 

U BM ):
  在专业 录音室 中完 成 ,
要 求演员在 演绎某个特定 情感前通过 
M 
回忆 自身真实经历 或体验进 行情绪 的酝酿 ,
来增 强情绪 的真 
g(X)一 ∑A
 N (X;
  ,
  )
 
i— l
 
实 感 。经 过 2O个 参 与 者 (
10男 1
O女 )的 听 辨 实 验 ,
得 到 
其中,
  是权值 ,
~(  ,
 )是单 个高 斯 ,
  和  是高斯 的均 

4.3
  的听辨正确率 。
 
值 和协方差 。假 定协 方差  是对 角阵 ,
对于 每个句 子 ,
可 以 
通过 MAP(
Max
imu
m A 
Pos
ter
ior
)适应 生成一个对应 的高斯  5 实验 
混合模 型(
Adap
ted
 GMM);
然后拼接这个 高斯混合模 型的均  本 文 中所 有 的实 验 都 是 关 于语 音 情 感 分 类 的 。 实验 的评  
值  或对角 阵  或权值  来产生不 同的超 向量 ,
图 1示 出  测标准是识别准确率 ,
即: 
了拼接均值产生超 向量的过程。可以把高斯超向量看作是 由 
准确率 一 
低层次声学特征 转化 的高维 特征 ,
并 将 其作 为 SVM 分类 器 
的输 入 特 征 。
  5.1 实 验设 置 
本 文 中所 有 的 实 验 都 是 在 1
O组 交 叉 验 证 (1
0一f
old
 cr
oss
 
通 用模 型 

ali
dat
ion)
的模式 下完成 。
 

GMM- UBM)  
在后文 中出现 的不 同声学特征及其衍生特征 的名称缩写 
及描述如下所示 :
 

Ce
pst
rum:
在帧级的倒谱声 学特征 上应用 统计 函数得 
输 入语 句  到语句级别 的倒谱特征 。
 

图 1 高 斯 超 向 量 特 征 的生 成 图示 

ACO:
在帧级 的基 础声学特 征 (
除去倒谱 Ce
pst
rum特 
征)上应 用统计函数得到语句级别的特征 。
 
4 数 据集描 述  ・
M-
Ceps
trum:
倒谱声学特征根据情感 相关 的高斯混合 
模 型 进 行 距 离 转 化 而 得 出 的特 征 。
 
分别在 I
EMOCAP英语情感语料库 、
CASI
A汉语情 感语  ・
BoW :
利 用 声 学 码 本 转 化 的 特 征 。ACO-
o W 是 指对 

料库和 Be
rli
n德语情感语料库 中进 行 了实 验。下面将对 这 3
 
帧级基础声学特征 (
除倒 谱特 征 )
进 行码 本转 化 而得 到的特 
个数据集逐一介 绍 。
 
征,
Ceps
tru
m-BoW 是 指 对 倒 谱 声 学 特 征 进 行 码 本 转 化 而 得  
4.1
 IEMOCAP英 语 情 感 数 据 集 
到 的特 征 。
 

EMOCAP是 由南加 利福 利亚大 学录 制 的情感数 据 库 ,
  ・
GSV:
通过拼接 MAP-
自适 应得 到 的高斯 混合 模型 的 
包含约 1
2小时的视听数据 ,
即视频、
音频和语音文本 、
面部表  均 值 或 协 方 差 或 权 重 而 形 成 的 高 斯 超 级 向量 。在 实 验 中 ,
生 
情_
l8
]。1
0名专业演员 (
5男 5女 )
在有 台词或 即兴 的场景 下 ,
  成 的 GSV特征是基于帧级 的倒谱声学特征而得到 的。
 
特意 引导 出情感 表达 。之 后 ,
人工将每一段对话切分成单 句 ,
  ・
十:
特 征 的 拼 接 操 作 。 如 :ACO+ Ceps
trum 是 指 拼 接  
每一句话至少 由 3个标 注员进行类别标注(
in高兴 、
生气等),
  ACO和 Ce
pst
rum 特 征 。
 
此 外 也 对 Va
lenc
e、Ac
tiva
tion、
Domi
nan
ce 
3个 维 度 进 行 了 标  实验 中 ,
首先利 用 SVI
Vl
c ]
分类 器在 I
EMOCAP上 比较 
注 。本 文 的实 验 仅 考 虑无 较 大 争议 的 分 类标 注 结 果 。为 了 平  了上述 每组特征 的效果 ,
并 尝试 了前期 特征融合 和后期分类 
衡 不 同 情感 类 别 的 数 据 ,
将 高兴 (
hap
py)和 兴 奋 (
exc
iti
ng)
合  结果融合 ,
然后将较好的特征及组合推广 到 CASI
A和 EMO-
 
并 成高兴类别 。由高兴 、
生气 、
悲伤和 中性最终构成 了 4类情  DB不 同语 言 的数 据 集 中来 验 证 其 鲁 棒 性 和 可 迁 移 性 。
 
感 识别数据库 。表 2展示了每一类情感的语句个数 。
  分 类 器 是 情 感 识 别 系统 中最 重 要 的部 分 之 一 。在 众 多 的 

表2
 IEMOCAP数 据 集 中每 个 情 感 类 别 语 句 的 数 量  分类器 中 ,
支 持 向量 机 S
VM 在 多 种 不 同 应 用 中都 被 认 为 是  
最有效 的分类器之一 ,
而且 比神经 网络更易于使用 。通常 ,
径 
兰  壹  斐笪  主
 堡 
1103  1636
  1084  1708  5531
  向基核 函数 (
RBF-
SVM)
是最基 础的选择 。C和 y是在 RBF-
 
・ 
26 ・
 
SVM 中需要调 节的两个参数 ,
C控制调 整训练 的错 误和最 大  分类准确率 。实验结果显示后期融合效果没有前期融合好 ,
很 
边界 ,
y调整核 的宽 度。通常使用 网格搜 索进行交 叉验证 ,
对  有 可能是 由于投票结果值的离散性使其并不适用于后期 融合 。
 
C和 y进行调优 。在实 验 中,
使 用数 据挖 掘 工具 We
ka[
22
]中  表 6 两组特征后期融合的情感分类 准确率 
的网格搜索算法来调 整 C和 y,
其 中 C的范 围是 2
 到 2
 ,y
  特征集  准确率 
的范 围是 2
 到 2
  呈指数增长 。
  Cepst
rum + GSV 
COW  65.5 

Cepst
rum-BoW + GS、 m ean  67.0 
5.2  I
EMOCAP实 验 结 果 
Ceps
trum-B W + GSV—
COV  67.1 
表 3列出 了每一组特征在 I
EMOCAP数据集上 的分类效  Ce
pstr
um + Cepstr
um-BoW   67.0 

果 。基于协方差 的高斯超 向量 取得 了在单一特征 中的最高准  Cepst


rum + GSV-m ean  65.4 

AC0+ Cepst
rum-BoW   66.9 
确率 6
7.8
  ,超 过 了此 前 文 献 [
15]中 报 告 的声 学 特 征 在 
M-
Ceps
trum + GSV-eov  68.0% 

EMOCAP 
4类 情 感 分 类 的 准 确 率 。 码 本 转 化 (Bo
W )选 择 的  ACo+ GSV—C
OY  67.9 

聚类码本大小 为 4
096,
其在倒谱 声学特 征(
Ceps
trum)中效果  (  一
m ean  G N —COV  67.5 

A Co + GSV—mean  67.3 
良好 ,
但是在基础声学特征 (
ACO)中的效果 却大 相径庭 。这 
是 因为对于尤其 是描述语 音质量 的特征来说 ,
其包 含 了长 时  5.3
  CAsI
A 实 验 结 果 
信息 ,
仅仅有小部分的帧有非零值 ;
而对于频谱特征蕴含 的短  使 用在 I
EMOCAP中效果 较好 的单个 特征 集合 在 CA—
 
时信息 ,
则可以很好地通过码本转换体现 。
  SI
A数据集上进行测试 。结果如 表 7所列 ,
其中,
对于 Ce
ps—
 
表 3 单组 特征在 I
EMOCAP数据集上的分类准确率  t
rum-
BoW 特征 ,
经 过交叉验 证当聚类码 本大小为 2
048时效 
果 最好 ,
这是 由于 CASI
A数据集的数据量 比 I
EMoCAP数据 
集小 。在 中文语 音 环 境 下 ,
Cep
str
um-
BoW 和 GSV-
mea
n仍 
然保 持了很好的迁移性 。由于后期 融合效 果不 明显 ,
只进行 
了前期 的两类和三类特征集融合 ,
实验结果 如表 8所列 。
 

表 7 单组特征在 CASI
A数据集上的情感 分类 准确率 

在前期融合 中 ,
对特征集 合 中所 有特 征的两两 组合 进行 
了实验 ,
即不同特征的简单拼接 。表 4展示 了 To
p-l
O的特征 
组合及其分类准确率 。从 中发现 ACO 与其他每 一个单 一特 
表 8 多组特征前期融合在 CASI
A数据集上 的情感分类准确率 
征 的融合都对分 类性 能 有所 提高 ,因此考 虑到 AC0和 其他 
特征集  准确率 
短时信息特征 的互 补性 ,
把 ACO和其 他频 谱 转化得 到 的特 
AC0+ Cepstr
um  84.7 
征进行 3种 特征 的 融 合。如 表 5所 列 ,
ACO、
GSV-
mea
n和  AcO + Cepst
rum-BoW   85
.3% 
GSV-
cov融合取得了最高 的分类准 确率 7
1.9
 ,远远超 出 了  AC0+ GSV—mean  85
.1% 
Cepst
rum-BoW + GSv_
m ean  86 
此前在 I
EMOCAP 
5类情感识 别中的最好结果¨

 。 
Cepst
rmn+ Ce
pst
rm ̄ BoW   87
.2% 
表4
  Top1
0两组特征前期融合 的分类准确率  AOO+Ceps
trum-BoW + GSV-
mean  86.7 
ACO + eepst
rum + Cepst
rmn-BoW   87
.8% 
特征集  准确率 
Cepst
rum-BOW + GSV-
mean  71.00% 
Cepst
rum-BoW + GS、Leov  7O.90% 

.4  EMO-
DB实 验 结 果 
Cepstr
um  Cepst
rum-BoW   7O.60  同样 的配 置 在 EMO-
DB数 据 集 上 的 实 验 结 果 如 表 9和 
Cepst
rum + GSV—
m ean  7O.40 
表l
O所列 ,
Ceps
tru
m-BoW 的聚类码本 大小 为 1
024时效果 最 
Cepst
rum + GSv_
COV  7O.2O 
ACI
D  Cepst
rum -
BoW   70.10 
好,
这 也 与 数据 集 大 小 相 关 ,EMO-
DB的 数 据集 大 小 约 为 

V[Cepst
rum + GSV-
cov  69.7O  CASIA 的一 半 。
 
ACo+ GSV—
COY  69.60 
表 9 单组特征在 EMO-
DB数据集上 的分类准确率 
GSV —
m ean+ GSV —
COW  69.4O 
ACo+ GSV 
m ean  69.10 

表5
  3组 特 征 前 期 融合 的 分类 准 确率  
特征 集  准确 率 
ACO + Cepstr
um-
BoW + G SV-me ̄   71.6
 
AC0+ Cepst
rum -
BoW + GSV-c
ov  71.8 
Ac0 + Cepst
rum + Cepst
rum-
BoW   71.4
 
AC()+ Cepstr
um + GSV-mean  71.2
 
表 1O 多组特征前期 融合在 EMO-
DB数据集上 的分类准确率 
ACO+ Cepst
rum+ CSV-
coy  70.3
  特征集  准确率 
ACo + M -Cepst
rum+ GSV-
cov  7O.3
  ACO+ Cepst
rum  87.8 
Aco+ GSV—
n-e
an+ GSV-
eOV  71.9%  AC0+ Cepst
rum -
BoW   88.4 
ACO+GSV—mean  88.8 

对于后期融 合 ,
采用 简单 的线性加 权 融合 。利用 FoCa
l  Cepst
rum + GSV-
m ean  89.5 
Cepst
rum + Cepst
rum -
BoW   8
9.7% 
工具  在训练集 中进行权重 的取优 ,
最后将得 到的权重参数  A CO 一-Cepstr
um J_Ceps
trum-BoW   90.1
 
应 用 于测 试 集 。表 6列 出 了 在 决 策 层 面上 的 后 期 融 合 的 情 感  Aco+ Cep ̄rum + GSV—
IIl
I皿  
- 90.3 

・ 
27 ・
 
从表 中 可 以看 出,
Ceps
trum-
BoW 和 GSV-
mean对 不 同  [
9] Zha
ng 
B Y,Yu
 J Q,
Tang
 J F,
et a1
.Mo
vie 
bac
kgr
ound 
mus
ic 
语言的鲁棒性较高 ,
但 是受数据集大小影 响较 大 ;
数据集减小  c
las
sif
ica
tion 
for
emot
ion
 EJ].Comput
er Sc
ienc
e,201
3,40(12):
 
37—4O。74 
后,
其效果甚 至不 如直 接对 每 帧特征 的统计 函数 值 。但 是 ,
 
[1
O]Schul
ler
 B,Re
iter
 S,Mue
lle
r R,et
 a1

 spe
aker
—i
nde
pende
nt 
ACO特征与经过转化后 的倒谱声学特征 的互 补信息更 多 ,
融 

pee
ch 
emot
ion 
reco
gni
ti
on 
by 
ens
embl
e cl
ass
ifi
cat
i0n[
C]∥Pr
o— 
合效果显著 。
 
ceedi
ngs
 of
 IEEE Internati
onal
 Conference on M ult
im edi
a and 
结束语 本文在 I
EMOCAP英语情感语料 库 、
CASI
A汉 
Expo(ICM E).Am sterdam ,Net
herl
ands,2005:864—867 
语情 感语 料库和 Be
rli
n德语情感 语料库 等 3种 不 同语言 、
不 
[1
1]Pa
o T 
L,Che
n Y 
T,Ye
 J H,
et 
a1.Ma
ndar
in 
Emot
ional
 Spe
ech 
同大小 的数据 集上进行 了语音情感识别 实验 ,
主要工作 是抽 
Rec
ogni
ti
on 
bas
ed 
on 
SVM 
and 
NN[C]f
 Pr
oce
edi
ngs
 of
 Int
er—
 
取 不 同 的声 学 特 征 以及 对 帧 级 别 特 征 的 多 种 转 化 ,
包 括 模 型  nati
onal
 Conf
erence on Patt
er Recognit
ion (ICPR ). 2006,1:
 
转换 、
码本转换 、
高斯超级向量 。数据 集的规模 对于数据驱动  1096~1
 100 

的码 本特征和高斯超级 向量有较大影响 ,
但整体来说 ,
转化后  [1
2]Lee
 H,
Lar
gma
n Y,
Pha
m P,
et 
a1.Uns
upe
rvi
sed
 fe
atur
e l
ear
ning 
的特 征分类效果更优 ,
且与原始统计 函数 的特征具有互补性 。
  for
 audi
o cl
assi
ficati
on usi
ng convol
uti
onal
 deep bel
ief
 networks 

在 每个数 据集 中通过 特征 融合 ,
都 大大 提高 了识 别准 确率 。
  [c]∥ Pr
ocee
dings
 of
 Adva
nce
s i
n Ne
ura
l I
nfor
mat
ion Pr
oces
- 

在 I
EMOCAP 数据 集上 ,
系 统 的 识 别 准 确 率 达 到 了 71
.9 ,
  si
ng Syst
ems(NI
PS).2009:1-9 

超越 了之前 在此数 据集 上报 告的最好 结果 。


  [13]Eyben
 F,Wol
lmer
 M,Sc
hul
ler
 B OpenSMI
I E—
The
 Muni
ch 
Ver
sat
ile
 and 
Fas
t Open
-Sour
ce 
Aud
io 
Feat
ure
 Ext
ract
or[C]/
/ 
未来的工作会 致力 于探索 其他 不 同类 型 的特征 转化 方 
Proceedi
ngs of
 ACM  M ul
timedi
a(M M ).Florence,Italy,2010:
 
法,
如利 用深度神 经网络进行 特征学 习以及 在后期更加 有效 
1459—1462 
的融合模 式 。
 
[14]Schul
ler
 B,
Bat
li
ner
 A,St
eidl
 S,e
t a1
.Rec
ogni
zi
ng 
Real
ist
ic
 Emo—
 
参 考 文 献  ti
ons and Affect i
n Speech:State of
 the Art
 and Lessons Lcant
 


rom 
the
 Fi
rst
 Chal
lenge[J].Spee
ch Communi
cat
ion,2
011,53
 
[1
] Li
tman 
D,For
bes
 K.Rec
ogni
zi
ng 
emot
ions
 fr
om s
tude
nt 
spee
ch 
(10):1062—1087 

n t
utor
ing di
alogue
s Ec]f
 Pr
ocee
ding of
 IEEE Wor
kshop on 
[15]Roz
gic
 V,Ana
ntha
kri
shnan 
S,Sa
leem 
S,et
 a1
.Emot
ion
 Re
cogni
— 
Aut
om ati
c Speech Recogni
tion and U nderstandi
ng(ASRU ).
 

ion 
usi
ng 
Acous
tic
 and
 Lexi
cal
 Fea
tur
es[c]∥ Pr
ocee
dings
 of
 
2003:25—3O 
INTERSPEECH 2012.September 
Portl
and,2012 
[2] Fr
anc
e D 
J,Shi
avi
 R 
G,Si
lve
rma
n S,
et 
aI.Aco
ust
ical
 pr
ope
rti
es 
[16]Le
e K,El
li
s D 
P W.Audi
o-Bas
ed 
Semant
ic 
o nce
C pt 
Cla
ssi
fi
ca—
 

f s
peec
h as
 indi
cat
ors
 of
 depr
ess
ion 
and
 sui
ci
dal
 ri
sk口].I
EEE 

ion f
or Co
nsumer
 Vi
deo[J].I
EEE Tr
ans
.Audi
o,Spee
ch,a
nd 
Trans.on Bi
om edi
cal
 Engi
neeri
ng,2000,47(7):829—837  Language Processi
ng,2010,18(6):1406—1416 

3] Yang 
N,Mur
alee
dha
ran 
R,Koh1
 J,
et a1
.Spe
ech-
bas
ed e
mot
ion 
[17]Ca
mpbel

 W 
M,St
uri
m D 
E,Rey
nol
ds D 
A.Suppor
t vec
tor
 ma—
 
cl
assi
ficat
ion usi
ng m ul
ticl
ass SVM  wi
th hybri
d kernel
 and 

hine
s us
ing GMM s
uper
vec
tor
s f
or s
peaker
 ver
if
ica
tion[J]
. 

hre
shol
ding 
fus
ion[C]∥Pr
oce
edi
ngs
 of
 the
 4 I
EEE 
wor
kshop  IEEE Si
gnal
 Processi
ng Letters,2006:308—3 
11 
on Spoken Language Techn0l
0gy(SLT),2012.M i
ami,Fl
ori
da,
  r1
8] Buss
o C,
Bul
ut M ,Le
e C C,e
t a1
.IEM0CAP:I
nter
act
ive
 emo—
 
2012:455—460 

ional
 dya
dic
 mot
ion 
capt
ure
 dat
abas
e[J].Jour
nal
 of
 Langua
ge 

4] Sc
hul
ler
 B,
Rigol
l 
G,Lang^,
L 
Spe
ech e
mot
ion 
rec
ogni
ti
on c
om—
  Res
ources
 and Eval
uati
on,2OO8。42(4):335—359 
bi
ning acousti
c feat
ures
 and l
ingui
sti
c i
nform ati
on i
n a hybri
d  [1
9]Da
ta 
col
lect
ed 
by t
he 
spee
ch 
group 
at 
Nat
iona
l Ke
y La
bor
ator
y 

uppor
t ve
ctor
 mac
hine
-bel
ie
f ne
twor
k a
rchi
tect
ure[c]∥Pr
o  of
 Pat
ter
n Rec
ogni
ti
on[0L_.ht
tp:
//、
^  .da
tat
ang.c
om/da
ta/
 
ceedi
ngs of
 the ICASSP.2004,1:577—580  39277 

[5] Aya
di 
M,Ka
mel
 M,
Kar
ray
 F.Sur
vey 
on 
spe
ech 
emot
ion 
reco
g—  r2
O]Bur
khar
dt 
F,Paes
chke
 A,
Rol
fes
 M,
et 
a1.A 
dat
aba
se 
of 
Ger
man 
ni
ti
on:Fe
atur
es,
clas
sif
icat
ion
 sche
mes,and 
dat
aba
ses[J]
.Pat
—  emot
ional
 spe
ech[C]∥ Pr
oce
edi
ngs
 of
 INTERSPEECH 2005.
 
tern Recogni
tion,2011。44(3):572—587  Li
sbon,2005:1517—1520 

[6] Zeng 
z,Pant
ic 
M,Ros
iman 
G I,
et 
a1.A 
sur
vey
 of
 af
fec
t r
ecogni
  [21]Hsu
 C 
W,Cha
ng 
C C,
Lin 
C J.A 
pra
cti
cal
 gui
de 
to s
uppor
t vec
 

ion 
met
hods:Audi
o,vi
sua1
,and
 spont
ane
ous
 expr
ess
ions[J]
.  t
or 
clas
sif
ica
tion[OL].2010.ht
tpt
|{  .cs
ie.nt
u.e
du.t
w/ 

EEE Trans.on Pattern Anal
ysi
s and M achi
ne Int
ell
igence,
  c
jhn/paper
s/gui
de/gui
de.pdf
 

2009,31(1):39—58  [22]Wi
tte
n I
 H,
Frank 
E,Tr
igg 
I E,e
t a1
.we
ka:
Prac
tic
al 
mac
hine
 

[7] Koc
kma
nn 
M,Bur
get
 L,Ce
moc
ky 
J.Ap
pli
cat
ion 
of s
pea
ker
 and
  l
ear
ning 
tool
s and
 te
chni
ques
 wi
th 
Java
 impl
eme
nta
tions[OL].
 

anguage i
ndependent stat
e-of
-the-ar
t techni
ques f
or emoti
on  ht
tp1f{
  w.c
s.wa
ika
to.ac
.n ̄/- ei
be/pubs
/99I
HW-
EF-
LT 


ecogni
ti
on[J
].Spe
ech 
Communi
cat
ion,
2011,
53(
9):
1172
—11
85  MH—
GH—
SJC-
Tool
s-J
ava
.pdf
 

[8] Chen 
L,Mao
 X,Xue
 Y_
L,e
t a1
.Spee
ch 
Emot
ion Rec
ogni
ti
on:
  r23] Br
ummer
 N.Fo
Cal
—II:Tool
kit
 fo
r c
ali
brat
ion 
of 
mul
tic
las
s r
eco-
 

Fe
atur
es 
and Cl
ass
ifi
cat
ion Model
s[J]
.Di
git
al Si
gnal
 Pr
oces
—  gni
ti
on 
scor
es[OL].ht
tps:
//s
ites
.goo
gle
.com/s
ite
/ni
kobr
um—
 

si
ng,2012,22(6):1154—1160  mer
/foc
al 

・ 
28 ・
 

You might also like