Professional Documents
Culture Documents
基于声学特征的语言情感识别
基于声学特征的语言情感识别
.42 No.9
2015年 9月 Com puter Sci
ence Sep 2015
基 于 声 学 特 征 的 语 言 情 感 识 别
金 琴 。
陈师 哲 李锡 荣。 杨 刚 许洁 萍。
(中国人 民大 学数据 工程 与知识 工程 教育 部 重点实 验 室 北 京 1
00872)
(中国人 民大 学信 息学院 北 京 1
00872)
摘 要 语音情 感i
Y, ̄
t
,1
是语音 处理领域 中一 个具 有挑 战性 和广泛应 用前 景的研 究课题 。探 索 了语音情感识别 中的关
键 问题之一 :
生成情感识别的有效的特征表示 。从 4个角度 生成 了语 音信号 中的情感特征表 示 :
(1)
低层 次的声 学特
征 ,包括能量 、
基频 、
声音质量、
频谱等相 关的特征 ,以及 基于这些低层 次特征 的统计特征 ;
(2)
倒谱 声 学特征根 据情 感
相 关的高斯 混合模 型进行距 离转化 而得 出的特征 ;
(3)声学特征依据 声学词典进行 转化 而得 出的特征 ;
(4)
声学特征 转
化 为高斯超 向量 的特征 。通过 实验 比较 了各 类特征在 情感识 别上的独立性能,
并且 尝试 了将不 同的特征进 行融合 ,
最
后 比较 了不 同的声学特征在 几个不同语 言的情感数据集上 的效果 (包括 I
EMOCAP英语 情感语料 库、
CASI
A汉语 情
感语料库和 Be
rli
n德语情感语料库)。在 I
EMOCAP数据 集上 ,系统的正确识别率达到 了 71
.9 ,
超越 了之前在 此数
据 集 上 报 告 的最 好 结 果 。
关键词 语音情感识别 ,
声学特征 ,
特征 融合
中图法分类号 TP3
91 文献标识码 A DOI
10
.11
896
/j.i
ssn
.10
02—
137
X.2
015
.9.
005
Speech Emoti
on
Recogni
tion Based on Acousti
c Feat
ures
JI
N Qi
n CHEN
Shi
-zhe2
LI
Xi
—ronge
YANG Gang2
XU
Jie
-pi
ng2
(
Key
Labor
atory
of
Da
ta
Engi
neer
ing
and
Knowl
edge
Engi
nee
ring
of
Mini
str
y of
Educ
ati
on,
Renmi
n Uni
ver
sit
y of
Chi
na,
Bei
ji
ng
100872,
Chi
na)
(Sc
hoo
l of
Inf
ormat
ion,
Renmi
n Uni
ver
sit
y of
Chi
na,
Bei
ji
ng
100872,
Chi
na)
Abs
tract
Emot
ion r
ecogni
tion
from
spee
ch
is a
chal
lengi
ng r
esear
ch
area
wi
th
wide
appl
icat
ions
.Thi
s paper
expl
ore
d
one
of
the
key aspec
ts of
bui
ldi
ng an emoti
on r
ecogni
tion sys
tem :ge
ner
ati
ng sui
tabl
e f
at
e ur
e r
epr
esent
ati
on.W e
ext
rac
ted
f
eat
ures
fr
om
four
angl
es:
(1)l
ow-l
eve
l ac
ous
tic
feat
ures
such
as
inte
nsi
ty,
F0,
jit
ter,
shi
mmer,spect
ral
cont
our
s et
c.and
st
ati
sti
cal
funct
ions
over
thes
e f
eatures,(2)a set
of
feat
ures
der
ive
d f
rom s
egme
ntal
cepst
ral
—base
d f
eat
ure
s scored
agai
nst
emot
ion-dependent
Gaussi
an
mixt
ure
mode
ls,(3)a s
et
of f
eat
ures
deri
ved f
rom
a s
et
of l
ow-
leve1
acoust
ic code—
wor
ds,(4)GM M s
uper
vect
ors
cons
truc
ted
by
stacki
ng
the
means
or
covari
anc
e or
wei
ght
s of
the
adapt
ed
mixt
ure
com—
ponents
on
each ut
ter
ance.W e
appl
ied t
hese f
eat
ures
for
emot
ion r
ecogni
ti
on i
ndependent
ly
and j
oint
ly and c
ompared
t
hei
r perf
orm ance
wit
hin
thi
s t
ask
W e
bui
lt a
support
ve
ctor
mac
hine(SⅥ Ⅵ) c
lass
ifi
er
base
(1 on t
hes
e f
eat
ure
s.W e
test
ed
t
he pe
rfor
m ance
of t
hese
dif
fer
ent
feat
ures
on s
ome
publ
ic emot
ion
rec
ogni
tion corpus(i
ncl
udi
ng
IEM OCAP corpus
in
Engl
ish,
CASI
A c
orpus
in
M andari
n,and
Berl
inEM O-
DB
in
Germany).On
the
IEM OCAP
dat
abase,
the
four
-cl
ass
emo—
ti
on
recogni
tion
accur
acy
of our
sys
tem
is
71.9
,whi
ch out
per
for
ms t
he
pre
viousl
y r
eport
ed
best
resul
ts
on t
his
dat
a—
set.
Keywords
Speech e
mot
ion
rec
ogni
tion,
Acoust
ic f
eat
ures,
Feat
ure
fusi
on
个非 常重 要的研究 方向 ,
尤 其在人机交 互的应用 中有重要 的
1
引 言
意义和广泛 的应用前景 ,
例 如在计算 机交 互教学l
_
1],
以及人 的
一
般 认 为 人 类 是 通过 语 言 、
表情 、
音 乐 和 行 为 等 表 达模 式 精神健康辅助诊断l
_
2]等应用 中都发挥着重要 的作用 。
来进行 情感交 流的 ,
其 中包含在语 音信号 中的情感信 息是非 要研究语音信号 中所 包含 的情感 ,
首先需要 根据 某些特
常重要 的信息 资源 ,
因此基于语 音 的情感分 析的研究 越来越 性 标 准 对 语 音 情 感 做 一 个 有 效 合 理 的分 类 ,
然 后 在 不 同类 别
受到人们 的重视 。而语 音情感识别是语音信息处理技术 中一 的基础上研究特征参数 的性质 。本文 主要集 中研究语音情感
到稿 日期 :
201
4—08—
12 返修 日期 :
2014—
09—1
3 本文受北京市 自然科 学基金 (
4142029),
中国人民大学科学研究基金 (中央高校基本科研业务
费专项资金 )(1
4XNLQ01)资助 。
金  ̄-
(197
2- ),
女,博士 ,
副教授 ,
CCF会员 ,
主要研究方 向为音频 信息处理 、多媒体 内容 分析与理解 、自然语 言处理 、
统 计机 器学 习,E-
mai
l:
qj
in@r
uc.edu.c
n;陈师哲 (1
994- ),
女,主要研究方向为音频信 息处理 ;
李锡荣 (
1983-),
男,博士 ,
讲师 ,
CCF会员 ,
主要研究方 向为图像检索 与
多媒体 内容分析 ;
杨 刚 (1
979-),
男,博士 ,
讲师 ,
主要研究方 向为神经 网络算法 ;
许洁 萍(1966- ),
女,博 士,副教授 ,
CCF会员 ,
主要研究方 向
为多媒体信息处理 。
・
24 ・
识别 的声 学特征表 示 ;
在提取低层 次的帧级 声学特征 的基础 度神 经元 网络 的特征 的学习需要大 量的训练数 据 ,
本 文没有
上,
通过 4种不 同的转化操 作生成 不 同的衍生 特征 。这 4种 直接 与其进行 比较 。本 文工作主要集 中在生成语音情感识别
转 化包 括 :
1)传统 的统计 函数变换 ,
包 括极值 、
均值 、
方差等 ;
的有 效 声 学 特 征 表 示 。
2
)将 帧级声学特征与情感相关 的高斯混合模 型进 行距 离计算
3 声 学特 征
而转化的特征 ;
3)通 过 数 据 驱 动方 法 得 到 的 声 学 码 字 ,
并 以 这
些码字进行转化 的特征 ;
4)通过高 斯混合模 型转 化生成 的超 本 文 首先 对 每 个 语 音 句 子 提 取 了 帧 级 的 低 层 次 声 学 特
向量特征表示 。本文也探 索 了将 不 同特征进 行融合 ,
包 括前 征,
然后 再整体地或 局部地对 这些低层 次基础特征进 行转化
Then l
oudness
as
the
nor
m al
ized
intensi
ty
述 为多维情感 空间 的点 ,
每个 维度对应 着情感空 间的一个 心 Loudness+ Del
ta
r
ais
ed t
O a power
of
0.3
理学属 性 ,
如表示情感 激烈程度 的激 活度属 性。其 因用连续 F0f
inal
+De l
ta The
smoothed
fundam ental
fr
equency
cont
our
的实数对每 一维度进行描述 ,
也被称 为连续情感描 述 ,
一般被 F0f
inEnv+ D
e l
ta
The
envel
ope
of
the smoot
hed f
undament
a1
fr
equency
cont
our
建模为标 准的预测或拟合问题 。这两种形式都具有各 自表达
The 1
oeal
( f
rame-t
o-f
rame)Ji
tter
情感 的优缺点 ,
离散情感描述简洁 、
易懂 、
容易着手 ,
但是其单 j
itter
Local+D
elta
(pi
tch
per
iod
length devi
ati
ons)
一
望、
愤怒 、
厌恶 、
悲伤 、
惊奇、
恐惧 、
赞 同)
或 4类情 感模 型 (
喜、
3.2 统 计 函数 转 化 的声 学 特 征
怒、
惊、悲 )。
对 于离散情感识 别而言 ,
其 系统的识别 准确 率是 与两个 在基 础声 学 特 征 上 应 用 了 21个 不 同 的统 计 函数 ,
将每个
要素 紧密相关 的 :
特征 表示 和分 类器 。在语 音情 感识别 研究 句子 的一 组时长 不等 的基 础声 学特 征转 化 为定长 的静 态特
领域 ,
研究人员们 已经尝试 了各种不 同的分类技术 ,
包括高斯 征。这些 统计 函数包括 最大最小 值 、
均值 、
时 长、
方 差等 。关
混合模 型(
Gau
ssi
an
Mix
tur
e Mode
l,GMM)、
隐马尔可夫模型 于这 些统计函数的具体描述可 以参考文献 [
13]。
(Hi
dden M ar
kov Model,HMM )、K-
近 邻 (K-
near
est
nei
gh—
3
.3 模 型 转 化 的声 学特 征
bor
,KNN)、人 工 神 经 网 络 (Ar
tif
ici
al
Ne
ura
l Ne
twor
ks,
这一转化的 目的也是将基于分段 的时长不等 的倒谱特征
ANN)、
支持 向量 机 (
Suppo
rt Ve
ctor
Ma
chi
ne,
SVM )等 [
]。
转化 成 一 组 新 的 定 长 的 静 态 特 征 。但 是 新 的特 征 要 保 持 情 感
其 中支持 向量机被认 为是对不 同的模 式识别问题可 以得到 比 区分 的信 息 ,
而不 只是 简单地在句子级别 上进行统计计算 (
如
其他 的传统分类技术更好 、
更泛化 的性能 的方法 。
3.2节 中统 计 函数 转 化 的声 学 特征 )。
图 1 高 斯 超 向 量 特 征 的生 成 图示
・
ACO:
在帧级 的基 础声学特 征 (
除去倒谱 Ce
pst
rum特
征)上应 用统计函数得到语句级别的特征 。
4 数 据集描 述 ・
M-
Ceps
trum:
倒谱声学特征根据情感 相关 的高斯混合
模 型 进 行 距 离 转 化 而 得 出 的特 征 。
分别在 I
EMOCAP英语情感语料库 、
CASI
A汉语情 感语 ・
BoW :
利 用 声 学 码 本 转 化 的 特 征 。ACO-
o W 是 指对
B
料库和 Be
rli
n德语情感语料库 中进 行 了实 验。下面将对 这 3
帧级基础声学特征 (
除倒 谱特 征 )
进 行码 本转 化 而得 到的特
个数据集逐一介 绍 。
征,
Ceps
tru
m-BoW 是 指 对 倒 谱 声 学 特 征 进 行 码 本 转 化 而 得
4.1
IEMOCAP英 语 情 感 数 据 集
到 的特 征 。
I
EMOCAP是 由南加 利福 利亚大 学录 制 的情感数 据 库 ,
・
GSV:
通过拼接 MAP-
自适 应得 到 的高斯 混合 模型 的
包含约 1
2小时的视听数据 ,
即视频、
音频和语音文本 、
面部表 均 值 或 协 方 差 或 权 重 而 形 成 的 高 斯 超 级 向量 。在 实 验 中 ,
生
情_
l8
]。1
0名专业演员 (
5男 5女 )
在有 台词或 即兴 的场景 下 ,
成 的 GSV特征是基于帧级 的倒谱声学特征而得到 的。
特意 引导 出情感 表达 。之 后 ,
人工将每一段对话切分成单 句 ,
・
十:
特 征 的 拼 接 操 作 。 如 :ACO+ Ceps
trum 是 指 拼 接
每一句话至少 由 3个标 注员进行类别标注(
in高兴 、
生气等),
ACO和 Ce
pst
rum 特 征 。
此 外 也 对 Va
lenc
e、Ac
tiva
tion、
Domi
nan
ce
3个 维 度 进 行 了 标 实验 中 ,
首先利 用 SVI
Vl
c ]
分类 器在 I
EMOCAP上 比较
注 。本 文 的实 验 仅 考 虑无 较 大 争议 的 分 类标 注 结 果 。为 了 平 了上述 每组特征 的效果 ,
并 尝试 了前期 特征融合 和后期分类
衡 不 同 情感 类 别 的 数 据 ,
将 高兴 (
hap
py)和 兴 奋 (
exc
iti
ng)
合 结果融合 ,
然后将较好的特征及组合推广 到 CASI
A和 EMO-
并 成高兴类别 。由高兴 、
生气 、
悲伤和 中性最终构成 了 4类情 DB不 同语 言 的数 据 集 中来 验 证 其 鲁 棒 性 和 可 迁 移 性 。
感 识别数据库 。表 2展示了每一类情感的语句个数 。
分 类 器 是 情 感 识 别 系统 中最 重 要 的部 分 之 一 。在 众 多 的
表2
IEMOCAP数 据 集 中每 个 情 感 类 别 语 句 的 数 量 分类器 中 ,
支 持 向量 机 S
VM 在 多 种 不 同 应 用 中都 被 认 为 是
最有效 的分类器之一 ,
而且 比神经 网络更易于使用 。通常 ,
径
兰 壹 斐笪 主
堡
1103 1636
1084 1708 5531
向基核 函数 (
RBF-
SVM)
是最基 础的选择 。C和 y是在 RBF-
・
26 ・
SVM 中需要调 节的两个参数 ,
C控制调 整训练 的错 误和最 大 分类准确率 。实验结果显示后期融合效果没有前期融合好 ,
很
边界 ,
y调整核 的宽 度。通常使用 网格搜 索进行交 叉验证 ,
对 有 可能是 由于投票结果值的离散性使其并不适用于后期 融合 。
C和 y进行调优 。在实 验 中,
使 用数 据挖 掘 工具 We
ka[
22
]中 表 6 两组特征后期融合的情感分类 准确率
的网格搜索算法来调 整 C和 y,
其 中 C的范 围是 2
到 2
,y
特征集 准确率
的范 围是 2
到 2
呈指数增长 。
Cepst
rum + GSV
COW 65.5
Cepst
rum-BoW + GS、 m ean 67.0
5.2 I
EMOCAP实 验 结 果
Ceps
trum-B W + GSV—
COV 67.1
表 3列出 了每一组特征在 I
EMOCAP数据集上 的分类效 Ce
pstr
um + Cepstr
um-BoW 67.0
AC0+ Cepst
rum-BoW 66.9
确率 6
7.8
,超 过 了此 前 文 献 [
15]中 报 告 的声 学 特 征 在
M-
Ceps
trum + GSV-eov 68.0%
I
EMOCAP
4类 情 感 分 类 的 准 确 率 。 码 本 转 化 (Bo
W )选 择 的 ACo+ GSV—C
OY 67.9
聚类码本大小 为 4
096,
其在倒谱 声学特 征(
Ceps
trum)中效果 ( 一
m ean G N —COV 67.5
A Co + GSV—mean 67.3
良好 ,
但是在基础声学特征 (
ACO)中的效果 却大 相径庭 。这
是 因为对于尤其 是描述语 音质量 的特征来说 ,
其包 含 了长 时 5.3
CAsI
A 实 验 结 果
信息 ,
仅仅有小部分的帧有非零值 ;
而对于频谱特征蕴含 的短 使 用在 I
EMOCAP中效果 较好 的单个 特征 集合 在 CA—
时信息 ,
则可以很好地通过码本转换体现 。
SI
A数据集上进行测试 。结果如 表 7所列 ,
其中,
对于 Ce
ps—
表 3 单组 特征在 I
EMOCAP数据集上的分类准确率 t
rum-
BoW 特征 ,
经 过交叉验 证当聚类码 本大小为 2
048时效
果 最好 ,
这是 由于 CASI
A数据集的数据量 比 I
EMoCAP数据
集小 。在 中文语 音 环 境 下 ,
Cep
str
um-
BoW 和 GSV-
mea
n仍
然保 持了很好的迁移性 。由于后期 融合效 果不 明显 ,
只进行
了前期 的两类和三类特征集融合 ,
实验结果 如表 8所列 。
表 7 单组特征在 CASI
A数据集上的情感 分类 准确率
在前期融合 中 ,
对特征集 合 中所 有特 征的两两 组合 进行
了实验 ,
即不同特征的简单拼接 。表 4展示 了 To
p-l
O的特征
组合及其分类准确率 。从 中发现 ACO 与其他每 一个单 一特
表 8 多组特征前期融合在 CASI
A数据集上 的情感分类准确率
征 的融合都对分 类性 能 有所 提高 ,因此考 虑到 AC0和 其他
特征集 准确率
短时信息特征 的互 补性 ,
把 ACO和其 他频 谱 转化得 到 的特
AC0+ Cepstr
um 84.7
征进行 3种 特征 的 融 合。如 表 5所 列 ,
ACO、
GSV-
mea
n和 AcO + Cepst
rum-BoW 85
.3%
GSV-
cov融合取得了最高 的分类准 确率 7
1.9
,远远超 出 了 AC0+ GSV—mean 85
.1%
Cepst
rum-BoW + GSv_
m ean 86
此前在 I
EMOCAP
5类情感识 别中的最好结果¨
1
。
Cepst
rmn+ Ce
pst
rm ̄ BoW 87
.2%
表4
Top1
0两组特征前期融合 的分类准确率 AOO+Ceps
trum-BoW + GSV-
mean 86.7
ACO + eepst
rum + Cepst
rmn-BoW 87
.8%
特征集 准确率
Cepst
rum-BOW + GSV-
mean 71.00%
Cepst
rum-BoW + GS、Leov 7O.90%
5
.4 EMO-
DB实 验 结 果
Cepstr
um Cepst
rum-BoW 7O.60 同样 的配 置 在 EMO-
DB数 据 集 上 的 实 验 结 果 如 表 9和
Cepst
rum + GSV—
m ean 7O.40
表l
O所列 ,
Ceps
tru
m-BoW 的聚类码本 大小 为 1
024时效果 最
Cepst
rum + GSv_
COV 7O.2O
ACI
D Cepst
rum -
BoW 70.10
好,
这 也 与 数据 集 大 小 相 关 ,EMO-
DB的 数 据集 大 小 约 为
I
V[Cepst
rum + GSV-
cov 69.7O CASIA 的一 半 。
ACo+ GSV—
COY 69.60
表 9 单组特征在 EMO-
DB数据集上 的分类准确率
GSV —
m ean+ GSV —
COW 69.4O
ACo+ GSV
m ean 69.10
表5
3组 特 征 前 期 融合 的 分类 准 确率
特征 集 准确 率
ACO + Cepstr
um-
BoW + G SV-me ̄ 71.6
AC0+ Cepst
rum -
BoW + GSV-c
ov 71.8
Ac0 + Cepst
rum + Cepst
rum-
BoW 71.4
AC()+ Cepstr
um + GSV-mean 71.2
表 1O 多组特征前期 融合在 EMO-
DB数据集上 的分类准确率
ACO+ Cepst
rum+ CSV-
coy 70.3
特征集 准确率
ACo + M -Cepst
rum+ GSV-
cov 7O.3
ACO+ Cepst
rum 87.8
Aco+ GSV—
n-e
an+ GSV-
eOV 71.9% AC0+ Cepst
rum -
BoW 88.4
ACO+GSV—mean 88.8
对于后期融 合 ,
采用 简单 的线性加 权 融合 。利用 FoCa
l Cepst
rum + GSV-
m ean 89.5
Cepst
rum + Cepst
rum -
BoW 8
9.7%
工具 在训练集 中进行权重 的取优 ,
最后将得 到的权重参数 A CO 一-Cepstr
um J_Ceps
trum-BoW 90.1
应 用 于测 试 集 。表 6列 出 了 在 决 策 层 面上 的 后 期 融 合 的 情 感 Aco+ Cep ̄rum + GSV—
IIl
I皿
- 90.3
・
27 ・
从表 中 可 以看 出,
Ceps
trum-
BoW 和 GSV-
mean对 不 同 [
9] Zha
ng
B Y,Yu
J Q,
Tang
J F,
et a1
.Mo
vie
bac
kgr
ound
mus
ic
语言的鲁棒性较高 ,
但 是受数据集大小影 响较 大 ;
数据集减小 c
las
sif
ica
tion
for
emot
ion
EJ].Comput
er Sc
ienc
e,201
3,40(12):
37—4O。74
后,
其效果甚 至不 如直 接对 每 帧特征 的统计 函数 值 。但 是 ,
[1
O]Schul
ler
B,Re
iter
S,Mue
lle
r R,et
a1
.
spe
aker
—i
nde
pende
nt
ACO特征与经过转化后 的倒谱声学特征 的互 补信息更 多 ,
融
s
pee
ch
emot
ion
reco
gni
ti
on
by
ens
embl
e cl
ass
ifi
cat
i0n[
C]∥Pr
o—
合效果显著 。
ceedi
ngs
of
IEEE Internati
onal
Conference on M ult
im edi
a and
结束语 本文在 I
EMOCAP英语情感语料 库 、
CASI
A汉
Expo(ICM E).Am sterdam ,Net
herl
ands,2005:864—867
语情 感语 料库和 Be
rli
n德语情感 语料库 等 3种 不 同语言 、
不
[1
1]Pa
o T
L,Che
n Y
T,Ye
J H,
et
a1.Ma
ndar
in
Emot
ional
Spe
ech
同大小 的数据 集上进行 了语音情感识别 实验 ,
主要工作 是抽
Rec
ogni
ti
on
bas
ed
on
SVM
and
NN[C]f
Pr
oce
edi
ngs
of
Int
er—
取 不 同 的声 学 特 征 以及 对 帧 级 别 特 征 的 多 种 转 化 ,
包 括 模 型 nati
onal
Conf
erence on Patt
er Recognit
ion (ICPR ). 2006,1:
转换 、
码本转换 、
高斯超级向量 。数据 集的规模 对于数据驱动 1096~1
100
的码 本特征和高斯超级 向量有较大影响 ,
但整体来说 ,
转化后 [1
2]Lee
H,
Lar
gma
n Y,
Pha
m P,
et
a1.Uns
upe
rvi
sed
fe
atur
e l
ear
ning
的特 征分类效果更优 ,
且与原始统计 函数 的特征具有互补性 。
for
audi
o cl
assi
ficati
on usi
ng convol
uti
onal
deep bel
ief
networks
在 每个数 据集 中通过 特征 融合 ,
都 大大 提高 了识 别准 确率 。
[c]∥ Pr
ocee
dings
of
Adva
nce
s i
n Ne
ura
l I
nfor
mat
ion Pr
oces
-
在 I
EMOCAP 数据 集上 ,
系 统 的 识 别 准 确 率 达 到 了 71
.9 ,
si
ng Syst
ems(NI
PS).2009:1-9
f
rom
the
Fi
rst
Chal
lenge[J].Spee
ch Communi
cat
ion,2
011,53
[1
] Li
tman
D,For
bes
K.Rec
ogni
zi
ng
emot
ions
fr
om s
tude
nt
spee
ch
(10):1062—1087
i
n t
utor
ing di
alogue
s Ec]f
Pr
ocee
ding of
IEEE Wor
kshop on
[15]Roz
gic
V,Ana
ntha
kri
shnan
S,Sa
leem
S,et
a1
.Emot
ion
Re
cogni
—
Aut
om ati
c Speech Recogni
tion and U nderstandi
ng(ASRU ).
t
ion
usi
ng
Acous
tic
and
Lexi
cal
Fea
tur
es[c]∥ Pr
ocee
dings
of
2003:25—3O
INTERSPEECH 2012.September
Portl
and,2012
[2] Fr
anc
e D
J,Shi
avi
R
G,Si
lve
rma
n S,
et
aI.Aco
ust
ical
pr
ope
rti
es
[16]Le
e K,El
li
s D
P W.Audi
o-Bas
ed
Semant
ic
o nce
C pt
Cla
ssi
fi
ca—
o
f s
peec
h as
indi
cat
ors
of
depr
ess
ion
and
sui
ci
dal
ri
sk口].I
EEE
t
ion f
or Co
nsumer
Vi
deo[J].I
EEE Tr
ans
.Audi
o,Spee
ch,a
nd
Trans.on Bi
om edi
cal
Engi
neeri
ng,2000,47(7):829—837 Language Processi
ng,2010,18(6):1406—1416
[
3] Yang
N,Mur
alee
dha
ran
R,Koh1
J,
et a1
.Spe
ech-
bas
ed e
mot
ion
[17]Ca
mpbel
l
W
M,St
uri
m D
E,Rey
nol
ds D
A.Suppor
t vec
tor
ma—
cl
assi
ficat
ion usi
ng m ul
ticl
ass SVM wi
th hybri
d kernel
and
c
hine
s us
ing GMM s
uper
vec
tor
s f
or s
peaker
ver
if
ica
tion[J]
.
t
hre
shol
ding
fus
ion[C]∥Pr
oce
edi
ngs
of
the
4 I
EEE
wor
kshop IEEE Si
gnal
Processi
ng Letters,2006:308—3
11
on Spoken Language Techn0l
0gy(SLT),2012.M i
ami,Fl
ori
da,
r1
8] Buss
o C,
Bul
ut M ,Le
e C C,e
t a1
.IEM0CAP:I
nter
act
ive
emo—
2012:455—460
t
ional
dya
dic
mot
ion
capt
ure
dat
abas
e[J].Jour
nal
of
Langua
ge
[
4] Sc
hul
ler
B,
Rigol
l
G,Lang^,
L
Spe
ech e
mot
ion
rec
ogni
ti
on c
om—
Res
ources
and Eval
uati
on,2OO8。42(4):335—359
bi
ning acousti
c feat
ures
and l
ingui
sti
c i
nform ati
on i
n a hybri
d [1
9]Da
ta
col
lect
ed
by t
he
spee
ch
group
at
Nat
iona
l Ke
y La
bor
ator
y
s
uppor
t ve
ctor
mac
hine
-bel
ie
f ne
twor
k a
rchi
tect
ure[c]∥Pr
o of
Pat
ter
n Rec
ogni
ti
on[0L_.ht
tp:
//、
^ .da
tat
ang.c
om/da
ta/
ceedi
ngs of
the ICASSP.2004,1:577—580 39277
[5] Aya
di
M,Ka
mel
M,
Kar
ray
F.Sur
vey
on
spe
ech
emot
ion
reco
g— r2
O]Bur
khar
dt
F,Paes
chke
A,
Rol
fes
M,
et
a1.A
dat
aba
se
of
Ger
man
ni
ti
on:Fe
atur
es,
clas
sif
icat
ion
sche
mes,and
dat
aba
ses[J]
.Pat
— emot
ional
spe
ech[C]∥ Pr
oce
edi
ngs
of
INTERSPEECH 2005.
tern Recogni
tion,2011。44(3):572—587 Li
sbon,2005:1517—1520
[6] Zeng
z,Pant
ic
M,Ros
iman
G I,
et
a1.A
sur
vey
of
af
fec
t r
ecogni
[21]Hsu
C
W,Cha
ng
C C,
Lin
C J.A
pra
cti
cal
gui
de
to s
uppor
t vec
t
ion
met
hods:Audi
o,vi
sua1
,and
spont
ane
ous
expr
ess
ions[J]
. t
or
clas
sif
ica
tion[OL].2010.ht
tpt
|{ .cs
ie.nt
u.e
du.t
w/
I
EEE Trans.on Pattern Anal
ysi
s and M achi
ne Int
ell
igence,
c
jhn/paper
s/gui
de/gui
de.pdf
2009,31(1):39—58 [22]Wi
tte
n I
H,
Frank
E,Tr
igg
I E,e
t a1
.we
ka:
Prac
tic
al
mac
hine
[7] Koc
kma
nn
M,Bur
get
L,Ce
moc
ky
J.Ap
pli
cat
ion
of s
pea
ker
and
l
ear
ning
tool
s and
te
chni
ques
wi
th
Java
impl
eme
nta
tions[OL].
l
anguage i
ndependent stat
e-of
-the-ar
t techni
ques f
or emoti
on ht
tp1f{
w.c
s.wa
ika
to.ac
.n ̄/- ei
be/pubs
/99I
HW-
EF-
LT
r
ecogni
ti
on[J
].Spe
ech
Communi
cat
ion,
2011,
53(
9):
1172
—11
85 MH—
GH—
SJC-
Tool
s-J
ava
.pdf
[8] Chen
L,Mao
X,Xue
Y_
L,e
t a1
.Spee
ch
Emot
ion Rec
ogni
ti
on:
r23] Br
ummer
N.Fo
Cal
—II:Tool
kit
fo
r c
ali
brat
ion
of
mul
tic
las
s r
eco-
Fe
atur
es
and Cl
ass
ifi
cat
ion Model
s[J]
.Di
git
al Si
gnal
Pr
oces
— gni
ti
on
scor
es[OL].ht
tps:
//s
ites
.goo
gle
.com/s
ite
/ni
kobr
um—
si
ng,2012,22(6):1154—1160 mer
/foc
al
・
28 ・