Professional Documents
Culture Documents
関西合同音声ゼミ
関西合同音声ゼミ
立命館大学大学院情報理工学研究科 音声言語研究室(山下研究室)
永瀬 亮太郎
…音声から感情を認識する技術
• ヒューマンコンピュータインタラクション
(HCI)の分野で注目されている
• 幅広い産業分野への応用が期待される 感情
[暮らし] [ビジネス] 認識
- スマートスピーカや - コールセンターの
自動車などで利用 自動化
されるエージェント [医療・福祉]
開発 - メンタルヘルス分析
医療・福祉
2020/12/12 Spoken Language Laboratory 2
背景
【現状】 視覚情報
ex) 顔画像、
聴覚情報
ex) ⾳声、⾳
• 深層学習の進展と音声感情認識の性能向上 体の動き(モーション)
- 音声合成、音声認識と同様に性能向上
【課題】
• 音声感情認識の認識率向上
- より実用的にするためには、更なる認識率 ⽣体情報 ⾔語情報
ex) 脳波など ex) 単語、⽂、⽂章
の向上が必要
• 音声と別の情報を統合的に処理する技術
- より人間らしい感情認識をするためには、
他の情報を上手く扱う技術が必要
本研究では、
音声特徴と言語特徴を協調的
に用いて感情認識の性能向上を図る
【本研究のポイント】
① テキスト情報を考慮した点
② 事前学習済みモデルを使用した点
③ label-smoothing を使用した点
2020/12/12 Spoken Language Laboratory 4
提案手法
• 本研究で提案する手法は主に2つ
1. 音声・テキスト特徴の協調利用による感情認識
- 音声特徴とテキスト特徴を協調的に利用することで認識率の向上を目指す
2. 感情対を考慮した label-smoothing
- 人がよく誤認識しやすい感情対を考慮することで認識率の向上を目指す
1. 音声・テキスト特徴の協調利用による感情認識
- 音声特徴とテキスト特徴を協調的に利用することで認識率の向上を目指す
• 本提案手法には大きく2つの段階がある
… 音声の感情認識とテキストの感情認識 … 音声とテキストの感情認識モデルを
をそれぞれ学習する 協調的に利用するマルチモーダルな感情
① 音声の感情認識 認識を学習する
• CNN + BLSTM
音声の感情認識
• CNN + BLSTM + Attention
• CNN + Transformer-Encoder マルチモーダル
な感情認識
② テキストの感情認識
• BERT テキストの感情認識
• 本提案手法には大きく2つの段階がある
Phase 1:事前学習段階
… 音声の感情認識とテキストの感情認識
をそれぞれ学習する
① 音声の感情認識
• CNN + BLSTM
• CNN + BLSTM + Attention
• CNN + Transformer-Encoder
② テキストの感情認識
• BERT
Posi!onal Encorder
Max pooling2d
Max pooling2d
Max pooling2d
Max pooling2d
Normaliza!on
Normaliza!on
Self-A"en!on
FeedForward
Self-A#en"on
Mul!-head
Mul"-head
So!max
Conv2d
Conv2d
Sofmax
Conv2d
Conv2d
Linear
BLSTM
Linear
Linear
Linear
Layer
Layer
図1-1: CNN+BLSTM+Attention 図1-2: CNN+Transformer-Encoder
• 音声の入力方法として入力音声を分割
する方法を取り入れる
- 利点:入力が増える/細かく学習できる
• 本研究で行った入力方法は次の2種類
(ただし、入力データ幅を 𝑙!"#$% とする)
図2-1:⼊⼒⽅法①
図3:BERTの概要図[1]
2020/12/12 Spoken Language Laboratory 11
提案手法 音声・テキスト特徴の協調利用による感情認識
• 本提案手法には大きく2つの段階がある
Phase 2: fusion学習段階
… 音声とテキストの感情認識モデルを
協調的に利用するマルチモーダルな感情
認識を学習する
音声の感情認識
マルチモーダル
な感情認識
テキストの感情認識
Phase 2: fusion学習段階
• 協調利用の手法には early-fusion と
late-fusion を利用 Text data
Classifier
(Text)
- early-fusion: 2つ以上の特徴量を結合する手法 In: 256+256 In: 512
Out: 512 Out: 256
In: 256
Out: 4
- late-fusion: 2つ以上の予測結果を結合する手法
Full Connected
Full Connected
Full Connected
early fusion
【late-fusion の式】
late fusion
In: 768
Out: 256
In:
Full Connected
256/128
Out: 256
2. 感情対を考慮した label-smoothing
- 人がよく誤認識しやすい感情対を考慮することで認識率の向上を目指す
• 感情認識の性能向上を図るために有効な⼿段としての label-smoothing
- 感情は曖昧で複雑であるため、hard-label よりも soft-label が⾃然
• 学習の補助として、感情対を考慮したlabel-smoothingを提案
- 「喜び」と「平静」、「怒り」と「悲しみ」の感情対を考慮する
【提案する label-smoothing 】
0''
𝑞+ 𝑘, , 𝑘- 𝑦 = 1 − 𝜖- 𝛿.& / + 𝜖- 1 − 𝜖- 𝛿.' / + (3)
1
【従来の label-smoothing 】
1 1
3%
𝑞/ 𝑘0 𝑦 =
0.925
1 − 𝜖% 𝛿1$ 2 + 4 (2)
𝑦: 正解ラベルのインデックス,𝑘/ : 正解の感情カテゴリのインデックス, 0 ang joy sad neu
0.025
0 ang joy sad neu
𝐾: カテゴリ数,𝜖, : 注目する項目についてのハイパーパラメータ,
𝛿: Diracのデルタ関数 図5-1:式(2)のlabel-smoothingの例
(正解がangのとき、 𝜖! = 0.1)
【提案する label-smoothing 】
0''
1 1
+
𝑞 𝑘, , 𝑘- 𝑦 = 1 − 𝜖- 𝛿.& / + 𝜖- 1 − 𝜖- 𝛿.' / + (3) 0.810
1
0.170
𝑦: 正解ラベルのインデックス,𝑘, , 𝑘- :正解の感情カテゴリとそれに 0.010
0
対応するカテゴリのインデックス,𝐾: カテゴリ数,𝜖- : 注目する項目に 0 ang joy sad neu ang joy sad neu
(3) 音声特徴とテキスト特徴を考慮
(1) 音声の感情認識 (2) テキストの感情認識
した感情認識
一定幅分割または部分重複分割
入力方法 文ごと 一定幅分割/文ごと
(スライド幅:100)
label-smoothing label-smoothing1 (𝜖! = 0.1) または label-smoothing2 (𝜖" = 0.1~1.0) label-smoothing1 (𝜖! = 0.1)
入力特徴量 メルケプストラム(36次元) テキスト メルケプストラム/テキスト
データ量 20,000 1,736 20,000/200
損失関数 Categorical Cross Entropy
最適化手法 Adam (学習率:0.0001)
エポック数 100 300 50
バッチサイズ 8/16 8 32
2020/12/12 Spoken Language Laboratory 18
実験条件(ハイパーパラメータ等)
表2:各実験の条件(ハイパーパラメータ等)
(3) 音声特徴とテキスト特徴を考慮
(1) 音声の感情認識 (2) テキストの感情認識
した感情認識
一定幅分割または部分重複分割
入力方法 文ごと 一定幅分割/文ごと
(スライド幅:100)
label-smoothing label-smoothing1 (𝜖! = 0.1) または label-smoothing2 (𝜖" = 0.1~1.0) label-smoothing1 (𝜖! = 0.1)
入力特徴量 メルケプストラム(36次元) テキスト メルケプストラム/テキスト
データ量 20,000 1,736 20,000/200
損失関数 Categorical Cross Entropy
最適化手法 Adam (学習率:0.0001)
エポック数 100 300 50
バッチサイズ 8/16 8 32
2020/12/12 Spoken Language Laboratory 19
実験結果 音声の感情認識
【① CNN+BLSTM を用いたとき】
• 部分重複分割のときの方が全体的に認識率が高い
• 提案したlabel-smoothingの効果は得られなかった
表3-1:実験結果(音声の感情認識)
(3) 音声特徴とテキスト特徴を考慮
(1) 音声の感情認識 (2) テキストの感情認識
した感情認識
一定幅分割または部分重複分割
入力方法 文ごと 一定幅分割/文ごと
(スライド幅:100)
label-smoothing label-smoothing1 (𝜖! = 0.1) または label-smoothing2 (𝜖" = 0.1~1.0) label-smoothing1 (𝜖! = 0.1)
入力特徴量 メルケプストラム(36次元) テキスト メルケプストラム/テキスト
データ量 20,000 1,736 20,000/200
損失関数 Categorical Cross Entropy
最適化手法 Adam (学習率:0.0001)
エポック数 100 300 50
バッチサイズ 8/16 8 32
2020/12/12 Spoken Language Laboratory 23
実験結果 テキストの感情認識
【④ BERT を用いたとき】
• 提案したlabel-smoothingを適応した時が最も認識率が高い
- テキストには適している可能性がある
表4:実験結果(テキストの感情認識)
40%
0.4225
0.36 30%
0.3325 0.32
0.16
0.1225
(3) 音声特徴とテキスト特徴を考慮
(1) 音声の感情認識 (2) テキストの感情認識
した感情認識
一定幅分割または部分重複分割
入力方法 文ごと 一定幅分割/文ごと
(スライド幅:100)
label-smoothing label-smoothing1 (𝜖! = 0.1) または label-smoothing2 (𝜖" = 0.1~1.0) label-smoothing1 (𝜖! = 0.1)
入力特徴量 メルケプストラム(36次元) テキスト メルケプストラム/テキスト
データ量 20,000 1,736 20,000/200
損失関数 Categorical Cross Entropy
最適化手法 Adam (学習率:0.0001)
エポック数 100 300 50
バッチサイズ 8/16 8 32
2020/12/12 Spoken Language Laboratory 26
実験結果 音声特徴とテキスト特徴を考慮した感情認識
• 単体の感情認識の認識率よりも高い認識結果が得られた
- ただし、話者オープン発話文クローズドな評価
- ほとんど学習しなかった(early-fusionのみも同様)
表5:実験結果(音声特徴とテキスト特徴を考慮した感情認識)