You are on page 1of 24

瑞昱報告

大綱
• 動機
• 背景
– LibROSA
– OpenSMILE
– INTERSPEECH 2009 情感挑戰功能集
• 情緒特徵參數測試
– Selected Prosodic Features
– Data Augmentation
• 實驗
– 情緒詳情數據
– 實驗設定
– 實驗結果比較
• 結論
• 下一步
動機
• 整合頻譜+韻律特徵
– 頻譜特徵
• MFCCs, Fbanks
– 韻律相關特徵
• 音高 (Pitch) 和能量 (Energy)
• 有些文獻 則採用共振峰 (Formant)
• ………
– 情緒特徵統計值,包括平均值、標準差、最大值、 最小值、梯度等
情緒參數擷取工具
• LibROSA
– MFCC
– CHROMA_cqt
– CHROMA_stft
– Mel Spectrogram
– Root-mean-Square
• OpenSMILE
– Low-Level Descriptors (LLDs)
– Functionals (statistical, polynomial regression, and
transformations)
– INTERSPEECH 2009 Emotion Challenge Feature Set
LibROSA
OpenSMILE
OpenSMILE
Low-level Prosody Features
• 基頻( F0 ),發聲概率和響度
– 文件 prosodyAcf.conf 使用“ cPitchACF” 組件來提取基頻,基於自相關
和倒譜的方法。
– 文件 prosodyShs.conf 使用“ cPitchShs” 組件,基於次諧波採樣算法
( SHS )。

這兩種配置都將 CSV 格式設置為輸出格式。示例命令行如下:


Low-level Prosody Features
韻律參數的配置文件
Low-level Prosody Features

被批量生成韻律特徵參數的情緒數據
Low-level Prosody Features

生成的韻律特徵參數
INTERSPEECH 2009 Emotion Challenge Feature
Set
• 在 OpenSMILE 在 openEAR 的項目 EWS09 情感識別中被使用

• 由配置文件 config/emo IS09.conf 提供。


– 它包含對 LLDs 應用統計函數得到的 384 個特徵出現在 Arff 文件中 16 個低階特徵
( LLDs )
INTERSPEECH 2009 Emotion Challenge feature
Set
INTERSPEECH 2009 Emotion Challenge Feature
Set
IS09_emotion 參數的配置文

情緒特徵參數測試

• Selected Prosodic Features


• MFCC • ProsodyAcf
• CHROMA_cqt • ProsodyShs
• CHROMA_stft • Is09 emotion set
• Mel Spectrogram
• Root-mean-Square
特徵參數堆疊 將特徵參數取平均值
對各列求均值

將數據沿著水平方向堆疊起來

疊加完的參數 這一次要堆疊的參數
特徵參數輸出成 csv 檔

各個情緒所對應的特徵參數
情緒辨認實驗
• 2D CNN MFCC
• 1D CNN LIBORSA 參數
• 1D CNN LIBORSA+OpenSMILE prosody 參數
• 1D CNN LIBORSA+OpenSMILE prosody 參數
+Is09 emotion set
情緒實驗語料
emotion angry sad disgust neutral happy fear surprise
SAVEE 60 60 60 120 60 60 60
TESS 400 400 400 400 400 400 400
RAVDESS 192 192 192 288 192 192 192
CREMA-D 1271 1271 1271 1087 1271 1271 1271
EMODB 80 80 80 80 80 80 80
eNTERFA 211 211 211 211 206 211 211
CE05

JL corpus 240 0 240 240 239 0 0


ShEMO 1059 449 0 1028 201 38 225
AESDD 0 123 122 121 119 0 0
TOTAL 3825 2703 2446 3235 2672 2572 2269
實驗設定
• 訓練與測試分群

angry(3825)+sad(2703)+disgust(2446)+neutral(3235)+happy(2676)
fear(2572)+surprise(2269)
Total=19730
Train:Test:Valid=8:1:1

Total Train Test Valid


19730 15784 1793 1793
Model:1D CNN
2D CNN MFCC 正確率 69.04% 1D CNN LIBORSA 參數堆疊 正確率 :60.74%

1D CNN LIBORSA+OpenSMILE prosody 1D CNN LIBORSA+OpenSMILE


參數堆疊 正確率 :65.00% prosody+Is09 emotion 參數堆疊
正確率 :71.34%
結論
• 只疊加特徵參數平均值,效果沒有 MFCC+2D CNN 好
– 用 1D CNN 訓練

• 新增 Is09 emotion set ,超越了 MFCC+2D CNN 的辨認率


– 1D CNN LIBORSA+OpenSMILE prosody+Is09 emotion 參數堆疊
– 正確率 :71.34%
下一步
1. 加入下列兩個有關情緒的 openSMILE 配置文件

2. 擴增目前的情緒語料庫

You might also like