Professional Documents
Culture Documents
情緒偵測報告- v4
情緒偵測報告- v4
大綱
• 動機
• 背景
– LibROSA
– OpenSMILE
– INTERSPEECH 2009 情感挑戰功能集
• 情緒特徵參數測試
– Selected Prosodic Features
– Data Augmentation
• 實驗
– 情緒詳情數據
– 實驗設定
– 實驗結果比較
• 結論
• 下一步
動機
• 整合頻譜+韻律特徵
– 頻譜特徵
• MFCCs, Fbanks
– 韻律相關特徵
• 音高 (Pitch) 和能量 (Energy)
• 有些文獻 則採用共振峰 (Formant)
• ………
– 情緒特徵統計值,包括平均值、標準差、最大值、 最小值、梯度等
情緒參數擷取工具
• LibROSA
– MFCC
– CHROMA_cqt
– CHROMA_stft
– Mel Spectrogram
– Root-mean-Square
• OpenSMILE
– Low-Level Descriptors (LLDs)
– Functionals (statistical, polynomial regression, and
transformations)
– INTERSPEECH 2009 Emotion Challenge Feature Set
LibROSA
OpenSMILE
OpenSMILE
Low-level Prosody Features
• 基頻( F0 ),發聲概率和響度
– 文件 prosodyAcf.conf 使用“ cPitchACF” 組件來提取基頻,基於自相關
和倒譜的方法。
– 文件 prosodyShs.conf 使用“ cPitchShs” 組件,基於次諧波採樣算法
( SHS )。
被批量生成韻律特徵參數的情緒數據
Low-level Prosody Features
生成的韻律特徵參數
INTERSPEECH 2009 Emotion Challenge Feature
Set
• 在 OpenSMILE 在 openEAR 的項目 EWS09 情感識別中被使用
將數據沿著水平方向堆疊起來
疊加完的參數 這一次要堆疊的參數
特徵參數輸出成 csv 檔
各個情緒所對應的特徵參數
情緒辨認實驗
• 2D CNN MFCC
• 1D CNN LIBORSA 參數
• 1D CNN LIBORSA+OpenSMILE prosody 參數
• 1D CNN LIBORSA+OpenSMILE prosody 參數
+Is09 emotion set
情緒實驗語料
emotion angry sad disgust neutral happy fear surprise
SAVEE 60 60 60 120 60 60 60
TESS 400 400 400 400 400 400 400
RAVDESS 192 192 192 288 192 192 192
CREMA-D 1271 1271 1271 1087 1271 1271 1271
EMODB 80 80 80 80 80 80 80
eNTERFA 211 211 211 211 206 211 211
CE05
angry(3825)+sad(2703)+disgust(2446)+neutral(3235)+happy(2676)
fear(2572)+surprise(2269)
Total=19730
Train:Test:Valid=8:1:1
2. 擴增目前的情緒語料庫