《跨庫語音情感識別技術研究》主要從兩大方面對跨數(shù)據(jù)庫的語音情感識別技術進行了研究:(1)從識別模型本身的角度出發(fā),提出和改進一些方法來適應多數(shù)據(jù)庫來源引起的樣本空間失衡問題,進而提高SER系統(tǒng)的魯棒性;(2)從特征的角度考慮,尋找新的特征類型來補充原有的特征空間,并將現(xiàn)有的特征進行優(yōu)選和融合,提升它們在跨數(shù)據(jù)庫任務中的有效性。
第1章 緒論
1.1 研究背景與意義
1.1.1 語音情感的聲學意義
1.1.2 情感計算
1.1.3 實際應用
1.1.4 語音情感識別的研究現(xiàn)狀
1.2 跨數(shù)據(jù)庫語音情感識別技術
1.2.1 發(fā)展歷史
1.2.2 研究現(xiàn)狀和存在的問題
1.3 研究的主要工作
1.4 章節(jié)安排
第2章 數(shù)據(jù)庫和特征分析
2.1 語音情感數(shù)據(jù)庫
2.1.1 國外語料庫
2.1.2 國內(nèi)語料庫
2.1.3 本書使用的數(shù)據(jù)庫情況
2.1.4 跨庫情感類別劃分規(guī)則的制訂
2.2 特征分析
2.2.1 聲學特征
2.2.2 底層聲學描述符
2.2.3 語譜圖特征
2.3 性能評價標準討論
第3章 基于無限t分布的混合魯棒模型
3.1 引言
3.2 基于統(tǒng)計模型的特征選擇方案
3.3 iSMM特征優(yōu)選模型
3.3.1 學生t分布特征選擇
3.3.2 特征概率分布建模
3.3.3 判決函數(shù)評估
3.3.4 高維特征空間分析
3.4 實驗結果
3.4.1 實驗設置
3.4.2 表演型語料庫實驗
3.4.3 自發(fā)型語料庫實驗
3.4.4 多數(shù)據(jù)庫綜合實驗分析
3.5 本章小結
第4章 改進的LDA核K近鄰分類方法
4.1 引言
4.2 結合LDA的核K近鄰分類方法
4.2.1 基于核學習的KNN算法
4.2.2 恃征線重心法的改進
4.2.3 線性判別分析的改進
4.3 實驗結果分析
4.3.1 幾種KNN分類器對比實驗
4.3.2 兩種降維方案的情感識別實驗
4.3.3 與常用分類方法對比實驗
4.3.4 分類方案參數(shù)實驗分析
4.4 本章小結
第5章 改進的聽覺注意模型語譜圖特征提取
5.1 引言
5.2 基于聽覺注意的語譜圖情感特征提取
5.2.1 語譜圖特征的語音情感識別
5.2.2 基于時頻原子的改進
5.2.3 聽覺注意圖譜特征提取
5.3 仿真實驗
5.3.1 跨庫實驗設置
5.3.2 實驗結果和分析
5.4 本章小結
第6章 基于深度信念網(wǎng)絡的特征融合
6.1 引言
6.2 選擇注意機制的語譜圖特征提取
6.2.1 提取語譜圖
6.2.2 高斯金字塔分解
6.2.3 獲取特征圖并重構特征矩陣
6.3 深度信念網(wǎng)絡模型
6.3.1 受限玻爾茲曼機
6.3.2 基于對比散度的快速學習算法
6.3.3 DBN21與DBN22模型
6.4 跨庫實驗結果與分析
6.4.1 實驗準備
6.4.2 語譜圖特征跨庫實驗
6.4.3 傳統(tǒng)聲學特征跨庫實驗
6.4.4 融合特征跨庫實驗
6.5 本章小結
第7章 跨語言的多說話人特征自適應
7.1 引言
7.2 特征分析
7.2.1 增強
7.2.2 自適應規(guī)整化語譜圖特征
7.3 特征自適應方法
7.3.1 說話人加性方差模型
7.3.2 基于GMM的加性模型
7.3.3 學生t分布對差異特征空間的建模
7.4 .情感分類器模型
7.4.1 核K近鄰情感分類器
7.4.2 SVM情感分類器
7.5 跨語言語音情感識別實驗
7.5.1 數(shù)據(jù)庫設置
7.5.2 說話人自適應實驗
7.5.3 在線特征自適應實驗
7.5.4 譜特征對比實驗
7.6 本章小結
第8章 總結與展望
8.1 工作總結
8.2 后續(xù)工作與展望
參考文獻