語音情感識別(Speech Emotion Recognition,SER)是情感計(jì)算、模式識別、信號處理和人機(jī)交互領(lǐng)域的熱門研究話題,SER的研究涉及特征提取、特征優(yōu)選、分類器改進(jìn)、特征融合等多種技術(shù)。語音情感識別是在同一數(shù)據(jù)庫中進(jìn)行的識別研究,主要應(yīng)用于自然的人機(jī)交互領(lǐng)域,目前大部分的人機(jī)交互方式都依賴于觸覺,如觸屏、體感等,而語音情感計(jì)算可以幫助電子設(shè)備在人機(jī)交互中使用圖像和語音作為輸入,讓用戶與設(shè)備進(jìn)行自然、直接的交流,就像人與人的交流一樣?鐜煺Z音情感識別則是在跨語料庫的條件下進(jìn)行的識別實(shí)驗(yàn),在實(shí)際生活中的應(yīng)用環(huán)境很廣,如車載環(huán)境中使用的語音交互產(chǎn)品,以及通過視頻音頻刺激來進(jìn)行情感狀態(tài)評估的設(shè)備等。本書將全局隱空間加入情感模型,結(jié)合K近鄰、核學(xué)習(xí)方法、特征線重心法和LDA算法,提出了用于情感識別的FFLDA+kemel-KNNFLC方法。針對跨庫條件下情感特征類別的改進(jìn)(擴(kuò)充)研究,提出了基于聽覺注意模型的語譜圖特征提FF取方法,模型模擬人耳聽覺特性,能有效探測語譜圖上變化的情感特征。同時(shí),利用時(shí)頻原子對模型進(jìn)行改進(jìn),取得頻率特性信號匹配的優(yōu)勢,從時(shí)域上提取情感信息。
第1章 緒論
1.1 研究背景與意義
1.1.1 語音情感的聲學(xué)意義
1.1.2 情感計(jì)算
1.1.3 實(shí)際應(yīng)用
1.1.4 語音情感識別的研究現(xiàn)狀
1.2 跨數(shù)據(jù)庫語音情感識別技術(shù)
1.2.1 發(fā)展歷史
1.2.2 研究現(xiàn)狀和存在的問題
1.3 研究的主要工作
1.4 章節(jié)安排
第2章 數(shù)據(jù)庫和特征分析
2.1 語音情感數(shù)據(jù)庫
2.1.1 國外語料庫
2.1.2 國內(nèi)語料庫
2.1.3 本書使用的數(shù)據(jù)庫情況
2.1.4 跨庫情感類別劃分規(guī)則的制訂
2.2 特征分析
2.2.1 聲學(xué)特征
2.2.2 底層聲學(xué)描述符
2.2.3 語譜圖特征
2.3 性能評價(jià)標(biāo)準(zhǔn)討論
第3章 基于無限t分布的混合魯棒模型
3.1 引言
3.2 基于統(tǒng)計(jì)模型的特征選擇方案
3.3 iSMM特征優(yōu)選模型
3.3.1 學(xué)生t分布特征選擇
3.3.2 特征概率分布建模
3.3.3 判決函數(shù)評估
3.3.4 高維特征空間分析
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 表演型語料庫實(shí)驗(yàn)
3.4.3 自發(fā)型語料庫實(shí)驗(yàn)
3.4.4 多數(shù)據(jù)庫綜合實(shí)驗(yàn)分析
3.5 本章小結(jié)
第4章 改進(jìn)的LDA核K近鄰分類方法
4.1 引言
4.2 結(jié)合LDA的核K近鄰分類方法
4.2.1 基于核學(xué)習(xí)的KNN算法
4.2.2 恃征線重心法的改進(jìn)
4.2.3 線性判別分析的改進(jìn)
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 幾種KNN分類器對比實(shí)驗(yàn)
4.3.2 兩種降維方案的情感識別實(shí)驗(yàn)
4.3.3 與常用分類方法對比實(shí)驗(yàn)
4.3.4 分類方案參數(shù)實(shí)驗(yàn)分析
4.4 本章小結(jié)
第5章 改進(jìn)的聽覺注意模型語譜圖特征提取
5.1 引言
5.2 基于聽覺注意的語譜圖情感特征提取
5.2.1 語譜圖特征的語音情感識別
5.2.2 基于時(shí)頻原子的改進(jìn)
5.2.3 聽覺注意圖譜特征提取
5.3 仿真實(shí)驗(yàn)
5.3.1 跨庫實(shí)驗(yàn)設(shè)置
5.3.2 實(shí)驗(yàn)結(jié)果和分析
5.4 本章小結(jié)
第6章 基于深度信念網(wǎng)絡(luò)的特征融合
6.1 引言
6.2 選擇注意機(jī)制的語譜圖特征提取
6.2.1 提取語譜圖
6.2.2 高斯金字塔分解
6.2.3 獲取特征圖并重構(gòu)特征矩陣
6.3 深度信念網(wǎng)絡(luò)模型
6.3.1 受限玻爾茲曼機(jī)
6.3.2 基于對比散度的快速學(xué)習(xí)算法
6.3.3 DBN21與DBN22模型
6.4 跨庫實(shí)驗(yàn)結(jié)果與分析
6.4.1 實(shí)驗(yàn)準(zhǔn)備
6.4.2 語譜圖特征跨庫實(shí)驗(yàn)
6.4.3 傳統(tǒng)聲學(xué)特征跨庫實(shí)驗(yàn)
6.4.4 融合特征跨庫實(shí)驗(yàn)
6.5 本章小結(jié)
第7章 跨語言的多說話人特征自適應(yīng)
7.1 引言
7.2 特征分析
7.2.1 增強(qiáng)
7.2.2 自適應(yīng)規(guī)整化語譜圖特征
7.3 特征自適應(yīng)方法
7.3.1 說話人加性方差模型
7.3.2 基于GMM的加性模型
7.3.3 學(xué)生t分布對差異特征空間的建模
7.4 .情感分類器模型
7.4.1 核K近鄰情感分類器
7.4.2 SVM情感分類器
7.5 跨語言語音情感識別實(shí)驗(yàn)
7.5.1 數(shù)據(jù)庫設(shè)置
7.5.2 說話人自適應(yīng)實(shí)驗(yàn)
7.5.3 在線特征自適應(yīng)實(shí)驗(yàn)
7.5.4 譜特征對比實(shí)驗(yàn)
7.6 本章小結(jié)
第8章 總結(jié)與展望
8.1 工作總結(jié)
8.2 后續(xù)工作與展望
參考文獻(xiàn)