本書是根據(jù)作者在音頻降噪領(lǐng)域的研究成果而著,全書共分為10章,主要內(nèi)容包括緒論、基于高斯混合模型的非監(jiān)督在線建模噪聲功率譜估計、結(jié)合優(yōu)化U-Net和殘差網(wǎng)絡(luò)的單通道語音增強算法、基于差分麥克風(fēng)陣列的變步長LMS語音增強算法、語音頻帶擴展研究綜述、基于時間卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展、基于編解碼器網(wǎng)絡(luò)的語音頻帶擴展、基于時頻感知神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展、IMCRA-OMLSA噪聲動態(tài)估計下的心音降噪、結(jié)合SVM和香農(nóng)能量的HSMM心音分割方法。
許春冬,男,博士,副教授,碩士生導(dǎo)師,江西理工大學(xué)人工智能系主任,江西省第四屆電子信息類教學(xué)指導(dǎo)委員會委員。主持和參與國家級項目5項,主持省部級課題11項,授權(quán)發(fā)明專利和軟件著作權(quán)各1件,公開發(fā)表核心以上學(xué)術(shù)論文30余篇。獲得省部級科研二等獎勵1項,地廳級科研獎勵3項,主持獲得學(xué)校教學(xué)成果獎2項。
第1章 緒論 1
1.1 引言 1
1.2 語音增強基礎(chǔ) 2
1.2.1 模型描述 2
1.2.2 噪聲類型 2
1.2.3 語音質(zhì)量評價方法 3
1.3 傳統(tǒng)單通道語音增強技術(shù)發(fā)展 4
1.4 監(jiān)督性單通道語音增強技術(shù)發(fā)展 5
1.4.1 基于淺層模型的語音增強算法 6
1.4.2 基于深層模型的語音增強算法 6
1.5 本章小結(jié) 11
參考文獻 12
第2章 基于高斯混合模型的非監(jiān)督在線建模噪聲功率譜估計 18
2.1 引言 18
2.2 基于GMM的在線建模方法 18
2.3 基于極大似然的在線參數(shù)估計 19
2.4 基于MDL準則的在線約束 21
2.5 聚類方法實現(xiàn) 22
2.6 實驗設(shè)置與分析 23
2.6.1 實驗設(shè)置 23
2.6.2 實驗結(jié)果與分析 24
2.7 本章小結(jié) 26
參考文獻 27
第3章 結(jié)合優(yōu)化U-Net和殘差網(wǎng)絡(luò)的單通道語音增強算法 30
3.1 引言 30
3.2 Residual-U-Net語音增強方法 31
3.2.1 自編碼器結(jié)構(gòu) 31
3.2.2 U-Net網(wǎng)絡(luò)結(jié)構(gòu) 32
3.2.3 殘差網(wǎng)絡(luò) 33
3.2.4 Residual-U-Net網(wǎng)絡(luò) 34
3.3 實驗設(shè)置與分析 35
3.3.1 數(shù)據(jù)集及參數(shù)設(shè)置 36
3.3.2 結(jié)果與分析 37
3.3.3 語譜圖比較 39
3.4 本章小結(jié) 40
參考文獻 40
第4章 基于差分麥克風(fēng)陣列的變步長LMS語音增強算法 42
4.1 引言 42
4.2 雙通道信號模型 43
4.3 算法描述 44
4.3.1 一階差分麥克風(fēng)陣列 44
4.3.2 變步長頻域LMS算法 45
4.4 實驗設(shè)置與分析 46
4.5 本章小結(jié) 52
參考文獻 53
第5章 語音頻帶擴展研究綜述 55
5.1 引言 55
5.2 源-濾波器模型 55
5.2.1 寬帶激勵信號生成 57
5.2.2 寬帶譜包絡(luò)估計 59
5.3 深度學(xué)習(xí)的端到端語音頻帶擴展 63
5.3.1 全連接神經(jīng)網(wǎng)絡(luò) 64
5.3.2 基于全連接神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 66
5.4 基于卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 66
5.5 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 68
5.6 基于時頻神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 71
5.7 數(shù)據(jù)預(yù)處理方式及窄帶語音特性 74
5.7.1 窄帶語音產(chǎn)生原因 74
5.7.2 時域預(yù)處理方法 75
5.7.3 頻域預(yù)處理方法 75
5.8 仿真與分析 78
5.8.1 客觀評價 78
5.8.2 主觀評價 80
5.8.3 語譜圖 81
5.9 本章小結(jié) 81
參考文獻 82
第6章 基于時間卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 89
6.1 時間卷積網(wǎng)絡(luò)結(jié)構(gòu) 89
6.1.1 擴張因果卷積 89
6.1.2 時間卷積網(wǎng)絡(luò) 91
6.2 基于TCN的語音頻帶擴展 93
6.2.1 模型架構(gòu) 93
6.2.2 時頻損失 95
6.3 實驗設(shè)置與分析 96
6.3.1 實驗設(shè)置 96
6.3.2 實驗結(jié)果與分析 97
6.4 本章小結(jié) 100
參考文獻 100
第7章 基于編解碼器網(wǎng)絡(luò)的語音頻帶擴展 103
7.1 編解碼器網(wǎng)絡(luò)模型 103
7.2 時頻感知損失函數(shù) 105
7.3 實驗設(shè)置與分析 106
7.3.1 實驗設(shè)置 106
7.3.2 語譜圖 107
7.3.3 客觀評價 107
7.3.4 主觀評價 108
7.4 本章小結(jié) 109
參考文獻 109
第8章 基于時頻感知神經(jīng)網(wǎng)絡(luò)的語音頻帶擴展 111
8.1 編解碼器注意力模型 112
8.1.1 編碼器結(jié)構(gòu) 113
8.1.2 局部敏感哈希自注意力層 113
8.1.3 解碼器結(jié)構(gòu) 114
8.2 深度時頻感知損失函數(shù) 115
8.3 實驗設(shè)置與分析 115
8.3.1 實驗設(shè)置 115
8.3.2 語譜圖 116
8.3.3 客觀評價 117
8.3.4 主觀評價 118
8.4 消融對比實驗 119
8.5 本章小結(jié) 121
參考文獻 121
第9章 IMCRA-OMLSA噪聲動態(tài)估計下的心音降噪 124
9.1 引言 124
9.2 算法框架 125
9.3 基于IMCRA-OMLSA的心音降噪 126
9.3.1 基于OMLSA的心音降噪 126
9.3.2 基于IMCRA的噪聲估計 128
9.4 降噪結(jié)果的定性分析 131
9.5 降噪結(jié)果的定量評估 134
9.5.1 數(shù)據(jù)集與特征提取 135
9.5.2 分類器構(gòu)建 135
9.5.3 評估結(jié)果及分析 136
9.6 本章小結(jié) 138
參考文獻 138
第10章 結(jié)合SVM和香農(nóng)能量的HSMM心音分割方法 142
10.1 引言 142
10.2 分割的原理與方法 143
10.2.1 預(yù)處理 143
10.2.2 LR-HSMM 144
10.2.3 歸一化香農(nóng)能量 146
10.2.4 支持向量機(SVM) 147
10.2.5 心音持續(xù)時間分布 148
10.2.6 Viterbi解碼 148
10.3 分割算法流程 149
10.4 訓(xùn)練與評價指標 149
10.4.1 數(shù)據(jù)集 149
10.4.2 訓(xùn)練集 150
10.4.3 模型評估 150
10.5 實驗設(shè)置與分析 151
10.5.1 實驗結(jié)果 151
10.5.2 性能指標對比 152
10.6 本章小結(jié) 154
參考文獻 154
主要符號縮寫 156