《聲學(xué)事件檢測理論與方法》系統(tǒng)地介紹聲學(xué)事件檢測的相關(guān)理論與方法,以及新研究進展。內(nèi)容包括聲學(xué)事件檢測的基本原理、一般數(shù)據(jù)規(guī)模下的聲學(xué)事件檢測、大數(shù)據(jù)規(guī)模下的聲學(xué)事件檢測。在一般數(shù)據(jù)規(guī)模下的檢測中,重點介紹基于長時特征的檢測理論與方法,包括基于基頻段特征的檢測、基于混合模型的檢測、基于稀疏低秩特征的檢測,以及基于松弛邊際與并行在線的模型訓(xùn)練方法。在大數(shù)據(jù)規(guī)模下的檢測中,重點介紹適合大數(shù)據(jù)的快速和在線式模型訓(xùn)練方法,包括基于支持向量機的加速訓(xùn)練、基于深度模型的加速訓(xùn)練、通用型在線及隨機梯度下降算法,以及牛頓型隨機梯度下降算法等。最后介紹兩個典型應(yīng)用:行車周邊聲音環(huán)境的感知以及音頻場景識別。
《聲學(xué)事件檢測理論與方法》可作為高等院校計算機應(yīng)用、信號與信息處理、通信與電子系統(tǒng)等專業(yè)及學(xué)科的研究生教材,也可供該領(lǐng)域的科研及工程技術(shù)人員參考。
更多科學(xué)出版社服務(wù),請掃碼獲取。
人類生活在一個充滿聲音的世界中,各種活動、事件無不伴隨著豐富多彩的聲音。對聲音的感知與理解是人類認知世界的最重要途徑之一。隨著信息技術(shù)的迅猛發(fā)展,開展機器模仿人類對聲音認知能力的相關(guān)研究越來越受到重視。
聲音感知與理解的目標(biāo)是使計算機能感知入耳聽覺所能關(guān)注和理解的聲音。聲音的類型大體可分為語音和非語音,對不同的聲音類型,所應(yīng)采取的處理方法也不盡相同。有關(guān)語音感知與理解方面的研究已較為豐富,如語音識別、說話人識別等。近年來,針對非語音感知與理解的研究已逐漸成為學(xué)術(shù)界的研究熱點。研究者普遍認為非語音的聲音也能傳遞有用的信息,通過對這些聲音的分析和處理,能夠為智能決策提供重要的信息。非語音感知和理解的核心技術(shù)之一正是本書所要討論的問題——聲學(xué)事件檢測。
聲學(xué)事件檢測是指對連續(xù)聲音信號流中一段具有明確語義的片段進行分析,并標(biāo)定其語義類別的過程。聲學(xué)事件檢測是機器對環(huán)境聲音場景進行感知和語義理解的重要基礎(chǔ),其在未來類人機器人聲音環(huán)境的語義理解、無人車行車周邊環(huán)境的聲音感知等方面將發(fā)揮重要的作用。
聲學(xué)事件檢測的研究經(jīng)過十幾年的發(fā)展已經(jīng)取得了長足的進步。從其發(fā)展過程看,經(jīng)歷了從簡單事件類型到復(fù)雜事件類型的檢測,從孤立片段的事件檢測到連續(xù)聲音流中的事件檢測,從實驗室模擬的聲學(xué)事件到現(xiàn)實生活中的聲學(xué)事件檢測的過程。多年來在語音識別和音樂處理方面的研究工作,為聲學(xué)事件檢測提供了數(shù)字信號處理與機器學(xué)習(xí)層面的技術(shù)積累;而機器的環(huán)境感知以及基于語義的多媒體信息檢索對聲學(xué)事件檢測的強烈需求,牽引和驅(qū)動了聲學(xué)事件檢測的發(fā)展。近年來,數(shù)字信號處理與機器學(xué)習(xí)中,如稀疏表示與壓縮感知、深度學(xué)習(xí)等方面的突破,為聲學(xué)事件檢測研究提供了更有效的理論方法和技術(shù)手段。
全書共15章,分別介紹聲學(xué)事件檢測中的特征提取和常用模型、一般數(shù)據(jù)規(guī)模下的聲學(xué)事件檢測、大數(shù)據(jù)規(guī)模下的聲學(xué)事件檢測,以及聲學(xué)事件檢測的典型應(yīng)用。其目的不僅讓讀者對聲學(xué)事件檢測理論和方法有一個系統(tǒng)的了解,而且努力將本領(lǐng)域的新動態(tài)介紹給讀者,希望讀者能在學(xué)術(shù)思想上受到啟發(fā)。
目錄
前言
第 1 章緒論 1
1.1 聲學(xué)事件檢測技術(shù)的發(fā)展 1
1.1.1 聲學(xué)事件檢測的起源與發(fā)展脈絡(luò) 2
1.1.2 基于特征的聲學(xué)事件檢測 12
1.1.3 基于模型的聲學(xué)事件檢測 17
1.2 聲學(xué)事件檢測技術(shù)的應(yīng)用 20
1.3 聲學(xué)事件檢測系統(tǒng)的結(jié)構(gòu) 21
1.4 本書的結(jié)構(gòu) 22
第 2 章聲學(xué)事件檢測中的常用特征和模型 30
2.1 聲學(xué)事件檢測中的常用特征 30
2.1.1 聲音信號的數(shù)字化 30
2.1.2 聲音信號的時域特征 31
2.1.3 聲音信號的頻域特征 33
2.1.4 聲音信號的時頻域特征 41
2.1.5 特征降維與選擇 43
2.2 聲學(xué)事件檢測中的常用模型 47
2.2.1 淺層模型 47
2.2.2 深度模型 53
2.3 本章小結(jié) 53
第 3 章基于基頻段特征的聲學(xué)事件檢測 54
3.1 引言 54
3.2 長時特征提取 54
3.2.1 長時統(tǒng)計特征提取 54
3.2.2 基于基頻段的特征提取 59
3.3 基于長時統(tǒng)計特征的聲學(xué)事件檢測 59
3.3.1 基于單分類器和多分類器融合的聲學(xué)事件檢測 60
3.3.2 基于類內(nèi)細分聚類的聲學(xué)事件檢測 61
3.3.3 基于拒識和確認的聲學(xué)事件檢測 62
3.4 實驗和結(jié)果 63
3.4.1 實驗設(shè)置 63
3.4.2 實驗結(jié)果與分析 63
3.5 本章小結(jié) 68
第 4 章基于混合模型的聲學(xué)事件檢測 69
4.1 引言 69
4.2 偽高斯混合模型 70
4.2.1 偽高斯混合模型的構(gòu)建 70
4.2.2 偽高斯混合模型參數(shù)估計的 EM 算法 72
4.3 異質(zhì)混合模型 74
4.3.1 多變量 Logistic 混合模型的可辨識性 75
4.3.2 異質(zhì)混合模型的構(gòu)建 78
4.3.3 異質(zhì)混合模型的參數(shù)估計 79
4.4 實驗和結(jié)果 82
4.4.1 基于偽高斯混合模型的聲學(xué)事件檢測 82
4.4.2 基于異質(zhì)混合模型的聲學(xué)事件檢測 83
4.5 本章小結(jié) 86
第 5 章基于稀疏低秩特征的聲學(xué)事件檢測 87
5.1 引言 87
5.2 基于稀疏表示特征的聲學(xué)事件檢測 89
5.3 基于低秩矩陣表示特征的聲學(xué)事件檢測 92
5.3.1 低秩矩陣表示特征提取 92
5.3.2 低秩矩陣分類的問題描述 93
5.3.3 基于加速近似梯度方法的矩陣分類學(xué)習(xí) 94
5.4 基于低秩張量表示特征的聲學(xué)事件檢測 96
5.4.1 張量計算相關(guān)記號 97
5.4.2 低秩張量表示特征提取 97
5.4.3 基于加速近似梯度方法的張量分類學(xué)習(xí) 99
5.5 實驗和結(jié)果 102
5.5.1 基于稀疏表示特征的聲學(xué)事件檢測 102
5.5.2 基于低秩矩陣表示特征的聲學(xué)事件檢測 104
5.5.3 基于低秩張量表示特征的聲學(xué)事件檢測 108
5.6 本章小結(jié) 112
第 6 章基于松弛邊際下模型訓(xùn)練的聲學(xué)事件檢測 113
6.1 引言 113
6.2 基于跡范限制下的最大邊際矩陣分類 113
6.2.1 基于跡范限制與松弛邊際的矩陣分類問題描述 113
6.2.2 基于交替搜索方式的矩陣分類學(xué)習(xí)算法 114
6.3 基于跡范限制下的最大邊際張量分類 116
6.3.1 基于跡范限制與松弛邊際的張量分類問題描述 116
6.3.2 基于交替搜索方式的張量分類學(xué)習(xí)算法 117
6.4 實驗和結(jié)果 119
6.5 本章小結(jié) 122
第 7 章基于在線并行模型訓(xùn)練的聲學(xué)事件檢測 123
7.1 引言 123
7.2 在線并行的矩陣數(shù)據(jù)分類學(xué)習(xí)方法 123
7.2.1 基于加速近似梯度方法的矩陣分類在線學(xué)習(xí) 123
7.2.2 基于逼近加速近似梯度方法的在線學(xué)習(xí) 125
7.2.3 基于小批量更新的在線學(xué)習(xí) 126
7.2.4 基于并行計算加速的矩陣分類學(xué)習(xí) 126
7.3 在線并行的張量數(shù)據(jù)分類學(xué)習(xí)方法 128
7.4 實驗和結(jié)果 131
7.4.1 基于在線并行學(xué)習(xí)的低秩矩陣特征分類 131
7.4.2 基于在線并行學(xué)習(xí)的低秩張量特征分類 133
7.5 本章小結(jié) 135
第 8 章基于錨空間的聲學(xué)事件檢測 136
8.1 引言 136
8.2 錨模型簡介 137
8.3 基于狀態(tài)變化統(tǒng)計量的錨空間聲學(xué)事件檢測 139
8.3.1 基于狀態(tài)變化統(tǒng)計量的錨空間生成方法 140
8.3.2 實驗與討論 143
8.4 基于高斯混合模型錨空間的聲學(xué)事件檢測 144
8.4.1 基于高斯混合模型錨空間的目標(biāo)與集外錨模板的生成 144
8.4.2 基于高斯混合模型的聲學(xué)事件檢測機制 146
8.5 基于稀疏分解錨空間的聲學(xué)事件檢測 146
8.5.1 基于稀疏分解錨空間的目標(biāo)與集外錨模板的生成 147
8.5.2 基于稀疏分解的聲學(xué)事件檢測機制 148
8.5.3 實驗與討論 149
8.6 本章小結(jié) 151
第 9 章面向大數(shù)據(jù)環(huán)境下聲學(xué)事件檢測的凸優(yōu)化理論 152
9.1 引言 152
9.2 與聲學(xué)事件檢測相關(guān)的凸優(yōu)化理論 153
9.2.1 早期凸優(yōu)化 154
9.2.2 凸優(yōu)化基礎(chǔ) 155
9.2.3 一階方法的動機 156
9.3 光滑與非光滑的凸優(yōu)化一階方法 157
9.3.1光滑目標(biāo) 157
9.3.2 復(fù)合優(yōu)化目標(biāo)函數(shù) 160
9.3.3 近端目標(biāo) 161
9.4 隨機化技術(shù) 162
9.5 并行和分布式計算 164
9.6 本章小結(jié) 164
第 10 章面向大數(shù)據(jù)處理的支持向量機模型的加速算法 165
10.1 隨機對偶坐標(biāo)上升法 165
10.1.1 問題描述及相關(guān)工作 165
10.1.2 基于對偶間隙邊界的 SDCA 收斂性分析 167
10.2 加速近端隨機對偶坐標(biāo)上升法 172
10.2.1 問題描述及相關(guān)工作 172
10.2.2 基于對偶間隙邊界的 Prox-SDCA 收斂性分析 173
10.3 本章小結(jié) 180
第 11 章面向大數(shù)據(jù)處理的深度模型的加速算法 181
11.1 引言 181
11.2 全梯度與隨機梯度下降算法 183
11.3 加速梯度算法 190
11.4 指數(shù)型收斂的隨機梯度下降算法 192
11.4.1 隨機平均梯度法 192
11.4.2 隨機方差減梯度方法 194
11.5 坐標(biāo)梯度下降算法 194
11.6 本章小結(jié) 199
第 12 章面向大數(shù)據(jù)的通用型在線及隨機梯度下降算法 200
12.1 引言 200
12.2 通用在線梯度法 202
12.2.1 通用的在線原始梯度方法 203
12.2.2 通用的在線對偶梯度方法 205
12.2.3 通用的在線快速梯度方法 208
12.3 通用隨機梯度法 212
12.3.1 算法描述 212
12.3.2 收斂性分析 212
12.4 數(shù)值實驗 215
12.4.1 LASSO 問題 216
12.4.2 施泰納問題 218
12.5 本章小結(jié) 221
第 13 章面向大數(shù)據(jù)的牛頓型隨機梯度下降算法 223
13.1 引言 223
13.2 近端牛頓型隨機梯度法 226
13.2.1 正則化的二次模型 228
13.2.2 Hessian 矩陣的近似 229
13.3 算法的收斂性分析 229
13.4 數(shù)值實驗 234
13.5 本章小結(jié) 235
第 14 章基于聲學(xué)事件檢測的行車周邊聲音環(huán)境感知 236
14.1 引言 236
14.2 實驗環(huán)境與基線系統(tǒng) 237
14.3 基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)噪聲建模的聲學(xué)事件檢測 240
14.4 基于等響度曲線的聲學(xué)事件檢測 246
14.5 基于基頻軌跡特征的聲學(xué)事件檢測 250
14.6 本章小結(jié) 255
第 15 章音頻場景識另 256
15.1 引言 256
15.2 基于高斯直方圖特征的音頻場景識別 257
15.2.1 高斯直方圖特征 257
15.2.2 分類模型 259
15.3 基于遷移學(xué)習(xí)的音頻場景識別 259
15.3.1 遷移學(xué)習(xí)概述 259
15.3.2 基于樣本平衡化的音頻場景識別 260
15.3.3 基于改進樣本平衡化的音頻場景識別 263
15.4 實驗和結(jié)果 265
15.5 本章小結(jié) 266
參考文獻 267