本書由谷歌首席科學(xué)家Lyon撰寫,是一部關(guān)于聽覺研究的系統(tǒng)性學(xué)術(shù)著作。書中提出利用CARFAC模型模擬耳蝸對(duì)聲音信號(hào)的分析,利用帶有精細(xì)時(shí)序結(jié)構(gòu)的SAI表征聽覺神經(jīng)模式,明確反對(duì)將耳蝸視作傅里葉頻率分析器的做法。本書內(nèi)容系統(tǒng)且全面,涵蓋人類聽覺原理、機(jī)器聽覺理論、精密聽覺模型建模和機(jī)器聽覺應(yīng)用實(shí)例,還包括對(duì)聽覺研究史上的標(biāo)志性人物及事例的介紹。本書對(duì)數(shù)學(xué)原理的闡釋脈絡(luò)清晰,并配有算法源碼,適合相關(guān)領(lǐng)域的技術(shù)人員和研究人員參考,也適合作為高等院校相關(guān)研究生課程的教材。
假如我們對(duì)于人自身如何聽見聲音有更深入的了解,那么從通過聲音分析并從中提取有用且有意義的信息這個(gè)角度上來講,我們可以讓機(jī)器擁有更好的聽覺。至少,這是我的觀點(diǎn)。我已工作數(shù)十年,但近些年有更多的事實(shí)愈發(fā)強(qiáng)化了我的這個(gè)觀點(diǎn),愈發(fā)有意愿幫助工程人員、研究人員去理解這些知識(shí)片段是如何聯(lián)結(jié)成一體的,進(jìn)而與大家共同推動(dòng)這門學(xué)科的進(jìn)步。這樣就有很多事要做,本書就是一個(gè)嘗試,我想幫助大家將精力集中于更有效的方向:使新加入的同行對(duì)各種觀念的演化有足夠的了解,使他們能夠直接獲得新的研發(fā)與實(shí)驗(yàn)所需的理論,或直接找到能夠解決他們有關(guān)聲音理解問題的現(xiàn)有技術(shù)。
本書的寫作過程充滿了樂趣,得到了來自家庭、朋友以及同事的支持。然而,他們總是一個(gè)勁兒地問兩個(gè)讓人煩惱的問題:書寫好了嗎?以及書寫給誰看?個(gè)問題的終答案不言而喻,但關(guān)于第二個(gè)問題我還想多說幾句。我發(fā)現(xiàn)有許多人對(duì)聲音及聽覺感興趣,他們來自不同的學(xué)科,學(xué)術(shù)背景各不相同,所使用的術(shù)語與概念有時(shí)也互不相通。我希望他們都能成為我的讀者,我想向大家傳授一個(gè)由各種學(xué)術(shù)觀點(diǎn)綜合而成的更加全面的學(xué)術(shù)架構(gòu),該框架囊括了處理機(jī)器聽覺問題所需的一切。他們的專業(yè)背景可能會(huì)是電子工程、計(jì)算機(jī)科學(xué)、物理學(xué)、生理學(xué)、聽力學(xué)、音樂、心理學(xué)等,但都可以是我的讀者。還有學(xué)生、教師、科研人員、產(chǎn)品經(jīng)理、研發(fā)人員及黑客,也可以是我的讀者。
本書對(duì)于聽覺及工程等方面內(nèi)容的處理對(duì)某些人可能太深,而對(duì)另一些人可能又太淺;很多人會(huì)發(fā)現(xiàn)有些他們所知道的內(nèi)容沒有涉及,但我希望所有人都會(huì)發(fā)現(xiàn)有些內(nèi)容是有用的然而他們以前卻不知道。尤其是第二部分中所講授的系統(tǒng)理論,其目的是使不同學(xué)術(shù)背景的讀者對(duì)數(shù)學(xué)、物理、工程及信號(hào)處理原理建立共同的理解,而這部分內(nèi)容對(duì)于后面將要講授的設(shè)計(jì)、分析以及對(duì)于聽覺模型及應(yīng)用的理解,都是必需的。本書后續(xù)部分的許多內(nèi)容可直接閱讀,而不必預(yù)先掌握第二部分中的系統(tǒng)理論,但我仍然建議通讀這部分內(nèi)容以便熟悉術(shù)語,而且以后如果需要深入了解某個(gè)特定的知識(shí)點(diǎn),也知道到哪兒查找參考。
對(duì)于所有生物系統(tǒng),在線性與非線性結(jié)合方面,聽覺可能是為深入而又精致的。讀者將從中了解到,為什么對(duì)于聽覺來說,這些線性系統(tǒng)概念如此重要但還不足以解釋聽覺。而理解非線性系統(tǒng)一直是個(gè)挑戰(zhàn),為了解決這個(gè)問題,我們采用的方式是,將聽覺中重要的非線性拆分為若干定義明確的簡(jiǎn)單機(jī)制,且每個(gè)理解起來都不會(huì)有難度。我們先是基于連續(xù)時(shí)間系統(tǒng)構(gòu)建聽覺模型,然后利用離散時(shí)間系統(tǒng)實(shí)現(xiàn)模型在計(jì)算機(jī)上的高效運(yùn)行;再次強(qiáng)調(diào),對(duì)于非線性的拆分非常重要。
書中的聽覺模型有兩個(gè)鮮明特點(diǎn),也是多年來我與許多合作者一直在踐行的理想:其一,采用嵌入式非線性濾波級(jí)聯(lián)結(jié)構(gòu)來構(gòu)建耳蝸模型;其二,利用穩(wěn)定聽覺圖像或聽覺相關(guān)譜圖來捕獲并顯示耳蝸發(fā)送給大腦信號(hào)中的精細(xì)時(shí)序結(jié)構(gòu)。這里所涉及的對(duì)象分別位于聽神經(jīng)的兩端,也與我所采用的倚重聽神經(jīng)策略相符。從聽覺生理學(xué)家那里,我們了解了許多有關(guān)聲音在聽神經(jīng)中的表征特性,但建立的模型與系統(tǒng)卻既不產(chǎn)生也不利用耳蝸神經(jīng)中與聲音有關(guān)的豐富信息,這種做法似乎是站不住腳的。本書展示了在利用這些信息時(shí)我們所采用的一些富有成效的方法。
本書第三、四部分的聽覺模型附帶開源代碼,這樣讀者在開始構(gòu)建機(jī)器聽覺系統(tǒng)時(shí)便容易得多。第五部分對(duì)一些熱門應(yīng)用的開放性前景進(jìn)行了探討,同時(shí)也表達(dá)了我對(duì)讀者的期盼,希望大家一起推動(dòng)這一領(lǐng)域的發(fā)展及應(yīng)用。
在多數(shù)情形下,書中的寫作主體我們所指代的不僅僅是我自己,還包括所有對(duì)這些觀念做出了貢獻(xiàn)的人,其中也包括我們的讀者。在少數(shù)情形下,若是單純的個(gè)人評(píng)述,我會(huì)切換用我。
對(duì)于朋友和同事指出的缺陷及提出的建議,一經(jīng)采納,我會(huì)支付一美元的謝禮,盡管如此,我虧欠他們的遠(yuǎn)非致謝所能表達(dá)。通過他們的努力,這本書得到了極大的改進(jìn)。我希望其他人也能夠繼續(xù)提出建議以改進(jìn)下一版本,同時(shí)也會(huì)得到幾美元的致謝?梢钥隙,書中一定還有些遺漏的錯(cuò)誤有待大家發(fā)掘。
關(guān)于歷史及關(guān)聯(lián)內(nèi)容的專欄
由于針對(duì)史實(shí)以及其他領(lǐng)域相關(guān)概念的評(píng)述遍及許多章節(jié),我將其中部分內(nèi)容納入專欄中,一則使之突出,同時(shí)也不占據(jù)行文主線。這樣做的目的是,向所引用內(nèi)容的本源致以敬意,同時(shí)通過對(duì)關(guān)聯(lián)內(nèi)容的簡(jiǎn)要說明來提升文字的可讀性。我提到了一些老舊技術(shù),是想傳遞一個(gè)理念并相信其能夠被大家所認(rèn)可:這些真空管(閥)放大器、Helmholtz諧振器以及火焰感壓計(jì)(flame manometer)等,會(huì)作為線索將我們導(dǎo)向由一代代學(xué)術(shù)巨擘所創(chuàng)造的寶貴遺產(chǎn),無論是在人類聽覺還是機(jī)器聽覺領(lǐng)域,我們都是站立在這些巨人的肩膀上。
我個(gè)人的EE專業(yè)訓(xùn)練是在晶體管及早期集成電路時(shí)代完成的,那時(shí)的課程如電路、信號(hào)與系統(tǒng)都還在講授連續(xù)時(shí)間模擬技術(shù)。而在當(dāng)代,信號(hào)與系統(tǒng)是從離散時(shí)間概念開始教授的,且理由很充分,一是教學(xué)內(nèi)容的改變,二是必須運(yùn)用通過數(shù)字計(jì)算機(jī)實(shí)施的現(xiàn)代媒體教學(xué)手段。當(dāng)代工程人員可能認(rèn)為將聲音視為離散時(shí)間采樣數(shù)據(jù)并利用計(jì)算機(jī)進(jìn)行處理是很自然的,但在本書中,我仍然選擇將連續(xù)時(shí)間作為主要概念,這是因?yàn)槁曇襞c耳朵確確實(shí)實(shí)存在于連續(xù)時(shí)間域。我希望讀者不會(huì)將連續(xù)時(shí)間域視為過時(shí)的東西現(xiàn)實(shí)世界就是如此。
在線資源
查找勘誤表、代碼鏈接及其他資源,可訪問網(wǎng)址machinehearing.org。
致謝
有許多人關(guān)心這本著作,花費(fèi)精力給予我?guī)椭凸膭?lì)。首先要感謝的是Roy Patterson,沒有他的鼓勵(lì),這項(xiàng)工作甚至還未啟動(dòng);也是他,在進(jìn)展緩慢的過程中不斷激勵(lì)著我。
在所有向我提出有效反饋意見的讀者中,Rif(Ryan Rifkin)無疑是為突出的一位,他從書中發(fā)現(xiàn)的bug比其他人合起來還要多。其他給出建設(shè)性意見的讀者,或是仔細(xì)閱讀了本書內(nèi)容,或是反饋了關(guān)于本書的整體印象,他們是:Jont Allen,Peggy Asprey,F(xiàn)red Bertsch,Alex Brandmeyer,Peter Cariani,Wan-Teh Chang,Sourish Chaudhuri,Brian Clark,Lynn Conway,Achal Dave,Bertrand Delgutte,Dick Duda,Diek Duifhuis,Dan Ellis,Doug Eck,Dylan Freedman,Jarret Gaddy,Daniel Galvez,Dan Geisler,Pascal Getreuer,Chet Gnegy,Alex Gutkin,Yuan Hao,Thad Hughes,Aren Jansen,James Kates,Nelson Kiang,Ross Koningstein,Harry Levitt,Carver Mead,Ray Meddis,Harold Mills,Channing Moore,Stephen Neely,Eric Nichols,F(xiàn)ritz Obermeyer,Ratheet Pandya,Brian Patton,Justin Paul,Manoj Plakal,Jay Ponte,Rocky Rhodes,David Ross,Mario Ruggero,R. J. Ryan,Bryan Seybold,Shihab Shamma,Phaedon Sinis,Jan Skoglund,Malcolm Slaney,Daisy Stanton,Rich Stern,John L. Stewart,Ian Sturdy,Jeremy Thorpe,George Tzanetakis,Marcel van der Heijden,Tom Walters,Yuxuan Wang,W. Bruce Warr,Lloyd Watts,Ron Weiss,Kevin Wilson,Kevin Woods,Ying Xiao,Bill Yost,Tao Zhang,等等。或許還是有人被遺漏了,但總而言之,非常感謝大家!
我要將此書獻(xiàn)給我的家人:我的妻子Peggy Asprey,她是如此美麗、聰慧、開朗、富有成就、充滿活力,她說起話來嗓音是那么的甜美;還有我的兩個(gè)可愛的孩子Susan和Erik,她們是我生命中的摯愛,是我的寶貴財(cái)富。雖然有時(shí)我把更多的注意力放在了這本書上,但對(duì)于我的寫作,她們卻是以各種方式全力支持。她們是我美好的風(fēng)景,甜蜜的音樂,是她們支撐著我。
后,由衷感謝我的編輯,來自劍橋大學(xué)出版社的Lauren Cowles,感謝她多年來的耐心,幫助我完成了這本書。
譯者序
序言
前言
關(guān)于作者
部分 聲音分析與表征概述
第1章 引言3
1.1 David Marr論視覺與聽覺5
1.2 自上而下與自下而上分析8
1.3 神經(jīng)模擬方法10
1.4 聽覺圖像11
1.5 耳朵是頻率分析器嗎12
1.6 第三音13
1.7 聲音理解與意義提取14
1.8 機(jī)器視覺與機(jī)器學(xué)習(xí)技術(shù)的利用15
1.9 本書的內(nèi)容安排15
第2章 聽覺理論18
2.1 一種新的聽覺理論18
2.2 更新的聽覺理論20
2.3 主動(dòng)與非線性聽覺理論21
2.4 聽覺三元理論22
2.5 聽覺圖像理論23
第3章 對(duì)數(shù)及冪律聽覺27
3.1 對(duì)數(shù)與冪律27
3.2 對(duì)數(shù)頻率28
3.3 對(duì)數(shù)功率30
3.4 Bode圖31
3.5 感知映射33
3.6 恒Q值分析36
3.7 對(duì)數(shù)應(yīng)用注意事項(xiàng)36
第4章 人類聽覺概述37
4.1?人機(jī)對(duì)比37
4.2 聽覺生理學(xué)37
4.3 聽覺中的關(guān)鍵問題39
4.4 響度40
4.5 臨界頻帶、掩蔽與抑制43
4.6 音高感知45
4.7 音色52
4.8 協(xié)和與不協(xié)和53
4.9 語音感知55
4.10 雙耳聽覺58
4.11 聽覺流59
4.12 非線性60
4.13 后續(xù)建議61
第5章 聲學(xué)方法與聽覺修正62
5.1 聲音、語音與音樂建模62
5.2 短時(shí)譜分析62
5.3 譜的平滑與變換66
5.4 源-濾波器模型與同態(tài)信號(hào)處理68
5.5 擺脫對(duì)數(shù)70
5.6 聽覺頻率尺度70
5.7 mel頻率倒譜71
5.8 線性預(yù)測(cè)編碼72
5.9 PLP與RASTA73
5.10 自動(dòng)語音識(shí)別中的聽覺技術(shù)74
5.11 必要的改進(jìn)75
第二部分 聽覺的系統(tǒng)理論
第6章 線性系統(tǒng)引言79
6.1 平滑:恰當(dāng)?shù)钠瘘c(diǎn)80
6.2 線性時(shí)不變系統(tǒng)80
6.3 濾波器與頻率82
6.4 微分方程與齊次解83
6.5 沖激響應(yīng)84
6.6 因果性與穩(wěn)定性86
6.7 卷積86
6.8 本征函數(shù)與傳遞函數(shù)87
6.9 頻率響應(yīng)90
6.10 變換與運(yùn)算方法92
6.11 有理函數(shù)及其零極點(diǎn)94
6.12 傳遞函數(shù)增益與相位的圖解計(jì)算96
6.13 卷積定理97
6.14 級(jí)聯(lián)、并聯(lián)與反饋結(jié)構(gòu)中濾波器的互聯(lián)98
6.15 總結(jié)及后續(xù)安排100
第7章 離散時(shí)間與數(shù)字系統(tǒng)102
7.1 計(jì)算機(jī)模擬系統(tǒng)102
7.2 離散時(shí)間線性移不變系統(tǒng)102
7.3 沖激響應(yīng)與卷積103
7.4 離散時(shí)間系統(tǒng)中的頻率103
7.5 Z變換及其逆變換103
7.6 單位超前算子與單位延遲算子104
7.7 濾波器與傳遞函數(shù)105
7.8 采樣與混疊108
7.9 自連續(xù)時(shí)間系統(tǒng)的映射110
7.10 濾波器設(shè)計(jì)111
7.11 數(shù)字濾波器112
7.12 多輸入輸出114
7.13 傅里葉分析與頻譜圖114
7.14 觀點(diǎn)及拓展閱讀116
第8章 諧振器117
8.1 帶通濾波器117
8.2 四階諧振器121
8.3 諧振器頻率響應(yīng)123
8.4 諧振器沖激響應(yīng)125
8.5 復(fù)諧振器與通用諧振曲線127
8.6 并聯(lián)系統(tǒng)的復(fù)零點(diǎn)128
8.7 實(shí)系統(tǒng)實(shí)現(xiàn)132
8.8 數(shù)字諧振器134
第9章 gammatone及相關(guān)濾波器137
9.1 復(fù)合諧振器構(gòu)成的聽覺模型137
9.2 多極點(diǎn)137
9.3 復(fù)gammatone濾波器139
9.4 實(shí)gammatone濾波器142
9.5 全極點(diǎn)gammatone濾波器144
9.6 gammachirp濾波器146
9.7 變極點(diǎn)Q149
9.8 非重極點(diǎn)149
9.9 數(shù)字濾波器150
第10章 非線性系統(tǒng)153
10.1 Volterra級(jí)數(shù)及其他描述153
10.2 基本非線性155
10.3 Hopf分叉155
10.4 分布式帶通非線性156
10.5 非線性系統(tǒng)響應(yīng)曲線157
10.6 雙音調(diào)響應(yīng)160
10.7 非線性與混疊161
10.8 特別關(guān)注163
第11章 自動(dòng)增益控制164
11.1 輸入-輸出強(qiáng)度壓縮164
11.2 非線性反饋控制165
11.3 平衡狀態(tài)下的AGC壓縮166
11.4 多級(jí)聯(lián)可變?cè)鲆?68
11.5 由級(jí)聯(lián)諧振器阻尼控制的增益控制170
11.6 AGC動(dòng)態(tài)特性170
11.7 AGC環(huán)路穩(wěn)定性174
11.8 多環(huán)路AGC176
第12章 分布式系統(tǒng)中的波178
12.1 均勻線性介質(zhì)中的波179
12.2 波數(shù)與傳遞函數(shù)184
12.3 非均勻介質(zhì)186
12.4 非均勻介質(zhì)等效濾波器級(jí)聯(lián)189
12.5 沖激響應(yīng)190
12.6 群速度與群延遲191
第三部分 聽覺外周
第13章 聽覺濾波器模型195
13.1 何謂聽覺濾波器196
13.2 從諧振器到高斯濾波器198
13.3 聽覺濾波器模型應(yīng)具備的十大優(yōu)良特性199
13.4 代表性聽覺濾波器模型201
13.4.1 聽覺濾波器的三條發(fā)展路徑201
13.4.2 三個(gè)圓滑指數(shù)濾波器202
13.4.3 四個(gè)gammatone族濾波器203
13.4.4 三種濾波器級(jí)聯(lián)204
13.5 難點(diǎn):時(shí)變與非線性聽覺濾波器206
13.6 濾波器模型的擬合參數(shù)208
13.6.1 擬合心理聲學(xué)濾波器形狀208
13.6.2 OZGF及PZFC變型采用更少參數(shù)產(chǎn)生更好擬合210
13.7 抑制212
13.8 由生理數(shù)據(jù)導(dǎo)出沖激響應(yīng)212
13.9 耳蝸模型總結(jié)及應(yīng)用215
第14章 耳蝸建模216
14.1 耳蝸結(jié)構(gòu)216
14.2 行波219