聽覺信息處理技術(shù)的創(chuàng)新能夠推動實現(xiàn)高度智能化機(jī)器感知系統(tǒng)的發(fā)展,本分冊主要介紹了國內(nèi)外聽覺信息處理方面的研究現(xiàn)狀和階段性成果,通過對人類言語產(chǎn)生與聽覺機(jī)理,聽覺機(jī)理的計算理論與方法,語音信號處理,語音識別聲學(xué)建模,特殊場景語音識別,聲紋與語種識別,韻律、情緒及音樂分析,統(tǒng)計語音合成,口語對話系統(tǒng)等技術(shù)研究成果的闡述與分析,展示我國在這些研究領(lǐng)域的優(yōu)勢與特色,并提出未來的技術(shù)挑戰(zhàn)與發(fā)展方向。
人類的語言主要有兩種承載形式:連續(xù)信號的有聲語言和離散信號的文本語言,其中有聲語言至今已有五萬年的歷史,而文本語言至今已有四千多年的歷史。文本語言是對有聲語言運(yùn)用規(guī)則的總結(jié)和符號化的記錄,反過來講,它對有聲語言的習(xí)得和使用也起到了一定的指導(dǎo)作用。從本質(zhì)上看,有聲語言是經(jīng)過符號化語言信息的調(diào)制、承載說話人意圖信息和生物信息的聲信學(xué)號,而聽覺是人類感知有聲語言、解析和理解其承載信息的主要手段。在會話交流的聽覺信息處理過程中,人們從感知到的聲學(xué)信號中解調(diào)語音承載的語言信息、副語言信息和非語言信息信息,對所關(guān)注的信息進(jìn)行加工處理。從科學(xué)研究的角度看,此處理過程涉及語音聲學(xué)信號的處理、環(huán)境噪聲的處理、語音識別、語音合成、說話人識別、言語韻律處理以及對話理解等多個研究領(lǐng)域。對于將有聲語言作為物理聲學(xué)信號進(jìn)行處理的研究領(lǐng)域,通常稱之為“語音”,而對于將有聲語言作為語言信息載體的研究領(lǐng)域,則稱之為“言語”。
人類的言語產(chǎn)生功能和言語感知功能在其成長過程中共同進(jìn)化、共同發(fā)育,在大腦中形成“聽、說、讀”多位一體的多模態(tài)言語鏈。從1791年馮·肯佩倫(von Kempelen)發(fā)明了第1臺高度仿真人類發(fā)音機(jī)制的機(jī)械語音合成器(稱為“說話機(jī)器”)至今已有230年,從1950年貝爾實驗室構(gòu)建了最早的語音識別系統(tǒng)至今已有70年。其間,人們一直遵循語音產(chǎn)生和感知機(jī)理對語音信號處理的原理和方法進(jìn)行探究,即如何基于人的語音產(chǎn)生機(jī)理來解碼聲道特性和聲源特性、如何基于人的聽覺感知機(jī)理去挖掘語音的物理聲學(xué)特征。本書本著“溫故而知新”的原則,在介紹語音產(chǎn)生和感知機(jī)理的同時,對傳統(tǒng)的語音處理技術(shù)和方法進(jìn)行了簡單的歸納與回顧,希望通過“重溫”這些原理性的語音技術(shù)能夠啟迪讀者的靈感,對于深入理解聽覺信息處理的前沿技術(shù)有所幫助。
近年來,隨著基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法的迅速發(fā)展和計算機(jī)算力的大幅度提升,在理想環(huán)境下從語音信息到文字轉(zhuǎn)寫的能力已經(jīng)與人類的水平相當(dāng)。本書在簡要回顧過往成功算法的基礎(chǔ)上,首先針對包括各種加性噪聲、混響噪聲以及線路回聲等復(fù)雜噪聲環(huán)境,探討了語音增強(qiáng)的主觀和客觀評價方法、單聲道語音增強(qiáng)方法以及近年來蓬勃發(fā)展的基于深度學(xué)習(xí)的語音增強(qiáng)方法和基于麥克風(fēng)陣列的語音增強(qiáng)前沿技術(shù);在回顧基于隱馬爾可夫模型的經(jīng)典聲學(xué)建模方法的同時,探討了結(jié)合深度學(xué)習(xí)的聲學(xué)建模方法以及端到端的聲學(xué)建模方法;從語音的魯棒性特征人手,探討了魯棒語音識別的前端處理方法以及環(huán)境表達(dá)與聲學(xué)模型的自適應(yīng)方法、參數(shù)結(jié)構(gòu)化自適應(yīng)及自適應(yīng)訓(xùn)練、多語種聲學(xué)與語言建模、低資源小語種的語言模型建模等技術(shù)。
言語包含了語言信息、副語言信息和非語言信息。說話人的性別、年齡、嗓音、病理以及生理狀態(tài)等信息雖然都屬于非語言信息。但是這些反映說話人特征的信息在言語交互和其他社會活動中起著不可或缺的作用。在說話人識別方面,本書重點(diǎn)介紹了基于深度學(xué)習(xí)的遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)及多數(shù)據(jù)庫聯(lián)合學(xué)習(xí)等方法;在聲紋識別方面,本書介紹了說話人特征提取的方法,并著重介紹了時變魯棒聲紋識別、短語音聲紋識別和防聲紋假冒闖入對策以及基于深度學(xué)習(xí)的聲紋識別算法。
言語的韻律超出了語音信號本身的范疇,它一方面是交際雙方的生理、心理和信息處理能力的體現(xiàn),另一方面也是交際雙方社會屬性的體現(xiàn)。言語韻律的分析與建模涉及情感語音識別、語音合成以及對話理解等領(lǐng)域,本書從漢語的特征出發(fā),介紹了韻律標(biāo)注系統(tǒng)的構(gòu)建,韻律分析與建模以及漢語韻律研究的挑戰(zhàn)問題。同時介紹了情感語音聲學(xué)特征的分析方法,語音的情感分類與識別以及情感語音合成等方面的技術(shù)和最新成果。
在人機(jī)融合的智能社會中,語音合成是實現(xiàn)人機(jī)自然對話的主要途徑之一。當(dāng)今,語音合成技術(shù)已經(jīng)融入智能手機(jī)、智能家電等設(shè)備,服務(wù)于有聲讀物、信息查詢與發(fā)布系統(tǒng)、辦公自動化系統(tǒng)、虛擬現(xiàn)實與增強(qiáng)現(xiàn)實等諸多領(lǐng)域。盡管如此,這種技術(shù)尚有“不盡人意”的地方。為了聚焦其挑戰(zhàn)性問題,本書首先回顧了基于隱馬爾可夫模型的統(tǒng)計語音合成方法,介紹了其關(guān)鍵技術(shù)以及該語音合成方法的優(yōu)缺點(diǎn);然后重點(diǎn)介紹了結(jié)合深度學(xué)習(xí)的統(tǒng)計語音合成方法的關(guān)鍵技術(shù)包括基于深度學(xué)習(xí)的聲學(xué)建模方法、基于神經(jīng)網(wǎng)絡(luò)的語音合成前端處理、基于深度學(xué)習(xí)的韻律邊界預(yù)測以及神經(jīng)網(wǎng)絡(luò)波形生成模型的構(gòu)建;最后介紹了基于神經(jīng)網(wǎng)絡(luò)的語音合成端到端建模方法的前沿技術(shù)。
言語理解是語音技術(shù)真正融人人類生活的“最后1公里”。本書在介紹了言語對話理解基本概念的基礎(chǔ)上,首先討論了言語理解算法的前沿技術(shù),其中包括口語理解中的不確定性建模,上下文建模及領(lǐng)域自適應(yīng)技術(shù);然后概述了人機(jī)口語對話系統(tǒng).介紹了任務(wù)型人機(jī)口語對話系統(tǒng)的基本架構(gòu)與對話系統(tǒng)的性能評估問題,探討了對話狀態(tài)跟蹤的前沿技術(shù)及其挑戰(zhàn),通過有代表性的模型進(jìn)行了詳細(xì)解說;最后介紹了最新的端到端的DST模型以及多領(lǐng)域DST模型,探討了對話策略優(yōu)化、深度強(qiáng)化學(xué)習(xí)在對話策略訓(xùn)練中的應(yīng)用以及對話策略優(yōu)化訓(xùn)練中的前沿技術(shù)。
廣大科研人員希望日益深人人心的語音技術(shù)不僅能為人們的日常生活錦上添花,更應(yīng)當(dāng)為聽力殘障人士雪中送炭,提高和改善他們的生活質(zhì)量。為此,本書詳細(xì)地介紹了面向健康醫(yī)療的語音技術(shù)。由于大部分言語障礙和聽覺障礙是由發(fā)音/聽覺器官的殘疾或相關(guān)腦功能受損而引起的,本書在第1章和第9章對發(fā)音/聽覺器官構(gòu)造和機(jī)理從不同的側(cè)面進(jìn)行了闡述,對言語處理的腦神經(jīng)機(jī)理及其前沿研究進(jìn)行了介紹。此外還重點(diǎn)介紹了聽障評估與助聽技術(shù)的前沿研究、嗓音障礙產(chǎn)生機(jī)制與客觀評估技術(shù)以及言語康復(fù)訓(xùn)練與學(xué)習(xí)相關(guān)的前沿技術(shù)及其研究。
本書從語音信號處理的角度全面地闡述了聽覺信息處理的前沿技術(shù)與挑戰(zhàn)性問題。本書的各位編者都是各相關(guān)領(lǐng)域的一線專家,其中的很多技術(shù)成果是他們及其團(tuán)隊多年來為我國在該領(lǐng)域研究做出的貢獻(xiàn)。本書可以為聽覺信息處理及相關(guān)領(lǐng)域的專家、工程技術(shù)人員以及對語音領(lǐng)域感興趣的廣大教師和學(xué)生提供學(xué)術(shù)參考。
1 言語產(chǎn)生和聽覺的機(jī)理及其研究
1.1 言語產(chǎn)生和感知的機(jī)理
1.1.1 有聲語言產(chǎn)生的條件
1.1.2 語音產(chǎn)生的機(jī)理
1.1.3 語音感知的機(jī)理
1.2 聲源的產(chǎn)生與聲道的調(diào)制
1.2.1 聲源產(chǎn)生機(jī)理與感知
1.2.2 聲道的調(diào)制機(jī)理
1.3 言語產(chǎn)生與感知的相互作用
1.3.1 言語鏈
1.3.2 言語感知運(yùn)動理論
1.3.3 言語感知機(jī)理研究的發(fā)展與挑戰(zhàn)
1.3.4 鏡像神經(jīng)元和言語聽覺一運(yùn)動整合
1.4 言語的腦功能研究
1.4.1 言語的腦認(rèn)知研究發(fā)展
1.4.2 言語的認(rèn)知神經(jīng)機(jī)理
1.4.3 言語功能障礙及康復(fù)訓(xùn)練
1.5 語音信號處理方法簡介
1.5.1 基于產(chǎn)生機(jī)理的信號處理方法
1.5.2 基于感知機(jī)理的信號處理方法
參考文獻(xiàn)
2 語音增強(qiáng)與麥克風(fēng)陣列信號處理
2.1 信號模型
2.1.1 時域信號模型
2.1.2 頻域信號模型與短時傅里葉變換技術(shù)
2.2 評價方法
2.2.1 主觀評價方法與指標(biāo)
2.2.2 客觀評價方法與指標(biāo)
2.3 單聲道語音增強(qiáng)
2.3.1 時域維納濾波器增強(qiáng)原理
2.3.2 頻域維納濾波器增強(qiáng)原理
2.3.3 噪聲功率譜的估計
2.3.4 基于深度學(xué)習(xí)的語音增強(qiáng)
2.4 麥克風(fēng)陣列語音增強(qiáng)
2.4.1 固定波束
2.4.2 自適應(yīng)波束
2.4.3 后置濾波技術(shù)
參考文獻(xiàn)
3 語音識別聲學(xué)建模
3.1 統(tǒng)計語音識別概述
3.2 基于隱馬爾可夫模型的經(jīng)典聲學(xué)建模方法
3.2.1 HMM
3.2.2 GMM-HMM在語音識別中的使用
3.2.3 模型改進(jìn)及問題分析
3.2.4 自適應(yīng)技術(shù)
3.2.5 鑒別性訓(xùn)練技術(shù)
3.3 結(jié)合深度學(xué)習(xí)的聲學(xué)建模方法
3.3.1 深度學(xué)習(xí)基礎(chǔ)
3.3.2 CD-DNN-HMM混合建模
3.3.3 深度學(xué)習(xí)在聲學(xué)建模中的綜合應(yīng)用
3.3.4 深度學(xué)習(xí)訓(xùn)練加速
3.3.5 深度學(xué)習(xí)自適應(yīng)技術(shù)
3.3.6 深度學(xué)習(xí)框架下的序列鑒別性訓(xùn)練
3.3.7 端到端聲學(xué)建模
參考文獻(xiàn)
……
4 特殊場景語音識別(抗噪、低資源)
5 聲紋識別與語種識別
6 韻律、情緒及音樂分析
7 統(tǒng)計語音合成
8 人機(jī)口語對話系統(tǒng)
9 面向健康醫(yī)療的語音技術(shù)
索引