本書為語音信號處理領(lǐng)域的指導(dǎo)書。作者在東南大學(xué)、南京理工大學(xué)開設(shè)的本科生課程的基礎(chǔ)上,介紹了語音信號處理的基本原理、分析方法以及該學(xué)科領(lǐng)域近年來取得的一些研究成果和技術(shù),在理論和應(yīng)用之間達到了極好的平衡。全書共11章,內(nèi)容包括:緒論、語音信號處理的聲學(xué)理論與模型、傳統(tǒng)語音信號分析方法、現(xiàn)代語音信號處理方法、語音信號的參數(shù)估計、語音編碼、語音增強、語音合成、語音識別、說話人識別、語音信號中的情感信息處理。另外,在本書的每章中都加入了復(fù)習(xí)題,供讀者思考。本書可作為高等院校計算機應(yīng)用、信號與信息處理、
本書圍繞語音識別的原理和應(yīng)用講解,理論結(jié)合實際,采用大量插圖,輔以實例,力求深入淺出,讓讀者能較快地理解語音識別的基礎(chǔ)理論和關(guān)鍵技術(shù)。為了幫助讀者動手操作,提高實戰(zhàn)技能,本書最后還結(jié)合Kaldi、ESPnet和WeNet等開源工具,介紹了具體的工程實踐方法。
隨著語音算法技術(shù)的不斷發(fā)展與完善,如何進行工程落地成為語音商業(yè)應(yīng)用中普遍面臨的問題。工程落地不僅要考慮模型效果,還要考慮資源占用、模塊聯(lián)調(diào)且整個架構(gòu)要具有可靠性、可擴展性和可維護性。本書圍繞如何從零構(gòu)建一個完整的語音識別系統(tǒng),深入淺出地介紹了語音識別前端算法、語音識別算法及說話人日志算法原理;基于Kaldi的模型訓(xùn)練;語音識別工程落地和服務(wù)搭建。本書適合作為語音技術(shù)研究人員及對語音技術(shù)感興趣的開發(fā)人員的參考用書。