《VoIP語音處理與識別》從VoIP通信過程出發(fā),以傳統(tǒng)語音識別技術為基礎,沿著PSTN網(wǎng)信號處理和IP包信號處理兩個主線進行研究,以語音識別的前端處理、特征提取、模型建立、后端處理過程進行組織。針對VoIP語音識別系統(tǒng)實用化的問題,給出了一些改善語音識別系統(tǒng)性能的關鍵技術,力求使得VoIP語音識別能走出實驗室,向?qū)嵱冒l(fā)展。
全書共14章,分為:緒論、VoIP語音編碼標準、語音信號和話帶數(shù)據(jù)檢測、VoIP信道檢測、語音信號的特征提取、編解碼失配補償、通話模式分析、VoIP協(xié)議分析及數(shù)據(jù)獲取、丟包處理、碼流特征提取、特征選擇與特征變換、語音識別的模型、穩(wěn)健性識別技術和語音識別應用。全書對VoIP語音處理識別技術進行了詳盡的、深入淺出的講解,并根據(jù)作者的研究與實驗結(jié)果提供了大量的實際參數(shù)、圖表,與實際工作聯(lián)系緊密,具有很強的可操作性與實用性。章節(jié)之間緊密配合、前后呼應,具有很強的系統(tǒng)性。同時,通過書中的研究過程和研究方法,讀者能夠在以后的研究工作中受到很大的啟發(fā)。
《VoIP語音處理與識別》可作為高等院校理工科通信和信息處理及相關專業(yè)的高年級本科生和(碩士、博士)研究生的教材或參考書,也可供從事信息處理、通信工程等專業(yè)的研究人員參考。
隨著通信和信息技術的發(fā)展,特別是網(wǎng)絡技術的發(fā)展,海量文本、語音、圖像和視頻等媒體為人們提供了豐富的信息資源。對廣大用戶來說,主要是從海量信息環(huán)境中獲取有用的信息。對于管理人員來說,除了信息獲取,還需要對海量信息的內(nèi)容進行監(jiān)管。
無論是為了獲取有價值的信息,還是對海量信息的內(nèi)容進行監(jiān)管,在廣泛收集信息的同時,需要對獲得的信息進行有效的采集、高效的內(nèi)容識別、深層的檢索與挖掘。在海量信息智能處理中,信息采集是基礎、信息內(nèi)容識別是核心、信息檢索與挖掘是手段、信息獲取與監(jiān)管是目的。
信息工程大學信息工程學院“智能信息處理”方向長期從事文本分析與理解、語音處理與識別、圖像/視頻處理與識別、多源信息融合、信息檢索與挖掘等前沿學科領域的教學與科研,獲得了國家社科基金(重大)、國家自然科學基金、國家“863”、國防預研等多個項目的資助!爸悄苄畔⑻幚怼狈较虻亩嗝髡咴诳偨Y(jié)和提升多年教學、科研成果的基礎上,編寫了這套《智能信息處理》叢書。國防工業(yè)出版社為該叢書的出版給予了大力支持。
《智能信息處理》叢書共8個分冊,比較系統(tǒng)、全面地介紹了智能信息處理技術及其應用,重點闡述了文本、語音、圖像及視頻等媒體的內(nèi)容識別、檢索、挖掘和監(jiān)管。該叢書可作為計算機科學與技術、電子工程、信息與通信工程、自動控制、指揮自動化、情報學、圖書館學、信息管理等相關專業(yè)方向的高年級本科生和研究生相關課程的教材和相關領域的科研、工程技術人員的參考書。
屈丹,女,吉林九臺人,1974年9月出生,博士,信息工程大學信息工程學院講師。主要從事語音處理與識別、信息融合等前沿學科的教學與科研。主持國家“863”課題、軍隊重點科研項目,鄭州市重點科技攻關項目等5項;作為主要技術負責人,參與國家自然科學基金項目、軍隊重點科研項目等10多項;獲省部級科技進步二等獎3項,發(fā)表論文40余篇,其中10多篇次進入三大檢索,公開出版著作3部。
王波,男,江蘇南京人,1978年1月出生,博士,信息工程大學信息工程學院講師。主要從事語音處理與識別、網(wǎng)絡協(xié)議分析等前沿學科的教學與科研。主持和參加了國家自然科學基金項目、國家“863”課題、國家社科基金項目、軍隊科研項目等10余項;獲省部級科技進步二等獎2項;發(fā)表論文30余篇,其中15篇次進入三大檢索;公開出版著作2部。
李弼程,男,湖南衡南人.1970年7月出生,博士,留英學者.信息工程大學信息工程學院教授、博士生導師。主要從事文本分析與理解、語音處理與識別,圖像/視頻處理與識別、多源信息融合等前沿學科的教學與科研。主持國家自然科學基金項目、國家“863”課題、國家社科基金項目、軍隊科研項目等20余項;獲省部級科技進步一等獎1項、二等獎2項、三等獎4項;發(fā)表論文200余篇.其中80多篇次進入三大檢索;已公開出版著作5部。
第1章 緒論
1.1 VoIP的基本概念和系統(tǒng)組成
1.1.1 VoIP基本概念
1.1.2 VoIP基本原理
1.1.3 VoIP系統(tǒng)基本組成
1.1.4 VoIP主要特點
1.1.5 VoIP的關鍵技術
1.2 語音識別的基本原理與研究內(nèi)容
1.2.1 語音識別基本原理
1.2.2 傳統(tǒng)語音識別
1.2.3 VoIP語音識別
1.3 傳統(tǒng)語音識別的發(fā)展歷程
1.4 VoIP語音識別的發(fā)展歷程
參考文獻
第2章 VoIP語音編碼標準
2.1 G.7 ll語音編碼
2.1.1 G.7 ll語音編碼原理
2.1.2 A律壓縮
2.1.3 u律壓縮
2.2 G.7 29語音編碼
2.2.1 G.729編碼原理
2.2.2 編碼器實現(xiàn)技術
2.2.3 解碼器功能說明
2.3 G.723.1語音編碼
2.3.1 編碼器原理
2.3.2 編碼器實現(xiàn)技術
2.3.3 解碼器原理
2.3.4 解碼器實現(xiàn)技術
參考文獻
第3章 語音和話帶數(shù)據(jù)檢測
3.1 話帶數(shù)據(jù)簡介
3.1.1 傳真
3.1.2 調(diào)制解調(diào)器數(shù)據(jù)
3.1.3 單音信號和雙音多頻信號(DTMF)
3.2 語音和話帶數(shù)據(jù)波形的特點
3.2.1 語音波形的特點
3.2.2 話帶數(shù)據(jù)信號波形的特點
3.3 語音和話帶數(shù)據(jù)識別的特征分析
3.3.1 能量相關參數(shù)
3.3.2 過零率相關參數(shù)
3.3.3 0~I一化自相關函數(shù)
3.3.4 基音周期
3.3.5 譜特征
3.4 語音和話帶數(shù)據(jù)分離方法
3.5 語音與話帶數(shù)據(jù)檢測技術應用
參考文獻
附錄
第4章 VolP信道檢測
4.1 聲道參數(shù)
4.2 語音信號統(tǒng)計參數(shù)
4.2.1 偏度與峰度
4.2.2 LPC峰度及偏度
4.2.3 LPCC峰度及偏度
4.3 靜態(tài)信噪比
4.4 非自然周期性參數(shù)
4.4.1 非自然嘟嘟聲
4.4.2 機器性參數(shù)
4.4.3 幀重復性
4.5 啞聲參數(shù)與中斷參數(shù)
4.5.1 啞聲參數(shù)
4.5.2 中斷參數(shù)
4.6 基于支持矢量機的VolP信道檢測方法
4.6.1 算法流程
4.6.2 支持矢量機
4.6.3 算法的具體實現(xiàn)
參考文獻
第5章 語音信號的特征提取
5.1 基音周期
5.1.1 基音檢測的難點及方法分類
5.1.2 自相關法及其改進
5.1.3 并行處理法
5.1.4 倒譜法
5.1.5 簡化逆濾波法
5.2 線性預測參數(shù)
5.2.1 線性預測信號模型
5.2.2 線性預測誤差濾波
5.2.3 語音信號的線性預測分析
5.2.4 線性預測分析的解法
5.2.5 斜格法(LatticeMethod)及其改進
5.3 線譜對(LSP)參數(shù)
5.3.1 線譜對分析原理
5.3.2 線譜對分析的求解
5.4 倒譜系數(shù)及差分參數(shù)
5.4.1 LPCC參數(shù)
5.4.2 MFCC參數(shù)
5.4.3 ASCC參數(shù)
5.4.4 差分參數(shù)
5.5 感覺加權的線性預測(PUP)特征
5.5.1 PLP參數(shù)
5.5.2 RASTA-PI.P參數(shù)
5.6 高階信號譜類特征
5.6.1 WV譜的定義及其主要性質(zhì)
5.6.2 WV譜計算式的一些變形
參考文獻
第6章 編解碼失配補償
6.1 編解碼失配影響
6.1.1 VoIP系統(tǒng)語音傳輸
6.1.2 編解碼失配對說話人辨認系統(tǒng)的影響
6.1.3 編解碼失配對說話人確認系統(tǒng)的影響
6.1.4 特征參數(shù)的編碼失真
6.2 常用編解碼失配補償方法
6.2.1 失配補償?shù)幕舅枷?br>6.2.2 經(jīng)驗補償技術
6.2.3 盲補償
6.2.4 基于特征及模型的補償
6.3 基于編碼失真的加權GMM模型算法
6.3.1 加權GMM模型
6.3.2 權重矩陣C的確定
6.3.3 實驗及分析
6.4 編碼自動匹配方法
6.4.1 編碼自動匹配方法的基本思想
6.4.2 語音編碼檢測器
6.4.3 實驗及分析
6.5 統(tǒng)計匹配特征變換失配補償算法
6.5.1 統(tǒng)計匹配的基本思想
6.5.2 線性特征變換式
6.5.3 非線性特征變換式
……
第7章 通話模式分析
第8章 VoIP協(xié)議分析及數(shù)據(jù)獲取
第9章 丟包處理
第10章 碼流特征提取
第11章 特征選擇與特征變換
第12章 語音識別的模型
第13章 穩(wěn)健性識別技術
第14章 語音識別應用
參考文獻
三、傳送
在這個通道中,全部網(wǎng)絡被看成一個整體,持續(xù)不斷地從輸入端接收語音包,然后在一定時間f內(nèi)將其傳送到網(wǎng)絡輸出端。時間£可以在某個范圍內(nèi)變化,反映了網(wǎng)絡傳輸中的抖動。網(wǎng)絡中的中間節(jié)點檢查每個IP數(shù)據(jù)附帶的尋址信息,并使用這個信息把該數(shù)據(jù)報轉(zhuǎn)發(fā)到目的地路徑上的下一站。網(wǎng)絡鏈路可以是支持IP數(shù)據(jù)流的任何拓撲結(jié)構(gòu)或訪問方法。
四、IP包一數(shù)據(jù)的轉(zhuǎn)換
目的地VoIP設備接收這個IP數(shù)據(jù)報并開始處理。網(wǎng)絡級提供一個可變長度的緩沖器,用來調(diào)節(jié)網(wǎng)絡產(chǎn)生的抖動。該緩沖器可容納許多語音包,用戶可選擇緩沖器的大小。小的緩沖器產(chǎn)生延遲較小,但不能調(diào)節(jié)大的抖動。其次,解碼器將經(jīng)編碼的語音包解壓縮后產(chǎn)生新的語音包,這個模塊也可以按幀進行操作,完全和解碼器的長度相同。若幀長度為15ms,則60ms的語音包被分成4幀,然后它們被解碼還原成60ms的語音數(shù)據(jù)流送人解碼緩沖器。在數(shù)據(jù)報的處理過程中,去掉尋址和控制信息,保留原始的源數(shù)據(jù),然后把這個源數(shù)據(jù)提供給解碼器。
五、數(shù)字語音轉(zhuǎn)換為模擬語音
播放驅(qū)動器將緩沖器中的語音樣點(60ms,480個)取出送入聲卡,通過揚聲器按預定的頻率(例如8kHz)播出。
簡而言之,語音信號在IP網(wǎng)絡上的傳送要經(jīng)過從模擬信號到數(shù)字信號的轉(zhuǎn)換、數(shù)字語音封裝成IP分組、IP分組通過網(wǎng)絡的傳送、IP分組的解包和數(shù)字語音還原到模擬信號等過程。整個過程如圖1.2所示。