序
眾所周知,人類視覺具有非凡的環(huán)境感知能力,似乎毫不費力就可以對周圍環(huán)境的典型目標進行識別。隨著人類對自身視覺系統(tǒng)的深入了解,借助人類視覺的信息處理機制來增強機器視覺的認知能力已是計算機視覺領(lǐng)域的熱點研究內(nèi)容之一。然而,如何模擬大腦視覺系統(tǒng)的典型功能或信息處理機制,使計算機擁有人類所具備的觀察和理解世界的能力,卻是計算機視覺領(lǐng)域面臨的一大挑戰(zhàn)。
本書借鑒人類視網(wǎng)膜、視皮層的信息處理機制以及視覺心理認知組織準則,構(gòu)建具有人類某些視覺功能特性的計算模型或方法,以機器視覺感知的自然環(huán)境信息——自然圖像[1] 為處理對象,實現(xiàn)自然圖像的顯著性處理與自然環(huán)境的典型目標識別,為機器人自動導航提供視覺環(huán)境感知和信息選擇性傳輸機制的可計算方法。
基于視覺認知的自然圖像目標識別屬于神經(jīng)生理學、認知心理學、生物物理學、計算機信息學以及自動化等眾多學科交叉形成的新興研究課題。作為交叉領(lǐng)域里的一項基礎(chǔ)性研究工作,本書在研究方法與思路上有所突破,主要可概括為以下7個方面:
① 系統(tǒng)、全面地總結(jié)了國內(nèi)外神經(jīng)科學家在視覺信息處理上取得的功能性實驗成果,分析和討論了視覺信息處理中的層次(初級、中級、高級)功能。在總結(jié)國內(nèi)外相關(guān)工作的基礎(chǔ)上,重點探討了基于生物視覺特性的自然圖像目標識別所涉及的關(guān)鍵技術(shù)與難點。
② 詳細分析了人類視網(wǎng)膜感知外部環(huán)境的信息處理機制,提出了一種空間可變分辨率的自然圖像處理方法。在人類的視覺感知過程中,視網(wǎng)膜成像的分辨率隨著注視點空間位置的變化而不同。依據(jù)這一生物事實,本書模擬了人類視覺系統(tǒng)視網(wǎng)膜的感知機制。所提出的自然圖像顯著性處理方法在海量圖像數(shù)據(jù)的遠程傳輸以及基于圖像的遠程目標識別中具有較高的應用價值。
③ 受生物視覺初級視皮層(V1)環(huán)境感知機制的啟發(fā),提出了一種以gabor積分模塊為核心的自然圖像目標輪廓提取模型與方法,以復雜背景的自然圖像為處理對象,驗證了用該方法提取自然圖像顯著性輪廓特征的可行性與優(yōu)越性。
④ 受視覺“what pathway”信息處理機制的啟發(fā),提出了一種基于感知不變性特征的自然場景目標識別模型與方法。該方法通過有效提取目標的感知不變性特征與可塑性學習實現(xiàn)自然場景的目標識別。實驗結(jié)果表明,該方法能有效地分類識別出自然場景中建筑物、樹、天空、道路、行人、汽車以及自行車等典型目標,并具有較強的魯棒性和較高的識別率。
⑤ 受認知心理學有關(guān)研究的啟發(fā),分析了傳統(tǒng)流形認知方法(LLE)在特征學習以及分類識別中的不足,對傳統(tǒng)的 LLE 方法進行了一種有監(jiān)督的擴展。該方法在基于自然圖像的數(shù)字手寫體識別實驗中,具有較高的正確識別率。
⑥ 針對自然圖像數(shù)據(jù)的非高斯分布特性,對一種自主心智發(fā)育認知方法進行了改進,即在傳統(tǒng)的發(fā)育方法(HDR)上,提出一種基于獨立成分特征空間的分級判別回歸樹(ICS-HDR)。將改進后的方法用于人臉自然圖像的身份識別和機器人導航時障礙物方向判斷。實驗結(jié)果表明,該方法在識別率和消耗時間上都具有一定的優(yōu)越性。
⑦ 受簡單視覺細胞以及非經(jīng)典感受野的聯(lián)合啟發(fā),本部分將前述的神經(jīng)信息計算方法用于視頻圖像的處理。結(jié)合視頻動態(tài)行為分析的難點,本書提出的方法能較好地挖掘出視頻信息中的動態(tài)行為能量特征,其反應現(xiàn)象與人類大腦特征具有一致性。實驗結(jié)果表明,該方法通過計算視頻幀的能量,能較好地辨識出視頻中的動態(tài)行為,在基于視頻的公共安防領(lǐng)域中有重要的應用價值。由于篇幅限制,特將此部分通過論文形式附在書后,以供參閱。
李作進
2016年2月
[1] 自然圖像是一個沒有準確定義的概念,是科學家為了研究人對所觀察的外部環(huán)境產(chǎn)生的一些視覺神經(jīng)反應而提出的。從信息獲取角度來看,自然圖像就是人類視覺系統(tǒng)能觀測到的信息或者機器所采集到的自然環(huán)境信息。因此,用計算機模擬或仿真自然環(huán)境下某些視覺功能時所處理的對象就是自然圖像。