本書從人類個(gè)體行為的三類常見形式肢體動(dòng)作、面部表情、言語話音入手,開展了個(gè)體行為的機(jī)器捕捉及識(shí)別理解的相關(guān)研究,闡述了實(shí)施行為捕捉的傳感空間、進(jìn)行行為識(shí)別的理論基礎(chǔ)及實(shí)現(xiàn)行為識(shí)別的智能系統(tǒng)框架,提出了相關(guān)的算法策略及模型,并提供了相應(yīng)的研究結(jié)果。在上述研究結(jié)果基礎(chǔ)上,根據(jù)對(duì)個(gè)體行為的機(jī)器識(shí)別研究結(jié)果,提出了人機(jī)決策協(xié)同的模型及框架。
本書內(nèi)容涉及傳感器網(wǎng)絡(luò)、數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)等內(nèi)容,可供機(jī)器識(shí)別領(lǐng)域的研究者參考。
前 言
人類一直沒有停止對(duì)自身的研究和探索。通過對(duì)人體行為進(jìn)行捕捉,探究人體各類動(dòng)作行為背后的規(guī)律,不僅可以理解各類行為的真實(shí)意圖,而且可對(duì)人體的行為進(jìn)行預(yù)測(cè),并與相關(guān)對(duì)象進(jìn)行舒適自然的交流互動(dòng),為其提供優(yōu)質(zhì)的服務(wù)。如通過對(duì)服務(wù)對(duì)象聲音信號(hào)進(jìn)行捕捉,控制外部的設(shè)備;或?qū)τ脩裘娌勘砬檫M(jìn)行觀測(cè),推測(cè)用戶的情緒狀態(tài),通過播放音樂或調(diào)節(jié)燈光等方式對(duì)其情緒進(jìn)行調(diào)節(jié);或?qū)τ脩舻闹w動(dòng)作進(jìn)行捕捉,與游戲中的角色進(jìn)行互動(dòng),分析用戶的身體狀態(tài)等。
人類個(gè)體的各類行為產(chǎn)生都不是偶然的,是在受其意識(shí)支配下產(chǎn)生并完成整個(gè)過程的,并具有自發(fā)性和多變性的特點(diǎn):每個(gè)人的行為都由其內(nèi)在的個(gè)性動(dòng)因驅(qū)使形成,外在環(huán)境因素可以影響個(gè)體行為的方向與強(qiáng)度,卻不能發(fā)動(dòng)個(gè)體行為;個(gè)體行為不僅存在多種表現(xiàn)形式,而且會(huì)隨環(huán)境變化或個(gè)體追求目標(biāo)的變化而改變;個(gè)體行為的表現(xiàn)是多類外部因素與自身狀態(tài)綜合作用下的結(jié)果。個(gè)體行為表現(xiàn)形式多樣、動(dòng)因復(fù)雜,對(duì)進(jìn)行人體行為的分析理解帶來了困難,但在紛繁復(fù)雜的動(dòng)因和行為表現(xiàn)中,個(gè)體行為也會(huì)表現(xiàn)出一定的規(guī)律性,國內(nèi)外已有許多學(xué)者嘗試對(duì)個(gè)體行為的內(nèi)在規(guī)律進(jìn)行探索研究,但個(gè)體行為的數(shù)據(jù)集非常龐大,且同一類個(gè)體行為對(duì)應(yīng)的外部條件無法再現(xiàn),目前還沒有一套進(jìn)行個(gè)體行為分析識(shí)別的成熟完整的理論體系。
雖然利用機(jī)器進(jìn)行個(gè)體行為識(shí)別的工作煩瑣復(fù)雜,但仍然不能減少研究人員對(duì)個(gè)體行為識(shí)別理解的興趣。國內(nèi)外已有許多學(xué)者、機(jī)構(gòu)分別從肢體捕捉、語音識(shí)別、語義理解、行為建模、表情理解、習(xí)慣建模等多個(gè)方面開展個(gè)體行為的識(shí)別研究,在許多領(lǐng)域取得了良好的結(jié)果。例如,在語音識(shí)別領(lǐng)域,識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了97.5%;在肢體動(dòng)作捕捉領(lǐng)域,基于圖像的動(dòng)作捕捉方法能夠獲得100Hz的刷新率,并能實(shí)現(xiàn)對(duì)36 類肢體動(dòng)作行為的準(zhǔn)確分類。隨著越來越多的科研人員對(duì)人體行為研究感興趣,基于機(jī)器的個(gè)體行為理解相關(guān)研究一定會(huì)取得更大的發(fā)展。
綜合目前的進(jìn)展和成果總結(jié),進(jìn)行個(gè)體行為研究需要完成以下工作:行為數(shù)據(jù)的傳感與采集、數(shù)據(jù)采樣后的分析處理、行為數(shù)據(jù)的特征提取與行為分類模型的選擇。本書根據(jù)作者自身理解,結(jié)合已經(jīng)完成的研究經(jīng)歷,對(duì)進(jìn)行個(gè)體行為識(shí)別研究涉及的傳感方法、理論基礎(chǔ)、軟件框架進(jìn)行闡述。
個(gè)體行為的表現(xiàn)形式主要?dú)w結(jié)于以下幾類:肢體動(dòng)作、聲音語言、面部表情等,而在上述幾類行為中又包含了個(gè)體的行為習(xí)慣、內(nèi)在情感等因素,前者是個(gè)體行為的外在表現(xiàn),后者則是個(gè)體行為的驅(qū)動(dòng)因素。一般地,在個(gè)體行為的識(shí)別理解過程中,需要通過相關(guān)的傳感測(cè)量裝置,對(duì)個(gè)體的語音信號(hào)、肢體動(dòng)作、面部表情等進(jìn)行測(cè)量捕捉,獲得個(gè)體行為過程的大量原始數(shù)據(jù),然后,選擇相關(guān)的樣本特征和分析模型,獲得對(duì)個(gè)體行為的內(nèi)在因素及行為意圖的準(zhǔn)確理解。
陳鵬展,博士,副教授,2010年畢業(yè)于華中科技大學(xué),主要研究方向?yàn)槿梭w行為識(shí)別與協(xié)同控制、復(fù)雜網(wǎng)絡(luò)集成及智能輔助駕駛,先后主持完成了多項(xiàng)國家級(jí)、省部級(jí)課題,多項(xiàng)研究成果被轉(zhuǎn)化并得到廣泛應(yīng)用,在國內(nèi)外相關(guān)學(xué)術(shù)期刊上發(fā)表50余篇學(xué)術(shù)論文,其中已有10余篇被SCI、EI檢索。
目 錄
第1 章 緒論
1.1 個(gè)體行為的定義及特征
1.1.1 行為的表現(xiàn)形式
1.1.2 行為的時(shí)空特性
1.1.3 行為的層次結(jié)構(gòu)
1.2 個(gè)體行為的影響因素
1.2.1 環(huán)境因素
1.2.2 習(xí)慣因素
1.2.3 生理狀態(tài)
1.3 人體行為的分類
1.3.1 肢體行為分類
1.3.2 情緒狀態(tài)分類
1.4 行為識(shí)別的研究意義與進(jìn)展
1.4.1 行為識(shí)別的應(yīng)用領(lǐng)域
1.4.2 行為識(shí)別的科學(xué)價(jià)值
1.4.3 行為識(shí)別的研究進(jìn)展
參考文獻(xiàn)
第2 章 個(gè)體行為的獲取與監(jiān)測(cè)
2.1 視覺獲取方法
2.1.1 有標(biāo)記視覺獲取
2.1.2 無標(biāo)記視覺獲取
2.2 可穿戴傳感器獲取
2.2.1 生物傳感器獲取
2.2.2 慣性傳感器獲取
2.3 非穿戴監(jiān)測(cè)方法
2.3.1 聲音信號(hào)監(jiān)測(cè)
2.3.2 電容場信號(hào)監(jiān)測(cè)
2.3.3 電子標(biāo)簽監(jiān)測(cè)
2.4 行為獲取系統(tǒng)框架
參考文獻(xiàn)
第3 章 行為識(shí)別的理論依據(jù)
3.1 行為數(shù)據(jù)的處理
3.1.1 數(shù)據(jù)濾波
3.1.2 數(shù)據(jù)分割
3.2 行為數(shù)據(jù)的特征選擇及提取
3.2.1 主分量分析
3.2.2 獨(dú)立分量選擇
3.2.3 核函數(shù)的方法
3.2.4 特征選擇算法
3.3 行為的分類工具
3.3.2 決策樹
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)
3.3.4 支持向量機(jī)
3.4 識(shí)別過程中的信息融合
3.4.1 多數(shù)投票法
3.4.2 貝葉斯理論的分類器融合
3.4.3 基于證據(jù)理論的分類器融合
參考文獻(xiàn)
第4 章 行為識(shí)別系統(tǒng)的系統(tǒng)平臺(tái)
4.1 行為識(shí)別系統(tǒng)的結(jié)構(gòu)
4.2 行為識(shí)別系統(tǒng)中的任務(wù)分配
4.2.1 視頻讀取與預(yù)處理的實(shí)現(xiàn)
4.2.2 行為識(shí)別系統(tǒng)訓(xùn)練過程的實(shí)現(xiàn)
4.2.3 行為識(shí)別系統(tǒng)特征可視化的實(shí)現(xiàn)
4.2.4 行為識(shí)別系統(tǒng)識(shí)別過程的實(shí)現(xiàn)
4.3 行為識(shí)別的軟件環(huán)境
4.3.1 計(jì)算機(jī)視覺庫OpenCV
4.3.2 跨平臺(tái)用戶界面框架QT
4.3.3 行為識(shí)別系統(tǒng)軟件框架
4.4 行為識(shí)別系統(tǒng)的系統(tǒng)平臺(tái)
4.4.1 微軟Azure machine learning 平臺(tái)
4.4.2 谷歌TensorFlow 平臺(tái)
參考文獻(xiàn)
第5 章 語言識(shí)別及情感分析
5.1 語言中的文字識(shí)別
5.1.1 語音信號(hào)預(yù)處理
5.1.2 語音識(shí)別的特征提取
5.1.3 文字識(shí)別模型及系統(tǒng)
5.2 基于語言文本的情感識(shí)別
5.2.1 文本數(shù)據(jù)信息抽取
5.2.2 文本內(nèi)容的分類與聚類
5.3 基于語音信號(hào)的情感識(shí)別
5.3.1 基于改進(jìn)KNN 算法的語音情感識(shí)別
5.3.2 基于微軟Azure 平臺(tái)的語音情感識(shí)別
參考文獻(xiàn)
第6 章 肢體動(dòng)作捕捉及行為識(shí)別
6.1 手勢(shì)捕捉及識(shí)別
6.1.1 手勢(shì)捕捉的特點(diǎn)
6.1.2 基于視覺的手勢(shì)識(shí)別
6.1.3 基于慣性傳感的手勢(shì)捕捉
6.2 肢體動(dòng)作捕捉
6.2.1 基于視覺的肢體動(dòng)作捕捉
6.2.2 基于慣性傳感的肢體動(dòng)作捕捉
6.3 肢體行為的行為識(shí)別
6.3.1 手語識(shí)別
6.3.2 肢體動(dòng)作行為識(shí)別
參考文獻(xiàn)
第7 章 面部特征識(shí)別與表情理解
7.1 面部的精確定位
7.1.1 膚色混合高斯模型
7.1.2 光線補(bǔ)償
7.1.3 膚色區(qū)域檢測(cè)
7.1.4 肌肉紋理
7.1.5 嘴唇定位
7.1.6 眉毛檢測(cè)
7.2 面部圖像濾波及歸一化
7.2.1 面部圖像濾波
7.2.2 面部圖像歸一化
7.3 面部表情的疲勞狀態(tài)檢測(cè)
7.3.1 疲勞狀態(tài)面部特征
7.3.2 疲勞程度判斷
7.3.3 基于粗糙集理論的疲勞狀態(tài)判斷
7.4 面部表情的情感理解
7.4.1 面部情感類別及標(biāo)準(zhǔn)庫
7.4.2 融合LBP 及LPQ 特征的面部情感識(shí)別
參考文獻(xiàn)
第8 章 基于個(gè)體行為理解的人機(jī)協(xié)同系統(tǒng)
8.1 人機(jī)協(xié)同的基本概念
8.1.1 人機(jī)協(xié)同的定義
8.1.2 人機(jī)協(xié)同的問題
8.1.3 研究現(xiàn)狀與發(fā)展趨勢(shì)
8.2 個(gè)體行為的習(xí)慣建模
8.2.1 行為習(xí)慣認(rèn)知及意義
8.2.2 個(gè)體行為習(xí)慣挖掘的相關(guān)工作
8.2.3 個(gè)體行為習(xí)慣模式
8.2.4 基于個(gè)體行為習(xí)慣的人類動(dòng)力學(xué)建模
8.3 人機(jī)協(xié)同決策與推理機(jī)制
8.3.1 推理的基礎(chǔ)知識(shí)
8.3.2 人機(jī)推理對(duì)比
8.3.3 人機(jī)協(xié)同系統(tǒng)的結(jié)構(gòu)特征與推理機(jī)制
8.4 人本控制系統(tǒng)架構(gòu)
8.5 人機(jī)協(xié)同系統(tǒng)案例
8.5.1 沃森簡介
8.5.2 沃森的工作機(jī)制
8.5.3 沃森醫(yī)生腫瘤專家顧問專家系統(tǒng)
8.5.4 沃森醫(yī)生與人類醫(yī)生共同協(xié)作
參考文獻(xiàn)