定 價:180 元
叢書名:新一代人工智能理論、技術(shù)及應用叢書
- 作者:譚營
- 出版時間:2024/12/1
- ISBN:9787030810793
- 出 版 社:科學出版社
- 中圖法分類:TP24
- 頁碼:320
- 紙張:
- 版次:1
- 開本:B5
本書是系統(tǒng)介紹群體機器人協(xié)同概念、方法、算法及應用的綜合性專業(yè)書籍。首先介紹群體機器人協(xié)同的基本概念、特點及其發(fā)展歷程。其次詳細介紹群體機器人協(xié)同算法,尤其是群體機器人多目標搜索問題,作者針對該問題提出多種高效的群體機器人多目標搜索策略,包含基于規(guī)則的多目標搜索策略和基于學習的多目標搜索策略。再次介紹在簡單、復雜、復合環(huán)境及開放環(huán)境中的多目標搜索方法。接著通過將多體系統(tǒng)作為群體機器人應用延拓,利用多智能體強化學習方法,解決以游戲AI為代表的復雜現(xiàn)實問題,詳細介紹復雜任務中的群體機器人協(xié)同方法和基于學習策略的群體機器人協(xié)同方法。最后介紹作者團隊開發(fā)的群體機器人模擬演示平臺。
更多科學出版社服務,請掃碼獲取。
目錄
“新一代人工智能理論、技術(shù)及應用叢書”序
前言
第1章 緒論 1
1.1 群體協(xié)同 1
1.2 群體機器人的定義和特征 4
1.2.1 群體機器人的定義 4
1.2.2 生物群體的特性 5
1.2.3 群體機器人的特征 6
1.3 本書的組織結(jié)構(gòu) 12
參考文獻 13
第2章 群體機器人研究發(fā)展 16
2.1 群體機器人基礎(chǔ)模型 16
2.1.1 群體機器人系統(tǒng)模型 16
2.1.2 群體機器人協(xié)作方式 21
2.2 群體機器人協(xié)同方法 22
2.2.1 早期的群體機器人算法 23
2.2.2 群體機器人基礎(chǔ)任務 24
2.2.3 現(xiàn)有的群體機器人算法 31
2.3 群體機器人模擬平臺與實體項目 35
2.3.1 模擬平臺 36
2.3.2 實體項目 38
2.4 群體機器人研究現(xiàn)狀分析 40
2.5 群體機器人多目標搜索的研究意義 41
參考文獻 42
第3章 群體機器人多目標搜索問題 52
3.1 多目標搜索問題的建模與分析 53
3.1.1 問題模型的相關(guān)工作 53
3.1.2 問題假設(shè)與理想化模型 54
3.1.3 問題的近似數(shù)學模型與分析 56
3.2 搜索策略性能的衡量指標 58
3.3 群體機器人多目標搜索策略的研究現(xiàn)狀 60
3.3.1 群體機器人的三階段搜索框架 61
3.3.2 啟發(fā)自群體智能算法的多目標搜索策略 63
3.3.3 啟發(fā)自隨機搜索策略的多目標搜索策略 64
3.3.4 動態(tài)目標追蹤問題與彈簧虛擬力算法 65
3.3.5 本節(jié)小結(jié) 74
3.4 本章小結(jié) 75
參考文獻 76
第4章 基于規(guī)則的多目標搜索策略 79
4.1 基準設(shè)定與問題特征 79
4.1.1 關(guān)于基準策略的探討 79
4.1.2 多目標搜索問題的特征 80
4.2 分組爆炸策略 82
4.2.1 分組爆炸策略概述 83
4.2.2 組內(nèi)協(xié)同 84
4.2.3 拆分較大分組 85
4.2.4 利用歷史信息 87
4.2.5 速度更新式 87
4.2.6 本節(jié)小結(jié) 88
4.3 改進的分組爆炸策略 88
4.3.1 分組爆炸策略的不足 88
4.3.2 改進的分組爆炸策略概述 89
4.3.3 算法的收斂性 92
4.3.4 參數(shù)優(yōu)化 93
4.3.5 本節(jié)小結(jié) 94
4.4 三角編隊搜索策略 94
4.4.1 TFS策略的五個階段 95
4.4.2 TFS策略實現(xiàn)的關(guān)鍵技術(shù) 96
4.4.3 本節(jié)小結(jié) 99
4.5 獨立搜索策略 99
4.5.1 廣域搜索階段的隨機搜索策略 100
4.5.2 細化搜索階段的三角梯度估計 100
4.5.3 慣性機制 100
4.5.4 本節(jié)小結(jié) 101
4.6 基于概率有限狀態(tài)機的搜索策略 101
4.6.1 研究動機 101
4.6.2 基于概率有限狀態(tài)機的搜索策略概述 105
4.6.3 參數(shù)優(yōu)化 107
4.6.4 本節(jié)小結(jié) 110
4.7 實驗結(jié)果與討論 110
4.7.1 對比算法及其配置 110
4.7.2 不同群體規(guī)模下的對比實驗 111
4.7.3 不同目標數(shù)量下的對比實驗 116
4.7.4 不同目標收集次數(shù)下的對比實驗 119
4.7.5 各種對比策略搜索效率的排名 122
4.8 本章小結(jié) 122
參考文獻 123
第5章 基于學習的多目標搜索策略 125
5.1 基于深度學習和進化計算的策略設(shè)計 125
5.1.1 研究動機 125
5.1.2 基于深度學習的搜索策略學習 128
5.1.3 基于進化計算的搜索策略學習 131
5.1.4 實驗結(jié)果與討論 133
5.1.5 本節(jié)小結(jié) 141
5.2 基于強化學習的搜索策略設(shè)計 142
5.2.1 強化學習的基礎(chǔ)理論 142
5.2.2 值函數(shù)逼近 143
5.2.3 基于神經(jīng)網(wǎng)絡值函數(shù)逼近的強化學習避障算法 143
5.2.4 實驗結(jié)果與討論 151
5.2.5 本節(jié)小結(jié) 154
5.3 本章小結(jié) 154
參考文獻 154
第6章 簡單環(huán)境限制下的多目標搜索 157
6.1 在環(huán)境中引入簡單限制條件 157
6.2 障礙物限制下的多目標搜索方法 159
6.2.1 問題描述 159
6.2.2 應對策略 159
6.2.3 實驗結(jié)果與討論 160
6.3 干擾源限制下的多目標搜索方法 161
6.3.1 問題描述 161
6.3.2 實驗結(jié)果與討論 162
6.4 假目標限制下的多目標搜索方法 164
6.4.1 問題描述 164
6.4.2 應對策略 165
6.4.3 實驗結(jié)果與討論 168
6.5 多種環(huán)境限制下的多目標搜索方法 172
6.5.1 障礙物和干擾源限制下的多目標搜索方法 172
6.5.2 障礙物和假目標限制下的多目標搜索方法 173
6.6 本章小結(jié) 174
第7章 復雜環(huán)境限制下的多目標搜索 175
7.1 引入能量和感知限制的多目標搜索方法 175
7.1.1 問題描述 175
7.1.2 方向選擇算法 178
7.1.3 實驗設(shè)置 185
7.1.4 實驗結(jié)果與討論 187
7.1.5 本節(jié)小結(jié) 193
7.2 復合環(huán)境中的多目標搜索方法 193
7.2.1 群體規(guī)模 194
7.2.2 目標數(shù)量 195
7.2.3 障礙物數(shù)量 196
7.2.4 干擾源數(shù)量 196
7.2.5 假目標數(shù)量 197
7.2.6 目標適應度值上限 198
7.2.7 環(huán)境噪聲 199
7.2.8 算法的時間性能和成功次數(shù) 200
7.3 開放環(huán)境中的多目標搜索方法 201
7.3.1 問題描述 201
7.3.2 實驗設(shè)定及假設(shè) 202
7.3.3 自適應分布控制 203
7.3.4 實驗結(jié)果與討論 207
7.4 本章小結(jié) 211
參考文獻 212
第8章 復雜任務中的群體機器人協(xié)同方法 214
8.1 多智能體系統(tǒng) 214
8.2 強化學習 215
8.2.1 問題描述 215
8.2.2 值函數(shù)與貝爾曼方程 216
8.2.3 探索與利用的權(quán)衡 216
8.2.4 時序差分學習 217
8.2.5 多步自舉 217
8.2.6 策略優(yōu)化 218
8.3 深度強化學習 219
8.3.1 深度強化學習的歷史發(fā)展 219
8.3.2 深度 Q 學習算法 220
8.3.3 深度確定性策略梯度算法 223
8.3.4 深度強化學習的應用 224
8.4 多智能體強化學習 224
8.4.1 隨機博弈建模 225
8.4.2 多智能體強化學習的挑戰(zhàn) 226
8.4.3 傳統(tǒng)的多智能體強化學習算法 226
8.4.4 多智能體深度強化學習 227
8.5 強化學習在游戲智能中的應用 229
8.6 本章小結(jié) 231
參考文獻 231
第9章 基于學習策略的群體機器人協(xié)同方法 239
9.1 基于注意力機制的多智能體強化學習狀態(tài)表示方法 239
9.1.1 多智能體強化學習中的特征聚合方法 240
9.1.2 圖視角下的多智能體狀態(tài)表示學習 241
9.1.3 注意力關(guān)聯(lián)編碼器 241
9.1.4 實驗結(jié)果與討論 246
9.1.5 ARE 的優(yōu)缺點 252
9.1.6 本節(jié)小結(jié) 252
9.2 基于協(xié)同隱空間的多智能體強化學習探索方法 253
9.2.1 強化學習中的探索 253
9.2.2 基于低維協(xié)同隱空間的多智能體探索 254
9.2.3 實驗結(jié)果與討論 259
9.2.4 本節(jié)小結(jié) 262
9.3 基于多智能體強化學習的多分支集成策略網(wǎng)絡 262
9.3.1 基于多智能體強化學習的多分支集成策略網(wǎng)絡概述 264
·xii· 群體機器人協(xié)同方法
9.3.2 實驗結(jié)果與討論 267
9.3.3 本節(jié)小結(jié) 272
9.4 基于互引導Actor-Critic的多智能體高效動作探索 273
9.4.1 個體-全局-最大值約束 274
9.4.2 個體-全局-最大值約束的不可分解性問題 275
9.4.3 基于互引導的多智能體行動者-評論家算法 277
9.4.4 實驗結(jié)果與討論 279
9.4.5 本節(jié)小結(jié) 283
9.5 雙信道多智能體通信方法 283
9.5.1 雙信道多智能體通信方法概述 284
9.5.2 實驗結(jié)果與討論 285
9.5.3 本節(jié)小結(jié) 288
9.6 基于有向圖結(jié)構(gòu)的通信代價約減方法 288
9.6.1 簡介 288
9.6.2 模型 288
9.6.3 實驗結(jié)果與討論 290
9.6.4 本節(jié)小結(jié) 293
9.7 基于預測性貢獻度量的多智能體系統(tǒng)信用分配方法 293
9.7.1 多智能體近端策略優(yōu)化算法 294
9.7.2 預測性貢獻度量 294
9.7.3 PC-MAPPO算法 296
9.7.4 實驗結(jié)果與討論 297
9.7.5 本節(jié)小結(jié) 301
9.8 本章小結(jié) 301
參考文獻 302
第10章 群體機器人模擬平臺 304
10.1 模擬平臺 304
10.1.1 核心算法模塊 304
10.1.2 三維演示模塊 306
10.1.3 并行測試模塊 307
10.2 機器人鄰域的快速計算 308
10.2.1 問題背景 308
10.2.2 索引K-D樹 309
10.2.3 利用索引K-D樹進行鄰域計算 312
10.2.4 實驗結(jié)果與討論 314
10.3 本章小結(jié) 316
參考文獻 316
第11章 總結(jié)與展望 318