網(wǎng)絡(luò)智能化中的深度強(qiáng)化學(xué)習(xí)技術(shù)
隨著人工智能技術(shù)的廣泛應(yīng)用,網(wǎng)絡(luò)智能化近年來受到廣泛的關(guān)注,已經(jīng)成為下一代移動通信與未來網(wǎng)絡(luò)的重要技術(shù)。阿爾法圍棋(AlphaGo)之后,深度強(qiáng)化學(xué)習(xí)不斷推陳出新,為網(wǎng)絡(luò)中的決策問題提供了有效的潛在解決方案。本書系統(tǒng)介紹了網(wǎng)絡(luò)智能化中深度強(qiáng)化學(xué)習(xí)的基本理論、算法及應(yīng)用場景。全書共8章,針對互聯(lián)網(wǎng)、移動通信網(wǎng)、邊緣網(wǎng)絡(luò)、數(shù)據(jù)中心等典型網(wǎng)絡(luò),闡述了網(wǎng)絡(luò)管理、網(wǎng)絡(luò)控制、任務(wù)調(diào)度等決策需求,深入論述了深度強(qiáng)化學(xué)習(xí)的模型構(gòu)建與應(yīng)用技術(shù)。第1章介紹了網(wǎng)絡(luò)智能的需求與挑戰(zhàn);第2章介紹了先進(jìn)的深度強(qiáng)化學(xué)習(xí)模型與方法;第3~6章論述了無線接入優(yōu)化、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)控制與任務(wù)調(diào)度等普遍網(wǎng)絡(luò)管控任務(wù)中,深度強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用方法;第7章和第8章論述了深度強(qiáng)化學(xué)習(xí)在流媒體控制以及自組織網(wǎng)絡(luò)等典型場景中的新研究進(jìn)展。
本書可為高等院校計(jì)算機(jī)和通信相關(guān)專業(yè)的本科生、研究生提供參考,也可供對網(wǎng)絡(luò)智能化與深度強(qiáng)化學(xué)習(xí)領(lǐng)域感興趣的研究人員和工程技術(shù)人員參考。
1.專家力作,內(nèi)容嚴(yán)謹(jǐn)。作者來自于北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室網(wǎng)絡(luò)智能研究中心,長期從事網(wǎng)絡(luò)智能化、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、邊緣智能等方向的前沿研究工作,發(fā)表高水平國際前沿論文70余篇。
2.內(nèi)容豐富,知識系統(tǒng)。網(wǎng)絡(luò)智能化已在學(xué)術(shù)界和工業(yè)界均得到廣泛關(guān)注,本書內(nèi)容屬于移動通信網(wǎng)以及未來網(wǎng)絡(luò)的重要方向。本書系統(tǒng)介紹了網(wǎng)絡(luò)智能化中深度強(qiáng)化學(xué)習(xí)的基本理論、算法及應(yīng)用場景。
3.總結(jié)前沿成果,注重實(shí)踐應(yīng)用。本書將前沿學(xué)術(shù)成果以系統(tǒng)、模型、方法的角度進(jìn)行闡述,關(guān)注網(wǎng)絡(luò)問題場景以及深度強(qiáng)化學(xué)習(xí)方法的原理,便于讀者深入了解深度強(qiáng)化學(xué)習(xí)方法在網(wǎng)絡(luò)智能中的應(yīng)用。
戚琦,博士,網(wǎng)絡(luò)與交換國家重點(diǎn)實(shí)驗(yàn)室副教授、碩士生導(dǎo)師、博士生導(dǎo)師。長期從事業(yè)務(wù)網(wǎng)絡(luò)智能化和移動云計(jì)算方向的科研工作,近年來重點(diǎn)關(guān)注深度強(qiáng)化學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、輕量化神經(jīng)網(wǎng)絡(luò)等方面的前沿研究,取得了知識定義網(wǎng)絡(luò)、邊緣智能、手部姿態(tài)估計(jì)、草圖檢索等一系列研究成果。發(fā)表高水平學(xué)術(shù)論文70余篇,SCI索引期刊論文40余篇。先后主持2項(xiàng)國家自然科學(xué)基金目,1項(xiàng)北京市自然科學(xué)基金,3項(xiàng)基地自主科研項(xiàng)目,以及多項(xiàng)企事業(yè)單位合作項(xiàng)目,作為主研人承擔(dān)重點(diǎn)研發(fā)計(jì)劃、創(chuàng)新團(tuán)隊(duì)、創(chuàng)新群體、973等多個(gè)國家及省部級重大項(xiàng)目。
第 1章 網(wǎng)絡(luò)智能概述 1
1.1 概述 2
1.1.1 網(wǎng)絡(luò)架構(gòu)的持續(xù)演進(jìn) 2
1.1.2 網(wǎng)絡(luò)管理與控制的挑戰(zhàn) 3
1.1.3 網(wǎng)絡(luò)智能的興起 4
1.2 網(wǎng)絡(luò)智能的基礎(chǔ) 7
1.2.1 大數(shù)據(jù) 7
1.2.2 算力支持 7
1.2.3 集中式控制 9
1.3 網(wǎng)絡(luò)智能的現(xiàn)狀 10
1.3.1 意圖網(wǎng)絡(luò) 10
1.3.2 自動駕駛網(wǎng)絡(luò) 12
1.3.3 知識定義網(wǎng)絡(luò) 14
1.3.4 標(biāo)準(zhǔn)化工作 17
1.4 網(wǎng)絡(luò)智能的實(shí)現(xiàn)途徑 18
1.4.1 監(jiān)督學(xué)習(xí) 18
1.4.2 無監(jiān)督學(xué)習(xí) 20
1.4.3 強(qiáng)化學(xué)習(xí) 21
1.5 網(wǎng)絡(luò)智能的愿景與挑戰(zhàn) 22
1.5.1 網(wǎng)絡(luò)智能的愿景 22
1.5.2 網(wǎng)絡(luò)智能的挑戰(zhàn) 24
參考文獻(xiàn) 25
第 2章 深度強(qiáng)化學(xué)習(xí)方法 29
2.1 強(qiáng)化學(xué)習(xí)方法概述 30
2.1.1 馬爾可夫決策過程 30
2.1.2 多臂賭博機(jī) 32
2.1.3 蒙特卡洛樹搜索與時(shí)間差分方法 33
2.1.4 值迭代與策略迭代 35
2.2 深度強(qiáng)化學(xué)習(xí) 37
2.2.1 深度Q網(wǎng)絡(luò) 38
2.2.2 策略梯度方法 40
2.2.3 策略梯度單調(diào)提升優(yōu)化算法 44
2.2.4 最大熵算法 50
2.3 多智能體強(qiáng)化學(xué)習(xí) 52
2.3.1 獨(dú)立強(qiáng)化學(xué)習(xí)及其涌現(xiàn)行為分析 53
2.3.2 多智能體通信 55
2.3.3 多智能體合作機(jī)制 56
2.3.4 多智能體建模與策略推斷 59
2.4 分層強(qiáng)化學(xué)習(xí) 61
2.5 遷移強(qiáng)化學(xué)習(xí) 64
2.5.1 遷移強(qiáng)化學(xué)習(xí)框架 65
2.5.2 根據(jù)遷移設(shè)置的分類 66
2.5.3 根據(jù)遷移知識類型的分類 67
2.5.4 根據(jù)遷移目標(biāo)的分類 68
2.6 多任務(wù)強(qiáng)化學(xué)習(xí) 69
2.6.1 多任務(wù)學(xué)習(xí)基本概念 69
2.6.2 多任務(wù)強(qiáng)化學(xué)習(xí) 70
2.6.3 基于多任務(wù)學(xué)習(xí)的遷移強(qiáng)化學(xué)習(xí) 71
2.7 逆強(qiáng)化學(xué)習(xí) 73
2.8 分布式強(qiáng)化學(xué)習(xí) 75
參考文獻(xiàn) 77
第3章 基于強(qiáng)化學(xué)習(xí)的無線接入優(yōu)化 81
3.1 多信道無線接入 81
3.1.1 多信道無線接入概述 82
3.1.2 基于DRL的動態(tài)多信道無線接入 83
3.1.3 異構(gòu)無線網(wǎng)絡(luò)的多信道接入 87
3.2 異構(gòu)無線網(wǎng)絡(luò)的調(diào)制和編碼 91
3.2.1 調(diào)制和編碼問題概述 91
3.2.2 基于DRL的調(diào)制和編碼 93
3.3 基站自適應(yīng)能量控制 99
3.3.1 基站自適應(yīng)能量控制內(nèi)容概述 99
3.3.2 基站自適應(yīng)能量控制問題引入 100
3.3.3 基于DRL的自適應(yīng)能量控制 100
參考文獻(xiàn) 105
第4章 基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)管理 108
4.1 智能服務(wù)編排 108
4.1.1 NFV的資源配置 108
4.1.2 服務(wù)功能鏈映射 110
4.1.3 服務(wù)功能鏈選路 117
4.1.4 無線網(wǎng)絡(luò)VNF的資源編排 122
4.2 智能網(wǎng)絡(luò)切片 124
4.2.1 網(wǎng)絡(luò)切片的需求與概念 124
4.2.2 網(wǎng)絡(luò)切片的資源管理 127
4.2.3 無線接入網(wǎng)切片 128
4.2.4 核心網(wǎng)切片 133
參考文獻(xiàn) 136
第5章 基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)控制 141
5.1 智能路由控制 141
5.1.1 時(shí)間相關(guān)QoS的路由控制 143
5.1.2 邊緣網(wǎng)絡(luò)路由控制 147
5.1.3 帶緩存的DCN路由控制 151
5.2 智能擁塞控制 158
5.2.1 多路徑TCP控制 160
5.2.2 智能擁塞控制模型Aurora 164
5.3 智能流量調(diào)度 167
5.3.1 流量工程概述 168
5.3.2 智能流量調(diào)度 169
5.3.3 分布式流量調(diào)度 170
參考文獻(xiàn) 172
第6章 基于強(qiáng)化學(xué)習(xí)的任務(wù)調(diào)度 175
6.1 并行計(jì)算的任務(wù)調(diào)度 175
6.1.1 問題定義 176
6.1.2 基于RL的并行任務(wù)調(diào)度方法 177
6.1.3 基于DRL的并行任務(wù)調(diào)度方法 178
6.2 基于有向無環(huán)圖的任務(wù)調(diào)度 182
6.2.1 分布式系統(tǒng)任務(wù)模型 182
6.2.2 邊緣計(jì)算任務(wù)調(diào)度 183
6.2.3 云計(jì)算的任務(wù)調(diào)度 185
6.2.4 數(shù)據(jù)處理集群的任務(wù)調(diào)度 188
6.3 混合任務(wù)調(diào)度 192
6.3.1 多類型任務(wù)調(diào)度 192
6.3.2 任務(wù)調(diào)度相關(guān)的聯(lián)合優(yōu)化 195
參考文獻(xiàn) 198
第7章 基于強(qiáng)化學(xué)習(xí)的流媒體控制 200
7.1 超低時(shí)延的流媒體傳輸 201
7.1.1 超低時(shí)延的流媒體傳輸框架 201
7.1.2 碼率自適應(yīng)算法 204
7.1.3 基于強(qiáng)化學(xué)習(xí)的超低時(shí)延傳輸算法 206
7.2 個(gè)性化的流媒體傳輸 210
7.2.1 個(gè)性化用戶體驗(yàn) 210
7.2.2 基于強(qiáng)化學(xué)習(xí)的個(gè)性化QoE設(shè)計(jì) 212
7.3 新場景下的流媒體傳輸展望 214
參考文獻(xiàn) 215
第8章 基于強(qiáng)化學(xué)習(xí)的自組織網(wǎng)絡(luò) 218
8.1 網(wǎng)聯(lián)自動駕駛 218
8.1.1 車載通信任務(wù) 218
8.1.2 車載資源分配 221
8.2 無人機(jī)網(wǎng)絡(luò)概述 226
8.2.1 無人機(jī)通信資源調(diào)度 227
8.2.2 無人機(jī)公平效率覆蓋 231
8.2.3 無人機(jī)傳感數(shù)據(jù)收集 235
參考文獻(xiàn) 238
名詞索引 241