目錄
“博士后文庫”序言
前言
第1章 緒論 1
1.1 引言 1
1.1.1 多臂機 1
1.1.2 無休多臂機 2
1.2 技術難點 4
參考文獻 4
第2章 同構兩態(tài)完美觀測多臂機:短視策略及性能 6
2.1 引言 6
2.2 系統(tǒng)模型和優(yōu)化問題 8
2.3 正則收益函數(shù) 10
2.3.1 正則收益函數(shù)定義 10
2.3.2 值函數(shù)的性質(zhì) 11
2.4 貪婪策略的優(yōu)化性 14
2.5 最優(yōu)性條件應用 16
2.5.1 應用1 16
2.5.2 應用2 17
2.5.3 應用3 17
2.6 引理證明 18
2.6.1 引理2.9的證明 18
2.6.2 引理2.5~引理2.7的證明 18
2.7 本章小結(jié) 24
參考文獻 24
第3章 同構兩態(tài)完美觀測多臂機:第二高策略及性能 26
3.1 引言 26
3.2 系統(tǒng)模型和優(yōu)化問題 27
3.2.1 系統(tǒng)模型 27
3.2.2 決策問題及策略 29
3.2.3 動機 30
3.3 偽值函數(shù) 31
3.4 優(yōu)化性分析 32
3.4.1 正相關信道(λ.0) 32
3.4.2 奇數(shù)K的負相關信道(λ<0) 35
3.4.3 偶數(shù)K的負相關信道(λ<0) 36
3.5 優(yōu)化性擴展 36
3.5.1 探測多個信道 36
3.5.2 探測兩個信道訪問其中一個信道 36
3.6 仿真實驗 36
3.6.1 正相關信道(λ.0) 37
3.6.2 負相關信道(λ<0) 38
3.7 引理證明 39
3.7.1 引理3.2的證明 39
3.7.2 引理3.3的證明 43
3.7.3 引理3.4的證明 46
3.8 本章小結(jié) 50
參考文獻 50
第4章 同構兩態(tài)非完美觀測多臂機:短視策略及性能 52
4.1 引言 52
4.1.1 機會譜訪問 52
4.1.2 無休多臂機及短視策略 52
4.2 系統(tǒng)模型和優(yōu)化問題 53
4.2.1 系統(tǒng)模型 53
4.2.2 無休多臂機模型 54
4.2.3 短視策略和正則收益 55
4.3 短視策略優(yōu)化性分析 56
4.3.1 符號說明 56
4.3.2 輔助值函數(shù)及屬性 58
4.3.3 短視策略優(yōu)化性 60
4.4 分析討論 62
4.5 引理證明 63
4.5.1 引理4.5的證明 63
4.5.2 引理4.6的證明 64
4.5.3 引理4.7的證明 67
4.5.4 引理4.8~引理4.10的證明 69
4.6 本章小結(jié) 77
參考文獻 77
第5章 同構兩態(tài)非完美觀測多臂機:第二高策略及性能 79
5.1 引言 79
5.2 系統(tǒng)模型和優(yōu)化問題 79
5.2.1 系統(tǒng)模型 79
5.2.2 混合尺度決策問題 81
5.3 小尺度與大尺度問題 82
5.3.1 小尺度決策 82
5.3.2 大尺度決策 85
5.3.3 啟發(fā)式策略 86
5.4 優(yōu)化性分析:信道正相關(p11.p01) 86
5.4.1 偽值函數(shù) 86
5.4.2 場景ζ+.<1 86
5.4.3 場景ζ+1 89
5.5 引理5.3(.+ζ<1,λ.0)的證明 90
5.6 本章小結(jié) 99
參考文獻 99
第6章 異構兩態(tài)非完美觀測多臂機:因子策略及性能 100
6.1 引言 100
6.1.1 背景簡介 100
6.1.2 主要結(jié)果和貢獻 100
6.2 相關工作 101
6.3 系統(tǒng)模型和優(yōu)化問題 101
6.4 懷特因子及可行性簡介 104
6.5 懷特因子和調(diào)度策略 106
6.5.1 懷特因子 106
6.5.2 調(diào)度策略 108
6.5.3 技術挑戰(zhàn) 108
6.6 線性化分析:基于不動點理論 109
6.7 門限策略和伴隨動態(tài)系統(tǒng) 113
6.7.1 門限策略 113
6.7.2 伴隨動態(tài)系統(tǒng) 114
6.8 值函數(shù)線性化:信道負相關 115
6.8.1 區(qū)間1[p11,ω0)和區(qū)間2[ω0,Γ(p11)) 116
6.8.2 區(qū)間3 117
6.8.3 區(qū)間4 118
6.9 值函數(shù)線性化:信道正相關 118
6.9.1 區(qū)間n.1:[Γn(φ(p11)),Γn+1(φ(p01))) 120
6.9.2 區(qū)間n.2:[ˉωn0,Γn(φ(p11))) 121
6.9.3 區(qū)間n.4:[Γn(φ(p01)),ωn0) 123
6.9.4 區(qū)間n.3:[ωn0,ˉωn0) 124
6.9.5 區(qū)間5:[ω0,p11) 124
6.10 因子計算:信道負相關 124
6.10.1 區(qū)間1 125
6.10.2 區(qū)間2 126
6.10.3 區(qū)間3 126
6.10.4 區(qū)間4 127
6.11 因子計算:信道正相關 128
6.11.1 區(qū)間1 128
6.11.2 區(qū)間2 129
6.11.3 區(qū)間3 129
6.11.4 區(qū)間4 130
6.11.5 區(qū)間5 130
6.11.6 區(qū)間6 130
6.12 仿真實驗 131
6.12.1 懷特因子策略和優(yōu)化策略 131
6.12.2 懷特因子策略和短視策略 132
6.13 本章小結(jié) 133
參考文獻 133
第7章 異構兩態(tài)非完美觀測多臂機:前看策略及性能 136
7.1 引言 136
7.1.1 背景簡介 136
7.1.2 主要貢獻 137
7.2 系統(tǒng)模型和優(yōu)化問題 138
7.2.1 系統(tǒng)模型 138
7.2.2 優(yōu)化探測序和停止問題 139
7.2.3 停止探測決策 139
7.3 ν步前看策略 141
7.3.1 上下界 141
7.3.2 ν步前看策略的結(jié)構 142
7.3.3 ν步前看策略實現(xiàn) 143
7.3.4 低復雜性實現(xiàn):一步前看策略 144
7.4 仿真實驗 150
7.4.1 同構信道 150
7.4.2 異構信道 152
7.5 本章小結(jié) 152
參考文獻 152
第8章 同構多態(tài)完美觀測多臂機:短視策略及性能 155
8.1 引言 155
8.1.1 研究簡介 155
8.1.2 技術貢獻 156
8.2 系統(tǒng)模型和優(yōu)化問題 157
8.2.1 系統(tǒng)模型 157
8.2.2 信息態(tài) 158
8.2.3 優(yōu)化問題 159
8.2.4 短視策略和部分序 160
8.3 短視策略優(yōu)化性分析 163
8.3.1 值函數(shù)及其解耦性 163
8.3.2 狀態(tài)轉(zhuǎn)換矩陣結(jié)構屬性 164
8.3.3 短視策略優(yōu)化性 164
8.4 短視策略優(yōu)化性:擴展情況 167
8.5 案例分析 169
8.6 引理和命題證明 171
8.6.1 引理8.1的證明 171
8.6.2 命題8.3的證明 172
8.6.3 命題8.4的證明 173
8.6.4 命題8.5的證明 174
8.6.5 引理8.2的證明 175
8.6.6 命題8.6的證明 180
8.6.7 命題8.7的證明 182
8.7 本章小結(jié) 183
參考文獻 184
第9章 同構多態(tài)非完美觀測多臂機:短視策略及性能 187
9.1 引言 187
9.2 系統(tǒng)模型和優(yōu)化問題 187
9.2.1 系統(tǒng)模型 187
9.2.2 信息態(tài) 188
9.2.3 短視策略 189
9.3 短視策略優(yōu)化性分析 190
9.3.1 輔助值函數(shù)及解耦性 190
9.3.2 條件 191
9.3.3 性質(zhì) 192
9.3.4 優(yōu)化性分析 195
9.3.5 討論 197
9.4 優(yōu)化性擴展 198
9.4.1 條件 198
9.4.2 優(yōu)化性分析 199
9.4.3 擴展:調(diào)度多個信道 200
9.5 引理證明 200
9.5.1 引理9.1的證明 200
9.5.2 引理9.2的證明 202
9.6 本章小結(jié) 208
參考文獻 208
第10章 異構多態(tài)完美觀測多臂機:因子策略及性能 209
10.1 引言 209
10.1.1 相關工作 209
10.1.2 主要貢獻 210
10.2 系統(tǒng)模型和優(yōu)化問題 210
10.2.1 任務、信道和用戶模型 210
10.2.2 服務器模型 212
10.2.3 機會調(diào)度問題 212
10.3 多臂機模型及分析 212
10.3.1 任務–信道–用戶 212
10.3.2 多臂機和機會調(diào)度 213
10.4 可因子性分析和因子計算 215
10.4.1 狀態(tài)轉(zhuǎn)換矩陣和門限結(jié)構 215
10.4.2 可因子性分析 216
10.4.3 因子計算 220
10.5 可因子性擴展及調(diào)度策略 221
10.5.1 可因子性擴展 221
10.5.2 轉(zhuǎn)換矩陣近似 222
10.5.3 調(diào)度策略 222
10.6 仿真實驗 223
10.6.1 場景1 225
10.6.2 場景2 226
10.6.3 場景3 227
10.7 引理和定理證明 228
10.7.1 引理10.1的證明 228
10.7.2 引理10.2的證明 232
10.7.3 定理10.2的證明 235
10.8 本章小結(jié) 237
參考文獻 237
編后記 240