現(xiàn)場實操:Python深度強(qiáng)化學(xué)習(xí)入門:強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的搜索與控制
定 價:89 元
- 作者:伊藤多一 等
- 出版時間:2022/4/1
- ISBN:9787111700722
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:240
- 紙張:
- 版次:
- 開本:16
《Python深度強(qiáng)化學(xué)習(xí)入門:強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的搜索與控制》共7章。其中,第1章介紹了機(jī)器學(xué)習(xí)的分類、強(qiáng)化學(xué)習(xí)的學(xué)習(xí)機(jī)制以及深度強(qiáng)化學(xué)習(xí)的概念;第2章通過強(qiáng)化學(xué)習(xí)的基本概念、馬爾科夫決策過程和貝爾曼方程、貝爾曼方程的求解方法、無模型控制等介紹了強(qiáng)化學(xué)習(xí)的基本算法;第3章通過深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)介紹了強(qiáng)化學(xué)習(xí)中深度學(xué)習(xí)的特征提取方法;第4章通過行動價值函數(shù)的網(wǎng)絡(luò)表示、策略函數(shù)的網(wǎng)絡(luò)表示介紹了深度強(qiáng)化學(xué)習(xí)的實現(xiàn);第5章通過策略梯度法的連續(xù)控制、學(xué)習(xí)算法和策略模型等,詳細(xì)介紹了深度強(qiáng)化學(xué)習(xí)在連續(xù)控制問題中的應(yīng)用及具體實現(xiàn);第6章通過巡回推銷員問題和魔方問題詳細(xì)介紹了深度強(qiáng)化學(xué)習(xí)在組合優(yōu)化中的應(yīng)用及具體實現(xiàn);第7章通過SeqGAN的文本生成和神經(jīng)網(wǎng)絡(luò)的架構(gòu)搜索詳細(xì)介紹了深度強(qiáng)化學(xué)習(xí)在時間序列數(shù)據(jù)生成的應(yīng)用。在附錄中還給出了Colaboratory和Docker等深度強(qiáng)化學(xué)習(xí)開發(fā)環(huán)境的構(gòu)建。
目 錄
譯者序
原書前言
閱讀本書需要的知識基礎(chǔ)
本書的結(jié)構(gòu)
本書示例的運行環(huán)境
1.1 機(jī)器學(xué)習(xí)的分類004
1.1.1 監(jiān)督學(xué)習(xí)005
1.1.2 無監(jiān)督學(xué)習(xí)006
1.1.3 強(qiáng)化學(xué)習(xí)007
1.2 強(qiáng)化學(xué)習(xí)的學(xué)習(xí)機(jī)制008
1.3 深度強(qiáng)化學(xué)習(xí)011
2.1 強(qiáng)化學(xué)習(xí)的基本概念014
2.1.1 強(qiáng)化學(xué)習(xí)的問題設(shè)定014
2.1.2 強(qiáng)化學(xué)習(xí)的機(jī)制014
2.1.3 關(guān)于本章的內(nèi)容016
2.2 馬爾可夫決策過程和貝爾曼方程017
2.2.1 馬爾可夫決策過程017
2.2.2 貝爾曼方程020
2.3 貝爾曼方程的求解方法024
2.3.1 動態(tài)規(guī)劃法024
2.3.2 蒙特卡洛法031
2.3.3 TD學(xué)習(xí)法033
2.4 無模型控制037
2.4.1 策略改進(jìn)的方法037
2.4.2 基于價值的方法038
2.4.3 基于策略的方法043
2.4.4 Actor-Critic法049
3.1 深度學(xué)習(xí)056
3.1.1 深度學(xué)習(xí)的出現(xiàn)和背景056
3.1.2 什么是深度學(xué)習(xí)?056
3.1.3 深度學(xué)習(xí)平臺062
3.2 CNN067
3.2.1 什么是CNN067
3.2.2 CNN的應(yīng)用071
3.3 RNN074
3.3.1 什么是RNN074
3.3.2 什么是LSTM079
3.3.3 RNN的應(yīng)用081
4.1 深度強(qiáng)化學(xué)習(xí)的發(fā)展086
4.1.1 DQN的出現(xiàn)086
4.1.2 用于強(qiáng)化學(xué)習(xí)的模擬器086
4.2 行動價值函數(shù)的網(wǎng)絡(luò)表示089
4.2.1 DQN算法089
4.2.2 DQN算法的實現(xiàn)092
4.2.3 學(xué)習(xí)結(jié)果099
4.3 策略函數(shù)的網(wǎng)絡(luò)表示101
4.3.1 Actor的實現(xiàn)101
4.3.2 Critic的實現(xiàn)101
4.3.3 示例代碼的介紹102
4.3.4 學(xué)習(xí)結(jié)果108
5.1 策略梯度法的連續(xù)控制114
5.1.1 連續(xù)控制114
5.1.2 策略梯度法學(xué)習(xí)114
5.2 學(xué)習(xí)算法和策略模型117
5.2.1 算法概況117
5.2.2 REINFORCE算法118
5.2.3 基準(zhǔn)函數(shù)的引入118
5.2.4 高斯模型的策略概率119
5.3 連續(xù)行動模擬器121
5.3.1 pybullet-gym121
5.3.2 Walker2D122
5.4 算法的實現(xiàn)126
5.4.1 算法實現(xiàn)的總體構(gòu)成126
5.4.2 train.py127
5.4.3 policy_estimator.py129
5.4.4 value_estimator.py132
5.5 學(xué)習(xí)結(jié)果及預(yù)測控制134
5.5.1 學(xué)習(xí)結(jié)果134
5.5.2 預(yù)測控制的結(jié)果136
5.5.3 其他環(huán)境模型的應(yīng)用137
5.5.4 總結(jié)140
6.1 組合優(yōu)化中的應(yīng)用144
6.1.1 關(guān)于組合優(yōu)化144
6.2 巡回推銷員問題145
6.2.1 通過強(qiáng)化學(xué)習(xí)解決巡回推銷員問題145
6.2.2 實現(xiàn)概要147
6.2.3 運行結(jié)果155
6.2.4 今后的發(fā)展趨勢157
6.3 魔方問題158
6.3.1 用強(qiáng)化學(xué)習(xí)解決魔方問題158
6.3.2 實現(xiàn)概要161
6.3.3 實現(xiàn)結(jié)果171
6.3.4 AC+MCTS算法的預(yù)測結(jié)果173
6.3.5 今后的發(fā)展趨勢177
6.4 總結(jié)179
7.1 根據(jù)SeqGAN的文本生成182
7.1.1 GAN182
7.1.2 SeqGAN183
7.1.3 輸入數(shù)據(jù)185
7.1.4 使用的算法及其實現(xiàn)187
7.1.5 實現(xiàn)結(jié)果195
7.1.6 總結(jié)198
7.2 神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索198
7.2.1 神經(jīng)體系結(jié)構(gòu)搜索198
7.2.2 語義分割199
7.2.3 U-Net200
7.2.4 文件目錄結(jié)構(gòu)201
7.2.5 輸入數(shù)據(jù)201
7.2.6 所使用的算法204
7.2.7 實現(xiàn)結(jié)果213
7.2.8 總結(jié)215
附錄A Colaboratory的GPU環(huán)境構(gòu)建218
A.1 Colaboratory218
A.2 Colaboratory的使用方法218
附錄B 通過Docker進(jìn)行Windows環(huán)境的構(gòu)建222
B.1 介紹222
B.2 Docker的安裝222
B.3 Docker映像的創(chuàng)建228
B.4 容器的啟動232
B.5 運行情況的查看234
參考文獻(xiàn)238