俺去俺来也最新色官网,一级毛片AAA免费无码綠色網站,人人模人人爽人人喊97

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支之一。《用Python動(dòng)手學(xué)強(qiáng)化學(xué)習(xí)》結(jié)合實(shí)際可運(yùn)行的Python代碼，通過簡(jiǎn)明的文字、豐富的插圖和示例，通俗易懂地介紹了從基礎(chǔ)概念到前沿應(yīng)用等方方面面的內(nèi)容，包括根據(jù)環(huán)境和經(jīng)驗(yàn)制訂計(jì)劃的學(xué)習(xí)方法、強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的組合，以及強(qiáng)化學(xué)習(xí)的弱點(diǎn)和克服方法。讀者通過下載書中代碼并親自動(dòng)手運(yùn)行，可以快速入門強(qiáng)化學(xué)習(xí)并進(jìn)行實(shí)踐。

第 1章　了解強(qiáng)化學(xué)習(xí) 1 1.1　強(qiáng)化學(xué)習(xí)與各關(guān)鍵詞之間的關(guān)系 1 1.2　強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)和弱點(diǎn) 8 1.3　強(qiáng)化學(xué)習(xí)的問題設(shè)定：馬爾可夫決策過程 9 第 2章　強(qiáng)化學(xué)習(xí)的解法(1)：根據(jù)環(huán)境制訂計(jì)劃 21 2.1　價(jià)值的定義和計(jì)算：貝爾曼方程 22 2.2　基于動(dòng)態(tài)規(guī)劃法的價(jià)值近似的學(xué)習(xí)：價(jià)值迭代 28 2.3　基于動(dòng)態(tài)規(guī)劃法的策略的學(xué)習(xí)：策略迭代 32 2.4　基于模型的方法和無模型的方法的區(qū)別 36 第3章　強(qiáng)化學(xué)習(xí)的解法(2)：根據(jù)經(jīng)驗(yàn)制訂計(jì)劃 39 3.1　平衡經(jīng)驗(yàn)的積累與利用：Epsilon-Greedy 算法 41 3.2　是根據(jù)實(shí)際獎(jiǎng)勵(lì)還是預(yù)測(cè)來修正計(jì)劃：蒙特卡洛方法和時(shí)序差分學(xué)習(xí) 46 3.3　用經(jīng)驗(yàn)來更新價(jià)值近似還是策略：基于價(jià)值和基于策略 62 第4章　使用面向強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò) 73 4.1　將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí) 74 4.2　通過含有參數(shù)的函數(shù)實(shí)現(xiàn)價(jià)值近似：價(jià)值函數(shù)近似 100 4.3　將深度學(xué)習(xí)應(yīng)用于價(jià)值近似：DQN 109 4.4　通過含有參數(shù)的函數(shù)實(shí)現(xiàn)策略：策略梯度 121 4.5　將深度學(xué)習(xí)應(yīng)用于策略：A2C 133 4.6　是價(jià)值近似還是策略呢 153 第5章　強(qiáng)化學(xué)習(xí)的弱點(diǎn) 157 5.1　獲取樣本的效率低 157 5.2　容易陷入局部最優(yōu)行動(dòng)和過擬合160 5.3　復(fù)現(xiàn)性差 163 5.4　以弱點(diǎn)為前提的對(duì)策 164 第6章　克服強(qiáng)化學(xué)習(xí)弱點(diǎn)的方法 169 6.1　應(yīng)對(duì)采樣效率低的方法：與基于模型的方法一起使用、表征學(xué)習(xí) 170 6.2　改善復(fù)現(xiàn)性的方法：進(jìn)化策略 198 6.3　應(yīng)對(duì)局部最優(yōu)行動(dòng)和過擬合的方法：模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí) 206 第7章　強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域 237 7.1　行動(dòng)的最優(yōu)化 239 7.2　學(xué)習(xí)的最優(yōu)化 248 參考文獻(xiàn) 252

你還可能感興趣

我要評(píng)論