亚洲成在人线电影天堂色,亚洲精品成人无码中文毛片不卡

本書介紹了深度強化學(xué)習(xí)理論和實現(xiàn)的獨特結(jié)合。它從入門開始，然后詳細地解釋了深度強化學(xué)習(xí)算法的理論，也討論了它的配套軟件庫SLM實驗室的實現(xiàn)，并以使深度強化學(xué)習(xí)工作的實際細節(jié)結(jié)束。

當DeepMind在Atari街機游戲中取得突破性進展時，我們次發(fā)現(xiàn)了深度強化學(xué)習(xí)（Deep RL）。人工智能體在只使用圖像而不使用先驗知識的情況下，首次達到了人類的水平。
人工智能體在沒有監(jiān)督的情況下，通過反復(fù)試驗自學(xué)的想法激發(fā)了我們的想象力，這是一種新的、令人興奮的機器學(xué)習(xí)方法，它與我們熟悉的監(jiān)督學(xué)習(xí)領(lǐng)域有很大的不同。
我們決定一起學(xué)習(xí)這個主題，我們閱讀書籍和論文，學(xué)習(xí)在線課程，學(xué)習(xí)代碼，并嘗試實現(xiàn)核心算法。我們意識到，深度強化學(xué)習(xí)不僅在概念上具有挑戰(zhàn)性，在實現(xiàn)過程中也需要像大型軟件工程項目一樣經(jīng)過艱辛的努力。
隨著我們的進步，我們了解了更多關(guān)于深度強化學(xué)習(xí)的知識算法如何相互關(guān)聯(lián)以及它們的不同特征是什么。形成這種心理模型是一個挑戰(zhàn)，因為深度強化學(xué)習(xí)是一個新的研究領(lǐng)域，尚無全面的理論書籍，我們必須直接從研究論文和在線講座中學(xué)習(xí)。
另一個挑戰(zhàn)是理論與實現(xiàn)之間的巨大差距。通常，深度強化學(xué)習(xí)算法有許多組件和可調(diào)的超參數(shù)，這使其變得敏感且脆弱。為了成功運行，所有組件都需要正確地協(xié)同工作，并使用適當?shù)某瑓?shù)值。從理論上講，實現(xiàn)這一目標所需的細節(jié)并不是很清楚，但同樣重要。在我們的學(xué)習(xí)過程中，那些理論和實現(xiàn)相結(jié)合的資源是非常寶貴的。
我們覺得從理論到實現(xiàn)的過程應(yīng)該比我們發(fā)現(xiàn)的更簡單，我們希望通過自己的努力使深度強化學(xué)習(xí)更易于學(xué)習(xí)。這本書是我們的嘗試，書中采用端到端的方法來引入深度強化學(xué)習(xí)從直覺開始，然后解釋理論和算法，后是實現(xiàn)和實踐技巧。這也是為什么這本書附帶了一個軟件庫SLM Lab，其中包含了所有算法的實現(xiàn)。簡而言之，這是我們在開始學(xué)習(xí)這一主題時希望擁有的書。
深度強化學(xué)習(xí)屬于強化學(xué)習(xí)中一個較大的領(lǐng)域。強化學(xué)習(xí)的核心是函數(shù)逼近，在深度強化學(xué)習(xí)中，函數(shù)是用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的。強化學(xué)習(xí)與有監(jiān)督和無監(jiān)督學(xué)習(xí)一起構(gòu)成了機器學(xué)習(xí)的三種核心技術(shù)，每種技術(shù)在問題的表達方式和算法的數(shù)據(jù)學(xué)習(xí)方式上都有所不同。
在這本書中，我們專注于深度強化學(xué)習(xí)，因為我們所經(jīng)歷的挑戰(zhàn)是針對強化學(xué)習(xí)這一子領(lǐng)域的。這從兩個方面限制了本書的范圍。首先，它排除了在強化學(xué)習(xí)中可以用來學(xué)習(xí)函數(shù)的所有其他技術(shù)。其次，雖然強化學(xué)習(xí)從20世紀50年代就已經(jīng)存在，但本書強調(diào)的是2013年到2019年的發(fā)展。近的許多發(fā)展都是建立在較早的研究基礎(chǔ)上的，因此我們認為有必要追溯主要思想的發(fā)展。然而，我們并不打算給出這一領(lǐng)域的全面歷史介紹。
這本書是針對計算機科學(xué)專業(yè)的學(xué)生和軟件工程師的，旨在介紹深度強化學(xué)習(xí)，無須事先了解相關(guān)主題。但是，我們假設(shè)讀者對機器學(xué)習(xí)和深度學(xué)習(xí)有基本的了解，并且有中級Python編程水平。一些使用PyTorch的經(jīng)驗也是有用的，但不是必需的。
這本書的結(jié)構(gòu)如下。
第1章介紹深度強化學(xué)習(xí)問題的不同方面，并對深度強化學(xué)習(xí)算法進行綜述。
部分是基于策略的算法和基于值的算法。第2章介紹種策略梯度方法（REINFORCE算法）。第3章介紹種基于值的方法（SARSA）。第4章討論深度Q網(wǎng)絡(luò)（DQN）算法。第5章重點討論改進的深度Q網(wǎng)絡(luò)目標網(wǎng)絡(luò)、雙重DQN算法和優(yōu)先級經(jīng)驗回放技術(shù)。
第二部分重點研究基于策略和基于值的組合方法。第6章介紹對REINFORCE算法進行擴展的演員-評論家算法。第7章介紹對演員-評論家算法進行擴展的近端策略優(yōu)化（PPO）算法。第8章討論同步和異步并行方法，適用于本書中的任何算法。后，第9章總結(jié)所有的算法。
每個算法章節(jié)的結(jié)構(gòu)都是相同的。首先，介紹該章的主要概念，并通過相關(guān)的數(shù)學(xué)公式進行研究。然后，描述算法并討論在Python中的實現(xiàn)。后，提供一個可在SLM Lab中運行的可調(diào)超參數(shù)配置算法，并用圖表說明該算法的主要特點。
第三部分重點介紹實現(xiàn)深度強化學(xué)習(xí)算法的實踐細節(jié)。第10章介紹工程和調(diào)試實現(xiàn)，包括關(guān)于超參數(shù)和實驗結(jié)果的小結(jié)。第11章為配套的SLM Lab提供使用參考。第12章介紹神經(jīng)網(wǎng)絡(luò)架構(gòu)。第13章討論硬件。
本書的后一部分（第四部分）是關(guān)于環(huán)境設(shè)計的，由第14～17章組成，分別討論狀態(tài)、動作、獎勵和轉(zhuǎn)換函數(shù)的設(shè)計。
我們推薦從第1章開始順序閱讀到第10章。這些章節(jié)介紹了本書中的所有算法，并提供了實現(xiàn)算法的實用技巧。接下來的三章（第11～13章）集中在更專業(yè)的主題上，可以按任何順序閱讀。對于不想深入研究的讀者來說，第1、2、3、4、6和10章是本書的一個連貫子集，重點關(guān)注了一些算法。后，第四部分包含了一組獨立的章節(jié)，供對更深入地理解環(huán)境或構(gòu)建自己的環(huán)境有特殊興趣的讀者閱讀。
SLM Lab\[67\]是本書的配套軟件庫，是一個使用PyTorch\[114\]構(gòu)建的模塊化深度強化學(xué)習(xí)框架。SLM是Strange Loop Machine的縮寫，向侯世達的名著《哥德爾、艾舍爾、巴赫：集異璧之大成》\[53\]致敬。SLM Lab的具體例子包括使用PyTorch的語法和特性來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。然而，實現(xiàn)深度強化學(xué)習(xí)算法的基本原理也適用于其他的深度學(xué)習(xí)框架，比如TensorFlow\[1\]。
SLM Lab的設(shè)計旨在幫助初學(xué)者通過將其組成部分組織成概念清晰的片段來學(xué)習(xí)深度強化學(xué)習(xí)。這些組成部分與學(xué)

你還可能感興趣

我要評論