本書的主要內(nèi)容有:學習強化學習是什么,以及算法如何解決具體問題。掌握強化學習的基礎知識,包括馬爾可夫決策過程、動態(tài)規(guī)劃和時間差分算法。深入研究系列基于值函數(shù)和政策梯度的算法。應用先進的強化學習解決方案,如元學習、分層學習、多智能體、模仿學習等。了解最前沿的深度強化學習算法,包括Rainbow、PPO、TD3、SAC等。
Phil Winder博士是一名多學科交叉的軟件工程師、作家和科技顧問,同時也是溫德研究所的CEO。該研究所主要提供云計算科學咨詢,主營業(yè)務是幫助初創(chuàng)公司和大型企業(yè)改進數(shù)據(jù)流程、平臺以及產(chǎn)品。作者于英國赫爾大學獲得電子工程碩士和博士學位,現(xiàn)居英國約克郡。 譯者介紹 鄒偉,?桶顒(chuàng)始人、國內(nèi)資深AI專家,擅長利用AI技術解決工業(yè)、工程中的復雜問題。華東建筑設計研究總院研究員、山東交通學院客座教授、天津大學創(chuàng)業(yè)導師、中華中醫(yī)藥學會會員,領導?桶钆c 二十多所高校、國企建立了AI聯(lián)合實驗室,完成50多個深度學習實踐項目,目前已出版多本機器學習、深度學習領域的專著和譯著。