香蕉黄瓜丝瓜绿巨人樱桃最新版,汉服校花自慰全过程流白浆好爽

圍繞著MDP模型，闡述動態(tài)規(guī)劃、蒙特卡羅、動態(tài)規(guī)劃等有窮表格式強(qiáng)化學(xué)習(xí)方法。在深度強(qiáng)化學(xué)習(xí)框架PyTorch下，闡述DQN,DDDPG,A3C等算法。本書以實例為導(dǎo)向，深度淺出地講解相關(guān)算法。全書采用完整的數(shù)學(xué)體系，各章內(nèi)容循序漸進(jìn)，嚴(yán)謹(jǐn)?shù)刂v授強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)，主要定理均給出證明過程�；诶碚撝v解強(qiáng)化學(xué)習(xí)算法，覆蓋了所有主流強(qiáng)化學(xué)習(xí)算法，包括資格跡等經(jīng)典算法和深度確定性梯度策略等深度強(qiáng)化學(xué)習(xí)算法。適合本科以上的人工智能相關(guān)專業(yè)學(xué)生及工程人員。

近年來，強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合形成的深度強(qiáng)化學(xué)習(xí)方法已經(jīng)是人工智能領(lǐng)域中新的研究熱點。在許多需要智能體（Agent）同時具備感知和決策能力的場景中，深度強(qiáng)化學(xué)習(xí)方法具備了與人類相媲美的智能。其中深度學(xué)習(xí)（Deep Learning，DL）和強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是機(jī)器學(xué)習(xí)領(lǐng)域中最重要的兩個研究方向。深度學(xué)習(xí)方法側(cè)重于對事物的感知與表達(dá)，其基本思想是面向高維數(shù)據(jù)，通過多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換，組合低層特征，形成抽象的、易于區(qū)分的高層表示，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)已經(jīng)在圖像識別與理解、智能語音、機(jī)器翻譯等領(lǐng)域取得了非凡的成果。強(qiáng)化學(xué)習(xí)與基于監(jiān)督訓(xùn)練的深度學(xué)習(xí)不同，更加側(cè)重于學(xué)習(xí)解決問題的策略，其基本思想是智能體通過試錯的機(jī)制與環(huán)境進(jìn)行不斷地交互，從而最大化智能體從環(huán)境中獲得的累計獎賞值。強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于游戲博弈、機(jī)器人操控、參數(shù)優(yōu)化等領(lǐng)域。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法主要針對輸入狀態(tài)規(guī)模較小的決策問題，這種小規(guī)模強(qiáng)化學(xué)習(xí)算法可通過表格式的存儲方式來評價每個狀態(tài)或者狀態(tài)動作對的好壞。然而當(dāng)狀態(tài)或動作空間維度很高時（例如圖片或視頻數(shù)據(jù)），傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法會因缺乏感知和泛化高維輸入數(shù)據(jù)的能力而導(dǎo)致算法性能急劇下降。

隨著人類社會的飛速發(fā)展，未來的人工智能系統(tǒng)不僅需要具備很強(qiáng)的感知與表達(dá)能力，而且需要擁有一定的決策能力。因此，人們將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合，形成直接從輸入原始數(shù)據(jù)到輸出動作控制的完整智能系統(tǒng)，這就是深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）方法。該方法從本質(zhì)上解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)智能體缺乏感知和泛化高維度輸入數(shù)據(jù)能力的問題，從而適用于一系列大規(guī)模的決策任務(wù)。例如，谷歌旗下的DeepMind公司將深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）和強(qiáng)化學(xué)習(xí)中Q學(xué)習(xí)算法（QLearning）相結(jié)合，提出深度Q網(wǎng)絡(luò)（Deep QNetwork，DQN）模型。該模型可直接將原始的游戲視頻畫面作為輸入狀態(tài)，游戲得分作為強(qiáng)化學(xué)習(xí)中的獎賞信號，并通過深度Q學(xué)習(xí)算法進(jìn)行訓(xùn)練。最終該模型在許多Atari 2600視頻游戲上的表現(xiàn)已經(jīng)趕上甚至超過了專業(yè)人類玩家的水平。該項研究工作是深度強(qiáng)化學(xué)習(xí)方法形成的重要標(biāo)志。此后，DeepMind團(tuán)隊又開發(fā)出一款被稱為AlphaGo的圍棋算法。該算法一方面利用深度學(xué)習(xí)通過有信號的監(jiān)督來模擬人類玩家的走子方式，另一方面利用強(qiáng)化學(xué)習(xí)來進(jìn)行自我對抗，從而進(jìn)一步提高智能體取勝的概率。最終AlphaGo以懸殊的比分先后擊敗當(dāng)時的歐洲圍棋冠軍和世界圍棋冠軍。深度強(qiáng)化學(xué)習(xí)的基本思想可以描述為：利用深度學(xué)習(xí)的強(qiáng)大感知能力來提取大規(guī)模輸入數(shù)據(jù)的抽象特征，并以此特征為依據(jù)進(jìn)行自我激勵的強(qiáng)化學(xué)習(xí)，直至求解出問題的最優(yōu)策略。AlphaGo事件正式將深度強(qiáng)化學(xué)習(xí)技術(shù)推向了一個高峰。隨著國內(nèi)外對于深度強(qiáng)化學(xué)習(xí)理論和應(yīng)用的不斷完善，目前深度強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)在游戲、機(jī)器人操控、自動駕駛、自然語言處理、參數(shù)優(yōu)化等領(lǐng)域得到了廣泛的應(yīng)用。此外，深度強(qiáng)化學(xué)習(xí)也被認(rèn)為是實現(xiàn)通用人工智能（General Artificial Intelligence，GAI）的一個重要途徑。

本書深入淺出、內(nèi)容翔實全面，全書配有PPT和視頻講解，對相關(guān)算法和實例配有代碼程序。本書既適合強(qiáng)化學(xué)習(xí)零基礎(chǔ)的本科生、研究生入門學(xué)習(xí)，也適合相關(guān)科研人員研究參考。

本書作者多年來一直從事強(qiáng)化學(xué)習(xí)的研究和教學(xué)工作，在國家自然科學(xué)基金、博士后基金、教育部科學(xué)研究重點項目、軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心、江蘇高校優(yōu)勢學(xué)科建設(shè)工程資助項目、江蘇省高校自然科學(xué)基金項目、蘇州大學(xué)研究生精品課程項目等的資助下，提出了一些深度強(qiáng)化學(xué)習(xí)理論，解決了一系列核心技術(shù)，并將這些理論和方法用于解決實際問題。

本書總體設(shè)計、修改和審定由劉全完成，參加撰寫的有黃志剛、翟建偉、吳光軍、徐平安、歐陽震、寇俊強(qiáng)、郝少璞、李曉牧、顧子賢、葉倩等，對以上作者付出的艱辛勞動表示感謝！本書的撰寫參考了國內(nèi)外有關(guān)研究成果，他們的豐碩成果和貢獻(xiàn)是本書學(xué)術(shù)思想的重要來源，在此對涉及的專家和學(xué)者表示誠摯的謝意。本書也得到了蘇州大學(xué)計算機(jī)學(xué)院及智能計算與認(rèn)知軟件課題組部分老師和同學(xué)們的大力支持和協(xié)助，在此一并表示感謝。他們是：朱斐、凌興宏、伏玉琛、章宗長、章曉芳、徐云龍、陳冬火、王輝、金海東、王浩、曹家慶、張立華、徐進(jìn)、梁斌、姜玉斌、閆巖、胡智慧、陳紅名、吳金金、李斌、何斌、時圣苗、張琳琳、范靜宇、傲天宇、李洋、張建行、代珊珊、申怡、王逸勉、徐亞鵬、栗軍偉、烏蘭、王卓、楊皓麟、施眉龍、張雄振等。

機(jī)器學(xué)習(xí)是一個快速發(fā)展、多學(xué)科交叉的研究方向，其理論及應(yīng)用均存在大量的亟待解決的問題。限于作者的水平，書中難免有不妥和錯誤之處，敬請同行專家和讀者指正。

劉全

2021年1月

你還可能感興趣

我要評論