智能控制與強(qiáng)化學(xué)習(xí)先進(jìn)值迭代評(píng)判設(shè)計(jì)
定 價(jià):139.8 元
- 作者:王鼎 趙明明 哈明鳴 任進(jìn)
- 出版時(shí)間:2024/3/1
- ISBN:9787115633958
- 出 版 社:人民郵電出版社
- 中圖法分類:TP273
- 頁(yè)碼:
- 紙張:
- 版次:
- 開(kāi)本:
在人工智能技術(shù)的大力驅(qū)動(dòng)下,智能控制與強(qiáng)化學(xué)習(xí)發(fā)展迅猛,先進(jìn)自動(dòng)化設(shè)計(jì)與控制日新月異。本書(shū)針對(duì)復(fù)雜離散時(shí)間系統(tǒng)的優(yōu)化調(diào)節(jié)、最優(yōu)跟蹤、零和博弈等問(wèn)題,以實(shí)現(xiàn)穩(wěn)定學(xué)習(xí)、演化學(xué)習(xí)和快速學(xué)習(xí)為目標(biāo),建立一套先進(jìn)的值迭代評(píng)判學(xué)習(xí)控制理論與設(shè)計(jì)方法。首先,對(duì)先進(jìn)值迭代框架下迭代策略的穩(wěn)定性進(jìn)行全面深入的分析,建立一系列適用于不同場(chǎng)景的穩(wěn)定性判據(jù),從理論層面揭示值迭代算法能夠?qū)崿F(xiàn)離線最優(yōu)控制和在線演化控制。其次,基于迭代歷史信息,提出一種新穎的收斂速度可調(diào)節(jié)的值迭代算法,有助于加快學(xué)習(xí)速度、減少計(jì)算代價(jià),更高效地獲得非線性系統(tǒng)的最優(yōu)控制律。結(jié)合人工智能技術(shù),對(duì)無(wú)模型值迭代評(píng)判學(xué)習(xí)控制的發(fā)展前景也進(jìn)行了討論。 本書(shū)內(nèi)容豐富、結(jié)構(gòu)清晰、由淺入深、分析透徹,既可作為智能控制、強(qiáng)化學(xué)習(xí)、優(yōu)化控制、計(jì)算智能、自適應(yīng)與學(xué)習(xí)系統(tǒng)等領(lǐng)域研究人員和學(xué)生的參考書(shū),又可供相關(guān)領(lǐng)域的技術(shù)人員使用。
·新一代人工智能技術(shù)基礎(chǔ)理論著作
·人工智能、智能控制熱點(diǎn)研究著作
本書(shū)的出版將為相關(guān)領(lǐng)域工作人員有效地把握先進(jìn)值迭代的研究動(dòng)態(tài)與最新發(fā)展現(xiàn)狀提供有益參考。
本書(shū)內(nèi)容豐富、結(jié)構(gòu)清晰、由淺入深、分析透徹,既可作為智能控制、強(qiáng)化學(xué)習(xí)、優(yōu)化控制、計(jì)算智能、自適應(yīng)與學(xué)習(xí)系統(tǒng)等領(lǐng)域研究人員和學(xué)生的參考書(shū),又可供相關(guān)領(lǐng)域的技術(shù)人員使用。
王鼎,男,北京工業(yè)大學(xué)教授、博士生導(dǎo)師,現(xiàn)任計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室副主任。北京市自然科學(xué)基金杰出青年項(xiàng)目獲得者、科睿唯安(Clarivate)全球高被引科學(xué)家、中國(guó)科協(xié)青年人才托舉工程入選者,主要研究方向?yàn)橹悄芸刂婆c智能優(yōu)化、神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí),涉及復(fù)雜智能控制優(yōu)化、人工智能理論基礎(chǔ)。針對(duì)不確定系統(tǒng)優(yōu)化控制中的共性難題進(jìn)行了長(zhǎng)期研究攻關(guān),建立并逐步完善智能評(píng)判控制框架,并為工業(yè)復(fù)雜系統(tǒng)的智能優(yōu)化控制提供了理論支撐。目前已在人工智能及相關(guān)領(lǐng)域的國(guó)際期刊和會(huì)議上發(fā)表學(xué)術(shù)論文120余篇,其中82篇被SCI檢索(以第一作者發(fā)表在IEEE Transactions系列期刊和Automatica領(lǐng)域頂刊的論文共25篇),已出版專著4本,申請(qǐng)和已授權(quán)發(fā)明專利9項(xiàng)。先后榮獲吳文俊人工智能優(yōu)秀青年獎(jiǎng)、中國(guó)自動(dòng)化學(xué)會(huì)自然科學(xué)獎(jiǎng)一等獎(jiǎng)、廣東省自然科學(xué)獎(jiǎng)一等獎(jiǎng)等。先后擔(dān)任人工智能及相關(guān)領(lǐng)域多個(gè)著名期刊的編委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自動(dòng)化學(xué)報(bào)。
第 一章 智能評(píng)判控制的先進(jìn)值迭代方法概述
1.1 強(qiáng)化學(xué)習(xí)背景
1.2 自適應(yīng)評(píng)判介紹
1.3 傳統(tǒng)值迭代
1.4 廣義值迭代
1.5 演化值迭代
1.6 加速值迭代
1.7 小結(jié)
第二章 基于廣義值迭代的線性最優(yōu)調(diào)節(jié)與穩(wěn)定性分析
2.1 引言
2.2 問(wèn)題描述
2.3 面向線性系統(tǒng)的廣義值迭代
2.4 迭代策略穩(wěn)定性分析
2.5 仿真實(shí)驗(yàn)
2.6 小結(jié)
第三章 具有穩(wěn)定保證的非線性系統(tǒng)優(yōu)化控制設(shè)計(jì)
3.1 引言
3.2 問(wèn)題描述
3.3 面向非線性系統(tǒng)的廣義值迭代
3.4 迭代策略穩(wěn)定性和容許性分析
3.5 仿真實(shí)驗(yàn)
3.6 小結(jié)
第四章 一種基于評(píng)判學(xué)習(xí)的非線性智能最優(yōu)跟蹤
4.1 引言
4.2 問(wèn)題描述
4.3 面向智能最優(yōu)跟蹤的廣義值迭代
4.4 基于神經(jīng)網(wǎng)絡(luò)的算法實(shí)現(xiàn)
4.5 仿真實(shí)驗(yàn)
4.6 小結(jié)
第五章 一類非線性系統(tǒng)的事件觸發(fā)最優(yōu)跟蹤控制
5.1 引言
5.2 問(wèn)題描述
5.3 基于事件觸發(fā)的近似最優(yōu)跟蹤
5.4 基于神經(jīng)網(wǎng)絡(luò)的跟蹤控制器設(shè)計(jì)
5.5 仿真實(shí)驗(yàn)
5.6 小結(jié)
第六章 基于演化值迭代的非線性最優(yōu)軌跡跟蹤
6.1 引言
6.2 問(wèn)題描述
6.3 基于新型效用函數(shù)的廣義值迭代
6.4 演化控制與穩(wěn)定性分析
6.5 仿真實(shí)驗(yàn)
6.6 小結(jié)
第七章 融合值迭代學(xué)習(xí)的非線性零和博弈性能分析
7.1 引言
7.2 零和博弈問(wèn)題描述
7.3 面向零和博弈的廣義值迭代
7.4 零和博弈的演化控制設(shè)計(jì)
7.5 仿真實(shí)驗(yàn)
7.6 小結(jié)
第八章 具有可調(diào)節(jié)收斂速度的新型值迭代機(jī)制
8.1 引言
8.2 問(wèn)題描述
8.3 加速值迭代算法性能分析
8.4 加速值迭代應(yīng)用設(shè)計(jì)
8.5 仿真實(shí)驗(yàn)
8.6 小結(jié)
第九章 基于加速值迭代的非線性系統(tǒng)軌跡跟蹤
9.1 引言
9.2 問(wèn)題描述
9.3 面向跟蹤控制的加速值迭代
9.4 基于加速值迭代的演化控制
9.5 仿真實(shí)驗(yàn)
9.6 小結(jié)
第十章 面向非線性零和博弈的快速值迭代學(xué)習(xí)
10.1 引言
10.2 問(wèn)題描述
10.3 面向零和博弈的增量迭代機(jī)制
10.4 面向零和博弈的自勵(lì)迭代機(jī)制
10.5 仿真實(shí)驗(yàn)
10.6 小結(jié)與展望