本書對增強學習與近似動態(tài)規(guī)劃的理論、算法及應用進行了深入研究和論述。主要內(nèi)容包括:求解Markov鏈學習預測問題的時域差值學習算法和理論,求解連續(xù)空間Markov決策問題的梯度增強學習算法以及進化一梯度混合增強學習算法,基于核的近似動態(tài)規(guī)劃算法,增強學習在移動機器人導航與控制中的應用等。本書是作者在多個國家自然科學基金