自适应动态规划原理:
三者融合:得自适应动态规划。
非常类似于强化学习。
迭代自适应动态规划:目前用的很多,很重要。
目前的大部分都源于此。
可以与值迭代对比,初值,思想都不同。
证明:
自适应动态规划进展:
连续:
为了解上面的偏微分方程:8
式称为广义HJB
方程。
离散证明:admissable control
:既能使得系统稳定,又可以使得v
有界。
单调性:
证明:
算法应用:
例子:下面的系统模型中:$s$漏掉了导数,($s$ -> $\dot s$)
2018年成果:
找鞍点:
书籍:
新的方法: