24小时热门版块排行榜    

查看: 3954  |  回复: 2
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jermerneyyin

新虫 (初入文坛)

[求助] 自适应动态规划和强化学习的区别 已有2人参与

之前在低维的控制系统中采用了强化学习,现在想在高维空间采用强化学习策略,但是由于维数过高,开始把目光转向了自适应动态规划。
可是现在还是一头雾水:强化学习和自适应动态规划到底有什么本质的不同???
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

1132520084

新虫 (小有名气)

【答案】应助回帖

现在不是已经证明强化学习和自适应动态规划意义已经是相同的了。
楼上说的是从表象上的差别,实际操作起来的话都是利用TD(lamda)的变形,然后采用不同的迭代策略。本质推导出来的是一样的。最后维数很高的问题应该考虑不同的迭代策略(即收敛方法)。
3楼2015-07-23 17:13:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 3 个回答

ucihqtep

新虫 (初入文坛)

【答案】应助回帖

有本质的区别,也许我理解有偏差。
强化学习针对的是当前时刻与环境交互,得到强化信号,来修正值函数,是不是可以理解为针对当前时刻的状态作出最优决策。
自适应动态规划是根据Bellman方程,是考虑整个阶段来做出的最优。所以自适应动态规划得到的最优解具有全局最优的意思。
2楼2015-07-11 12:52:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见