版块导航
正在加载中...
客户端APP下载
论文辅导
申博辅导
登录
注册
帖子
帖子
用户
本版
应《网络安全法》要求,自2017年10月1日起,未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用,请尽快对帐号进行手机号验证,感谢您的理解与支持!
24小时热门版块排行榜
>
论坛更新日志
(3767)
>
导师招生
(503)
>
虫友互识
(451)
>
文献求助
(437)
>
休闲灌水
(128)
>
招聘信息布告栏
(109)
>
博后之家
(99)
>
考博
(94)
>
硕博家园
(88)
>
教师之家
(75)
>
论文投稿
(74)
>
公派出国
(71)
>
考研
(56)
>
基金申请
(46)
>
绿色求助(高悬赏)
(44)
>
找工作
(31)
小木虫论坛-学术科研互动平台
»
计算模拟区
»
计算模拟
»
软件使用与操作
»
自适应动态规划和强化学习的区别
5
1/1
返回列表
查看: 3954 | 回复: 2
只看楼主
@他人
存档
新回复提醒
(忽略)
收藏
在APP中查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖
jermerneyyin
新虫
(初入文坛)
应助: 0
(幼儿园)
金币: 107.8
散金: 27
红花: 1
帖子: 35
在线: 218.1小时
虫号: 2147914
注册: 2012-11-26
专业: 人工智能与知识工程
[
求助
]
自适应动态规划和强化学习的区别
已有2人参与
之前在低维的控制系统中采用了强化学习,现在想在高维空间采用强化学习策略,但是由于维数过高,开始把目光转向了自适应动态规划。
可是现在还是一头雾水:强化学习和自适应动态规划到底有什么本质的不同???
回复此楼
» 猜你喜欢
求标准粉末衍射卡号 ICDD 01-076-1802
已经有0人回复
新西兰Robinson研究所招收全奖PhD
已经有0人回复
物理学I论文润色/翻译怎么收费?
已经有69人回复
石墨烯转移--二氧化硅衬底石墨烯
已经有0人回复
笼目材料中量子自旋液体基态的证据
已经有0人回复
数学教学论硕士可以读数学物理博士吗?
已经有0人回复
德国亥姆霍兹Hereon中心汉堡分部招镁合金腐蚀裂变SCC课题方向2026公派博士生
已经有4人回复
澳门大学 应用物理及材料工程研究院 潘晖教授课题组诚招博士后
已经有11人回复
求助NH4V4O10晶体的CIF文件
已经有0人回复
英国全奖博士招聘-深度学习与量子物理
已经有0人回复
间接带隙半导体有效质量求助
已经有0人回复
» 本主题相关价值贴推荐,对您同样有帮助:
有关于参数的自适应以及自适应观测器
已经有7人回复
拼了。。700金币求高手。最优控制,动态规划 matlab 仿真。。
已经有17人回复
关于强化学习,自适应动态规划和在线学习
已经有30人回复
1楼
2013-04-17 14:45:44
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
1132520084
新虫
(小有名气)
应助: 3
(幼儿园)
金币: 2224.6
散金: 18
红花: 2
帖子: 127
在线: 37.1小时
虫号: 3328646
注册: 2014-07-18
专业: 动力学与控制
【答案】应助回帖
现在不是已经证明强化学习和自适应动态规划意义已经是相同的了。
楼上说的是从表象上的差别,实际操作起来的话都是利用TD(lamda)的变形,然后采用不同的迭代策略。本质推导出来的是一样的。最后维数很高的问题应该考虑不同的迭代策略(即收敛方法)。
赞
一下
(1人)
回复此楼
高级回复
3楼
2015-07-23 17:13:02
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
查看全部 3 个回答
ucihqtep
新虫
(初入文坛)
应助: 0
(幼儿园)
金币: 3.3
帖子: 8
在线: 4.2小时
虫号: 3453348
注册: 2014-10-03
【答案】应助回帖
有本质的区别,也许我理解有偏差。
强化学习针对的是当前时刻与环境交互,得到强化信号,来修正值函数,是不是可以理解为针对当前时刻的状态作出最优决策。
自适应动态规划是根据Bellman方程,是考虑整个阶段来做出的最优。所以自适应动态规划得到的最优解具有全局最优的意思。
赞
一下
回复此楼
2楼
2015-07-11 12:52:18
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
查看全部 3 个回答
如果回帖内容含有宣传信息,请如实选中。否则帐号将被全论坛禁言
普通表情
龙
兔
虎
猫
百度网盘
|
360云盘
|
千易网盘
|
华为网盘
在新窗口页面中打开自己喜欢的网盘网站,将文件上传后,然后将下载链接复制到帖子内容中就可以了。
信息提示
关闭
请填处理意见
关闭
确定