24小时热门版块排行榜    

查看: 2994  |  回复: 30
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

jermerneyyin

新虫 (初入文坛)


[交流] 关于强化学习,自适应动态规划和在线学习

想跟各位牛人交流下,最近在做强化学习的算法应用,采用强化学习和在线学习的结合,可是结果仅仅是控制器的鲁棒性和适应性增强,关键的结果精度并没有比单纯的采用在线学习好很多,是因为算法的问题还是仿真模拟的问题?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jermerneyyin(金币+1): 谢谢参与
1+1<2很正常,如果单纯的采用在线学习的效果已经够好了。
3楼2013-04-11 15:18:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 31 个回答

noirland

铁杆木虫 (正式写手)



jermerneyyin(金币+1): 谢谢参与
在线学习?LZ是想说监督学习么?
强化学习最大的优点是在与外界环境的交互过程中进行学习,而不依赖于系统的模型。
话说,强化学习在控制方面有很多研究内容啊,
2楼2013-04-11 15:10:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jermerneyyin

新虫 (初入文坛)


引用回帖:
3楼: Originally posted by nono2009 at 2013-04-11 15:18:36
1+1<2很正常,如果单纯的采用在线学习的效果已经够好了。

对,有时候确实有这个感觉,不过有强化学习系统适应性好了很多,现在有点迷茫要不要继续在强化学习方面做下去了
11楼2013-04-11 16:51:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jermerneyyin

新虫 (初入文坛)


引用回帖:
2楼: Originally posted by noirland at 2013-04-11 15:10:57
在线学习?LZ是想说监督学习么?
强化学习最大的优点是在与外界环境的交互过程中进行学习,而不依赖于系统的模型。
话说,强化学习在控制方面有很多研究内容啊,

对的啊,做了一个比较模糊的监督目标,但是主要还是靠TD的值函数,可是感觉结合在一起效果差强人意
12楼2013-04-11 16:52:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见