版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

>论坛更新日志 (1925)
>虫友互识 (193)
>休闲灌水 (82)
>导师招生 (62)
>考研 (29)
>硕博家园 (28)
>考博 (28)
>论文投稿 (26)
>教师之家 (24)
>文献求助 (23)
>博后之家 (19)
>基金申请 (19)
>论文道贺祈福 (15)
>公派出国 (14)
>找工作 (13)
>材料综合 (9)

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

jermerneyyin

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 107.8
散金: 27
红花: 1
帖子: 35
在线: 218.1小时
虫号: 2147914
注册: 2012-11-26
专业: 人工智能与知识工程

[求助] 自适应动态规划和强化学习的区别已有2人参与

之前在低维的控制系统中采用了强化学习，现在想在高维空间采用强化学习策略，但是由于维数过高，开始把目光转向了自适应动态规划。
可是现在还是一头雾水：强化学习和自适应动态规划到底有什么本质的不同？？？

回复此楼

» 猜你喜欢

基于基元I统一理论的量子力学本源推导已经有1人回复
推荐一款可以AI辅助写作的Latex编辑器SmartLatexEditor，超级好用，AI润色，全免费已经有20人回复
物理学I论文润色/翻译怎么收费? 已经有57人回复
【EI|Scopus 双检索】第六届智能机器人系统国际会议（ISoIRS 2026）已经有1人回复
2026年第四届电动车与车辆工程国际会议（CEVVE 2026）已经有0人回复

» 本主题相关价值贴推荐，对您同样有帮助:

有关于参数的自适应以及自适应观测器已经有7人回复
拼了。。700金币求高手。最优控制，动态规划 matlab 仿真。。已经有17人回复
关于强化学习，自适应动态规划和在线学习已经有30人回复

1楼 2013-04-17 14:45:44

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

1132520084

新虫 (小有名气)

应助: 3 (幼儿园)
金币: 2224.6
散金: 18
红花: 2
帖子: 127
在线: 37.1小时
虫号: 3328646
注册: 2014-07-18
专业: 动力学与控制

【答案】应助回帖

现在不是已经证明强化学习和自适应动态规划意义已经是相同的了。
楼上说的是从表象上的差别，实际操作起来的话都是利用TD（lamda）的变形，然后采用不同的迭代策略。本质推导出来的是一样的。最后维数很高的问题应该考虑不同的迭代策略（即收敛方法）。

赞一下(1人)

回复此楼

3楼2015-07-23 17:13:02

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 3 个回答

ucihqtep

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 3.3
帖子: 8
在线: 4.2小时
虫号: 3453348
注册: 2014-10-03

【答案】应助回帖

有本质的区别，也许我理解有偏差。
强化学习针对的是当前时刻与环境交互，得到强化信号，来修正值函数，是不是可以理解为针对当前时刻的状态作出最优决策。
自适应动态规划是根据Bellman方程，是考虑整个阶段来做出的最优。所以自适应动态规划得到的最优解具有全局最优的意思。

赞一下

回复此楼

2楼2015-07-11 12:52:18

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 3 个回答

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	w89i99eaeh 2026-02-22	5/250	2026-02-23 08:04 by w4l55oybr1
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	khieu8v8m0 2026-02-22	7/350	2026-02-23 07:54 by w4l55oybr1
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	7/350	2026-02-23 07:51 by w4l55oybr1
[博后之家] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +6	3dfhjxgsh7 2026-02-22	9/450	2026-02-23 07:49 by w4l55oybr1
[考博] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	khieu8v8m0 2026-02-22	4/200	2026-02-23 06:46 by jsjzfl
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	khieu8v8m0 2026-02-22	5/250	2026-02-23 06:29 by w4l55oybr1
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	usprnugpzw 2026-02-21	10/500	2026-02-23 04:58 by 5jlh3qtdvx
[考博] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +5	3dfhjxgsh7 2026-02-22	6/300	2026-02-23 02:04 by 5jlh3qtdvx
[教师之家] 版面费该交吗 +7	苹果在哪里 2026-02-22	8/400	2026-02-22 22:37 by otani
[基金申请] 基金正文30页指的是报告正文还是整个申请书 +5	successhe 2026-02-16	6/300	2026-02-22 21:38 by 山西悬空寺空悬�
[基金申请] 面上可以超过30页吧？ +4	阿拉贡aragon 2026-02-22	4/200	2026-02-22 21:22 by 山西悬空寺空悬�
[教师之家] 为什么中国大学教授们水了那么多所谓的顶会顶刊，但还是做不出宇树机器人？ +5	欢乐颂叶蓁 2026-02-21	5/250	2026-02-22 21:15 by 山西悬空寺空悬�
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	usprnugpzw 2026-02-21	6/300	2026-02-22 19:48 by w89i99eaeh
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	3dfhjxgsh7 2026-02-22	4/200	2026-02-22 16:52 by khieu8v8m0
[找工作] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	usprnugpzw 2026-02-22	3/150	2026-02-22 16:37 by khieu8v8m0
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	usprnugpzw 2026-02-21	4/200	2026-02-22 16:27 by khieu8v8m0
[基金申请] “人文社科而论，许多学术研究还没有达到民国时期的水平” +4	苏东坡二世 2026-02-18	5/250	2026-02-22 16:07 by liangep1573
[基金申请] 什么是人一生最重要的？ +4	瞬息宇宙 2026-02-21	4/200	2026-02-22 11:44 by huagongfeihu
[基金申请] 今年春晚有几个节目很不错，点赞！ +11	瞬息宇宙 2026-02-16	12/600	2026-02-21 21:14 by lq493392203
[基金申请] 体制内长辈说体制内绝大部分一辈子在底层，如同你们一样大部分普通教师忙且收入低 +9	瞬息宇宙 2026-02-20	12/600	2026-02-21 10:39 by 欢乐颂叶蓁

24小时热门版块排行榜

jermerneyyin

[求助] 自适应动态规划和强化学习的区别 已有2人参与

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

1132520084

【答案】应助回帖

ucihqtep

【答案】应助回帖

[求助] 自适应动态规划和强化学习的区别已有2人参与