24小时热门版块排行榜

返回列表

【悬赏金币】回答本帖问题，作者薛西弗斯P将赠送您 20 个金币

薛西弗斯P

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 56.2
帖子: 19
在线: 1.9小时
虫号: 28642707
注册: 2022-02-23
专业: 新闻学与传播学

[求助] 深度强化学习控制问题

最近尝试使用深度强化学习算法SAC简单实现系统跟踪问题：模型为线性定常的带有高斯白噪声的系统。想通过算法实现：给定一个固定状态，通过系统的状态反馈，由智能体产生控制量使得系统的状态稳定在这个状态。但几经修改奖励函数，agent学习到的策略并不能使系统稳定在特定的状态，而是跟踪了一个匀加速直线运动的形式。因此想请教一下大家，有没有遇到类似的情况，又该如何解决？

x' 和 y'的轨迹，不论奖励函数是什么，输出总是类似的形式，改变的只有斜率的大小。

回复此楼

» 猜你喜欢

面上提前没消息，有中的吗已经有5人回复
2026年国自然面上资助率已经有21人回复
基础研究怎么拉横向，学校到款任务越来越多，难以完成拉横向，都有哪些途径啊已经有10人回复
2027年申博已经有3人回复
一个有机合成实验室都需要哪些设备？已经有7人回复
面上再次挂了，太难了，躺也躺不了，倦也卷不过，小学校之殇！已经有22人回复
微信指数没变化，科研之友没阅读已经有18人回复
HXDI做水性聚氨酯乳液，是不是特别容易出渣已经有3人回复
系统今天又提示维护了，估计离放榜不远了已经有15人回复
你们的时间戳变了吗已经有4人回复

1楼 2024-04-19 15:22:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主薛西弗斯P 的主题更新

返回列表

不应助 确定回帖应助 (注意：应助才可能被奖励，但不允许灌水，必须填写15个字符以上)

普通表情龙兔虎猫