| 查看: 803 | 回复: 0 | |||
| 【悬赏金币】回答本帖问题,作者薛西弗斯P将赠送您 20 个金币 | |||
[求助]
深度强化学习控制问题
|
|||
最近尝试使用深度强化学习算法SAC简单实现系统跟踪问题:模型为线性定常的带有高斯白噪声的系统。想通过算法实现:给定一个固定状态,通过系统的状态反馈,由智能体产生控制量使得系统的状态稳定在这个状态。但几经修改奖励函数,agent学习到的策略并不能使系统稳定在特定的状态,而是跟踪了一个匀加速直线运动的形式。因此想请教一下大家,有没有遇到类似的情况,又该如何解决?![]() x' 和 y'的轨迹,不论奖励函数是什么,输出总是类似的形式,改变的只有斜率的大小。 |
» 猜你喜欢
2025冷门绝学什么时候出结果
已经有3人回复
天津工业大学郑柳春团队欢迎化学化工、高分子化学或有机合成方向的博士生和硕士生加入
已经有4人回复
康复大学泰山学者周祺惠团队招收博士研究生
已经有6人回复
AI论文写作工具:是科研加速器还是学术作弊器?
已经有3人回复
孩子确诊有中度注意力缺陷
已经有6人回复
2026博士申请-功能高分子,水凝胶方向
已经有6人回复
论文投稿,期刊推荐
已经有4人回复
硕士和导师闹得不愉快
已经有13人回复
请问2026国家基金面上项目会启动申2停1吗
已经有5人回复
同一篇文章,用不同账号投稿对编辑决定是否送审有没有影响?
已经有3人回复














回复此楼