CyRhmU.jpeg
查看: 803  |  回复: 0
【悬赏金币】回答本帖问题,作者薛西弗斯P将赠送您 20 个金币

薛西弗斯P

新虫 (初入文坛)

[求助] 深度强化学习控制问题

最近尝试使用深度强化学习算法SAC简单实现系统跟踪问题:模型为线性定常的带有高斯白噪声的系统。想通过算法实现:给定一个固定状态,通过系统的状态反馈,由智能体产生控制量使得系统的状态稳定在这个状态。但几经修改奖励函数,agent学习到的策略并不能使系统稳定在特定的状态,而是跟踪了一个匀加速直线运动的形式。因此想请教一下大家,有没有遇到类似的情况,又该如何解决?
x' 和 y'的轨迹,不论奖励函数是什么,输出总是类似的形式,改变的只有斜率的大小。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 薛西弗斯P 的主题更新
不应助 确定回帖应助 (注意:应助才可能被奖励,但不允许灌水,必须填写15个字符以上)
信息提示
请填处理意见