| 查看: 904 | 回复: 6 | ||
[求助]
关于强化学习的一个问题
|
|
Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)] 如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了. 一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了 |
» 猜你喜欢
实验室接单子
已经有3人回复
要不要辞职读博?
已经有5人回复
不自信的我
已经有10人回复
磺酰氟产物,毕不了业了!
已经有8人回复
求助:我三月中下旬出站,青基依托单位怎么办?
已经有10人回复
26申博(荧光探针方向,有机合成)
已经有4人回复
论文终于录用啦!满足毕业条件了
已经有26人回复
2026年机械制造与材料应用国际会议 (ICMMMA 2026)
已经有4人回复
Cas 72-43-5需要30g,定制合成,能接单的留言
已经有8人回复
北京211副教授,35岁,想重新出发,去国外做博后,怎么样?
已经有8人回复
» 本主题相关价值贴推荐,对您同样有帮助:
名师教学思想与教法研究—《课堂教学常见问题处理技能强化训练》【转载】
已经有283人回复
请教关于考研准备后期英语学习的问题
已经有11人回复
请教数学学习规划问题
已经有8人回复
关于托福报班的一个问题
已经有6人回复
我想问个问题,怎么才能克服在听英语的时候自动翻译,如果不翻译就听不懂的现象呀
已经有8人回复
关于简历中学习和工作的时间连续性问题
已经有9人回复
求助:机器学习和模式识别领域的一个基本问题
已经有5人回复
申请博后关于提供学习成绩单的问题
已经有13人回复
一篇关于基于强化学习的跟踪算法请问投哪些SCI期刊好中?感谢
已经有4人回复
请教关于粉末冶金法制备颗粒弥散强化铜基复合材料工艺中的成型剂和润滑剂问题
已经有7人回复
【专题】学习生物专业的人的工作问题
已经有33人回复
【求助】关于时效强化问题。
已经有12人回复
【问题求助】怎么才能让我快快的进入学习状态啊
已经有39人回复
【问题求助】我该怎么办?脑袋里面总想着一个人,或一件事,而无法专心学习和工作。
已经有76人回复
请教关于表面增强拉曼散射的问题, 谢谢!
已经有3人回复
求助:怎样增强论文的理论性?
已经有5人回复
dreamrequiem
木虫 (小有名气)
- 应助: 17 (小学生)
- 金币: 3948.3
- 红花: 3
- 帖子: 186
- 在线: 1215.4小时
- 虫号: 1302136
- 注册: 2011-05-21
- 专业: 人工智能与知识工程
2楼2013-03-12 04:39:49
3楼2013-03-12 10:26:23
dreamrequiem
木虫 (小有名气)
- 应助: 17 (小学生)
- 金币: 3948.3
- 红花: 3
- 帖子: 186
- 在线: 1215.4小时
- 虫号: 1302136
- 注册: 2011-05-21
- 专业: 人工智能与知识工程
4楼2013-03-12 12:44:16
5楼2013-03-12 19:58:20
dreamrequiem
木虫 (小有名气)
- 应助: 17 (小学生)
- 金币: 3948.3
- 红花: 3
- 帖子: 186
- 在线: 1215.4小时
- 虫号: 1302136
- 注册: 2011-05-21
- 专业: 人工智能与知识工程
6楼2013-03-13 03:02:52
7楼2013-03-13 10:09:38












回复此楼