24小时热门版块排行榜    

查看: 984  |  回复: 6
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

sailovego

新虫 (初入文坛)

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了.
一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖


sailovego: 金币+1, 有帮助 2013-03-13 10:09:53
引用回帖:
5楼: Originally posted by sailovego at 2013-03-12 19:58:20
我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的 ...

不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”
6楼2013-03-13 03:02:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 7 个回答

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。
2楼2013-03-12 04:39:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗,
3楼2013-03-12 10:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

引用回帖:
3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗,...

是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?
4楼2013-03-12 12:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 网络空间安全0839招调剂 +3 w320357296 2026-03-25 4/200 2026-03-25 14:45 by gkm2008518
[考研] 303求调剂 +3 蓝山月 2026-03-25 3/150 2026-03-25 10:04 by 雾散后相遇lc
[考研] 上海电力大学材料防护与新材料重点实验室招收调剂研究生(材料、化学、电化学,环境) +4 我爱学电池 2026-03-23 4/200 2026-03-25 00:59 by 1027_324
[考研] 085601求调剂总分293英一数二 +3 钢铁大炮 2026-03-24 3/150 2026-03-24 22:03 by bingxueer79
[考研] 调剂 +4 13853210211 2026-03-24 4/200 2026-03-24 19:44 by ms629
[考研] 306求0703调剂一志愿华中师范 +10 纸鱼ly 2026-03-21 11/550 2026-03-24 17:22 by qingfeng258
[考研] 求调剂 +5 林之夕 2026-03-24 5/250 2026-03-24 17:16 by dick_runner
[考研] 085404电子信息284分求调剂 +4 13659058978 2026-03-24 4/200 2026-03-24 12:15 by syl20081243
[考研] 341求调剂(一志愿湖南大学070300) +5 番茄头--- 2026-03-22 6/300 2026-03-23 23:45 by Txy@872106
[考研] 工科0856求调剂 +5 沐析汀汀 2026-03-21 5/250 2026-03-23 17:56 by 海瑟薇-
[论文投稿] 急发核心期刊论文 +3 贤达问津 2026-03-23 5/250 2026-03-23 17:13 by 妹子不好惹
[考研] 350求调剂 +6 weudhdk 2026-03-19 6/300 2026-03-23 15:47 by tangyuan0840221
[考研] 070300,一志愿北航320求调剂 +3 Jerry0216 2026-03-22 5/250 2026-03-23 09:16 by 。。堂堂
[考研] 306求调剂 +5 来好运来来来 2026-03-22 5/250 2026-03-22 16:17 by BruceLiu320
[考研] 319求调剂 +4 小力气珂珂 2026-03-20 4/200 2026-03-22 15:53 by ColorlessPI
[考研] 275求调剂 +6 shansx 2026-03-22 8/400 2026-03-22 15:27 by barlinike
[考研] 一志愿华中科技大学071000,求调剂 +4 沿岸有贝壳6 2026-03-21 4/200 2026-03-22 07:21 by ilovexiaobin
[考研] 求助 +5 梦里的无言 2026-03-21 6/300 2026-03-21 17:51 by 学员8dgXkO
[考研] 279求调剂 +5 红衣隐官 2026-03-21 5/250 2026-03-21 14:59 by lature00
[考研] 一志愿吉林大学材料学硕321求调剂 +11 Ymlll 2026-03-18 15/750 2026-03-20 19:40 by 丁丁*
信息提示
请填处理意见